Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:giza [2009/06/02 12:04] zeman Latinská písmena v hindštině. |
user:zeman:giza [2009/06/03 18:48] (current) zeman Příprava dat přesunuta na samostatnou stránku. |
||
---|---|---|---|
Line 22: | Line 22: | ||
Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru. | Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru. | ||
+ | ===== Příprava dat ===== | ||
+ | Viz [[Příprava paralelního korpusu|zde]]. | ||
+ | ===== Volání Gizy ===== | ||
- | ===== Příprava dat ===== | + | Než zavoláme Gizu, musíme mít z nějakého důvodu hotový [[SRILM|jazykový model]]< |
+ | |||
+ | Pro konkrétní pokusy s hindštinou už mám upravené volání Gizy++ nachystané ve skriptu '' | ||
+ | |||
+ | Moses obsahuje skript, který hezky obaluje volání mkcls a Gizy++ a generuje frázové a přeskládávací tabulky, které potřebuje dekodér. Volá se takhle (pozor, cesta k jazykovému modelu musí být **absolutní**): | ||
+ | |||
+ | < | ||
+ | -scripts-root-dir $MOSES/ | ||
+ | -root-dir . \ | ||
+ | -corpus ./ | ||
+ | -alignment grow-diag-final-and \ | ||
+ | -reordering msd-bidirectional-fe \ | ||
+ | -lm 0: | ||
+ | >& training.out & | ||
+ | </ | ||
- | Pro přípravu dat potřebujeme | + | Uvedený skript se mi zasekl krátce |
- | * Tokenizace trénovacích dat (zdrojový i cílový jazyk) | + | |
- | * "Lowercasing", | + | |
- | * Odstranění dlouhých vět (např. delších než 40 tokenů). Není to nezbytné, | + | |
- | Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen | + | Uvedený trénovací skript Mosese má na starosti mnohem více úkonů než jen volání Gizy. Úkony jsou rozdělené do kroků a můžeme provést jen některé kroky. Kroky jsou následující: |
- | < | + | - prepare() - pracuje s faktory, nahrazuje slova v korpusu číselnými odkazy do slovníku, volá '' |
- | cd / | + | - run_giza() - pustí paralelně 2 alignovací procesy, ze zdroje na cíl a z cíle na zdroj |
- | cp $DATA/ | + | - word_align() - zkombinuje výsledky obou Giz, aby získal jedno slovní párování. Volá '' |
- | cp $DATA/para/en/icon/train.tok train.tok.en | + | - get_lexical_factored() |
- | $MOSES/ | + | - extract_phrase_factored() |
- | $MOSES/ | + | - score_phrase_factored() |
+ | - get_reordering_factored() | ||
+ | - get_generation_factored() | ||
+ | - create_ini() | ||
- | Zvláštní. Diff se tváří, že hindská data se lowercasingem opravdu změnila, a změněných | + | Pokud to děláme kvůli Joshuovi, potřebujeme pustit jen prvních pár kroků. |
- | K tomu Gauravův komentář: Tam, kde se vyskytne celá posloupnost latinských znaků (opravdu asi stačí 2 a více za sebou), jde o nějakou divnou, často pro normálního Hinda nečitelnou romanizaci, kterou někdo nezkonvertoval zpátky. Tohle bude nejlepší prostě vyhodit. Pak se také občas objevuje samotné písmeno, přilepené nebo vložené do slova v dévanágarí. Viděli jsme Z, L a Q, ale mohou být i další. Je možné, že jsou to také nezkonvertované znaky. Z jsme viděli většinou | + | **Pozor!** Jestliže pustíme Gizu opakovaně ve stejné složce, bude mít tendenci využít staré mezisoubory |