Differences

This shows you the differences between two versions of the page.

--- user:zeman:giza [2009/06/02 12:14]
zeman Odstranění dlouhých vět.
+++ user:zeman:giza [2009/06/03 12:07]
zeman Jednotlivé trénovací kroky.
@@ Line 21: / Line 21: @@
 Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru.
 ===== Příprava dat =====
@@ Line 51: / Line 47: @@
 Ohlásilo to, že z 50000 vět zbylo 42737.
+===== Volání Gizy =====
+Než zavoláme Gizu, musíme mít z nějakého důvodu hotový [[SRILM|jazykový model]]<nowiki>!</nowiki>
+Moses obsahuje skript, který hezky obaluje volání mkcls a Gizy++ a generuje frázové a přeskládávací tabulky, které potřebuje dekodér. Volá se takhle (pozor, cesta k jazykovému modelu musí být **absolutní**):
+<code>nohup nice $MOSES/tools/moses-scripts/scripts-20090128-1534/training/train-factored-phrase-model.perl \
+    -scripts-root-dir $MOSES/tools/moses-scripts/scripts-20090128-1534/ \
+    -root-dir . \
+    -corpus ./train.lowercased -f en -e hi \
+    -alignment grow-diag-final-and \
+    -reordering msd-bidirectional-fe \
+    -lm 0:3:/net/work/people/zeman/hindstina/lm/train.lowercased.hi.lm \
+    >& training.out &
+</code>
+Uvedený skript se mi zasekl krátce před vytvořením vlastního symetrického párování, protože nějak špatně odkazoval na jiné skripty uvnitř vygenerované složky (měl v cestě "training/training" tam, kde měl mít jenom "training"). Prozatím jsem to fixnul ručně a vyrobil jsem soubor ''model/aligned.grow-diag-final-and'', jehož obsah vypadá podobně jako vzorová data u Joshuy, tj. asi mám připravená data pro Joshuu.
+Uvedený trénovací skript Mosese má na starosti mnohem více úkonů než jen volání Gizy. Úkony jsou rozdělené do kroků a můžeme provést jen některé kroky. Kroky jsou následující:
+  - prepare() - pracuje s faktory, nahrazuje slova v korpusu číselnými odkazy do slovníku, volá ''mkcls'' (make classes)
+  - run_giza() - pustí paralelně 2 alignovací procesy, ze zdroje na cíl a z cíle na zdroj
+  - word_align() - zkombinuje výsledky obou Giz, aby získal jedno slovní párování. Volá ''symal''. Tady se uplatní symetrizační heuristika (např. //grow-diag-final-and//)
+  - get_lexical_factored()
+  - extract_phrase_factored()
+  - score_phrase_factored()
+  - get_reordering_factored()
+  - get_generation_factored()
+  - create_ini()
+Pokud to děláme kvůli Joshuovi, potřebujeme pustit jen prvních pár kroků.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences