[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:giza [2009/06/02 13:20]
zeman Cesta k jazykovému modelu musí být absolutní.
user:zeman:giza [2009/06/03 12:07]
zeman Jednotlivé trénovací kroky.
Line 47: Line 47:
  
 Ohlásilo to, že z 50000 vět zbylo 42737. Ohlásilo to, že z 50000 vět zbylo 42737.
 +
 +
 +
  
  
Line 61: Line 64:
 <code>nohup nice $MOSES/tools/moses-scripts/scripts-20090128-1534/training/train-factored-phrase-model.perl \ <code>nohup nice $MOSES/tools/moses-scripts/scripts-20090128-1534/training/train-factored-phrase-model.perl \
     -scripts-root-dir $MOSES/tools/moses-scripts/scripts-20090128-1534/ \     -scripts-root-dir $MOSES/tools/moses-scripts/scripts-20090128-1534/ \
-    -root-dir work \+    -root-dir \
     -corpus ./train.lowercased -f en -e hi \     -corpus ./train.lowercased -f en -e hi \
     -alignment grow-diag-final-and \     -alignment grow-diag-final-and \
Line 68: Line 71:
     >& training.out &     >& training.out &
 </code> </code>
 +
 +Uvedený skript se mi zasekl krátce před vytvořením vlastního symetrického párování, protože nějak špatně odkazoval na jiné skripty uvnitř vygenerované složky (měl v cestě "training/training" tam, kde měl mít jenom "training"). Prozatím jsem to fixnul ručně a vyrobil jsem soubor ''model/aligned.grow-diag-final-and'', jehož obsah vypadá podobně jako vzorová data u Joshuy, tj. asi mám připravená data pro Joshuu.
 +
 +Uvedený trénovací skript Mosese má na starosti mnohem více úkonů než jen volání Gizy. Úkony jsou rozdělené do kroků a můžeme provést jen některé kroky. Kroky jsou následující:
 +
 +  - prepare() - pracuje s faktory, nahrazuje slova v korpusu číselnými odkazy do slovníku, volá ''mkcls'' (make classes)
 +  - run_giza() - pustí paralelně 2 alignovací procesy, ze zdroje na cíl a z cíle na zdroj
 +  - word_align() - zkombinuje výsledky obou Giz, aby získal jedno slovní párování. Volá ''symal''. Tady se uplatní symetrizační heuristika (např. //grow-diag-final-and//)
 +  - get_lexical_factored()
 +  - extract_phrase_factored()
 +  - score_phrase_factored()
 +  - get_reordering_factored()
 +  - get_generation_factored()
 +  - create_ini()
 +
 +Pokud to děláme kvůli Joshuovi, potřebujeme pustit jen prvních pár kroků.
 +

[ Back to the navigation ] [ Back to the content ]