[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:preklad-morfemu [2010/12/15 13:45]
zeman Kde leží Morfessor.
user:zeman:preklad-morfemu [2010/12/15 13:57]
zeman Předzpracování paralelních dat.
Line 22: Line 22:
  
 Verze v TectoMT je aktuálnější a ta druhá by se měla smazat nebo nahradit symbolickým odkazem. V TectoMT je také můj obalovací skript ''train.pl''. Verze v TectoMT je aktuálnější a ta druhá by se měla smazat nebo nahradit symbolickým odkazem. V TectoMT je také můj obalovací skript ''train.pl''.
 +
 +===== Předzpracování paralelních dat Morfessorem =====
 +
 +Morfessor čte frekvenční slovník (na každém řádku četnost, mezera, slovo). Nejdříve mu ho tedy musíme vyrobit z jednojazyčné části paralelního korpusu (a klidně můžeme přihodit libovolné další texty v tomtéž jazyku, čím více a čím různorodější, tím lépe – Morfessor pak bude mít více materiálu pro správné určení morfů).
 +
 +Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data.
  

[ Back to the navigation ] [ Back to the content ]