[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:preklad-morfemu [2010/12/15 13:45]
zeman Kde leží Morfessor.
user:zeman:preklad-morfemu [2010/12/15 14:05]
zeman Starší kopie Morfessora odstraněna.
Line 17: Line 17:
 ===== Morfessor ===== ===== Morfessor =====
  
-Morfessor mám momentálně na dvou místech: +Morfessor mám momentálně v TectoMT, ale vede na něj také symbolický odkaz z nástrojů:
-  * ''/home/zeman/nastroje/morfessor''+
   * ''$TMT_ROOT/personal/zeman/morfessor''   * ''$TMT_ROOT/personal/zeman/morfessor''
 +  * ''/home/zeman/nastroje/morfessor''
 +
 +Verze v TectoMT obsahuje moje úpravy Morfessora (např. práce s texty v UTF-8) a také můj obalovací skript ''train.pl''.
 +
 +===== Předzpracování paralelních dat Morfessorem =====
 +
 +Morfessor čte frekvenční slovník (na každém řádku četnost, mezera, slovo). Nejdříve mu ho tedy musíme vyrobit z jednojazyčné části paralelního korpusu (a klidně můžeme přihodit libovolné další texty v tomtéž jazyku, čím více a čím různorodější, tím lépe – Morfessor pak bude mít více materiálu pro správné určení morfů).
  
-Verze v TectoMT je aktuálnější ta druhá by se měla smazat nebo nahradit symbolickým odkazemV TectoMT je také můj obalovací skript ''train.pl''.+Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho aplikuje ho na libovolný tokenizovaný vstupní textTímto programem potom proženeme naše paralelní data.
  

[ Back to the navigation ] [ Back to the content ]