[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:preklad-morfemu [2010/12/15 13:57]
zeman Předzpracování paralelních dat.
user:zeman:preklad-morfemu [2010/12/15 14:18]
zeman
Line 17: Line 17:
 ===== Morfessor ===== ===== Morfessor =====
  
-Morfessor mám momentálně na dvou místech: +Morfessor mám momentálně v TectoMT, ale vede na něj také symbolický odkaz z nástrojů:
-  * ''/home/zeman/nastroje/morfessor''+
   * ''$TMT_ROOT/personal/zeman/morfessor''   * ''$TMT_ROOT/personal/zeman/morfessor''
 +  * ''/home/zeman/nastroje/morfessor''
  
-Verze v TectoMT je aktuálnější a ta druhá by se měla smazat nebo nahradit symbolickým odkazemV TectoMT je také můj obalovací skript ''train.pl''.+Verze v TectoMT obsahuje moje úpravy Morfessora (napřpráce s texty v UTF-8) a také můj obalovací skript ''train.pl''.
  
 ===== Předzpracování paralelních dat Morfessorem ===== ===== Předzpracování paralelních dat Morfessorem =====
Line 28: Line 28:
  
 Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data. Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data.
 +
 +  * Uvést cestu k ''augmented_corpora''.
 +  * Uvést kód jazyka, který chceme rozebrat.
 +  * Vyjmenovat korpusy, ze kterých chceme texty v tomto jazyce použít.
 +  * Postupně otevřít (včetně rozgzipování) všechny korpusy a prohnat je frekvenčním slovníkem.
 +  * ''$STATMT/scripts/freqdict.pl''
 +    * Pro Morfessor je ještě třeba prohodit sloupce (nejdřív četnost, pak slovo).
 +    * <code perl>perl -pe 's/\r?\n$//; s/^(.*?)\t(\d+)/$2 $1\n/;' < freqdict.txt > formorfessor.txt</code>
 +  * Potom zavolat Morfessor:
 +  * ''$TMT_ROOT/personal/zeman/morfessor/bin/train.pl < formorfessor.txt > freqdict.morfessor.txt''
 +  * To celé raději pouštět na clusteru.
  

[ Back to the navigation ] [ Back to the content ]