Differences

This shows you the differences between two versions of the page.

--- user:zeman:preklad-morfemu [2010/12/15 14:05]
zeman Starší kopie Morfessora odstraněna.
+++ user:zeman:preklad-morfemu [2010/12/15 14:17]
zeman Předzpracování paralelních dat.
@@ Line 28: / Line 28: @@
 Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data.
+  * Uvést cestu k&nbsp;''augmented_corpora''.
+  * Uvést kód jazyka, který chceme rozebrat.
+  * Vyjmenovat korpusy, ze kterých chceme texty v&nbsp;tomto jazyce použít.
+  * Postupně otevřít (včetně rozgzipování) všechny korpusy a prohnat je frekvenčním slovníkem.
+  * ''$STATMT/scripts/freqdict.pl''
+    * Pro Morfessor je ještě třeba prohodit sloupce (nejdřív četnost, pak slovo).
+    * ''perl -pe 's/\r?\n$//; s/^(.*?)\t(\d+)/$2 $1\n/;' < freqdict.txt > formorfessor.txt''
+  * Potom zavolat Morfessor:
+  * ''$TMT_ROOT/personal/zeman/morfessor/bin/train.pl < formorfessor.txt > freqdict.morfessor.txt''
+  * To celé raději pouštět na clusteru.

Institute of Formal and Applied Linguistics Wiki