Differences

This shows you the differences between two versions of the page.

--- user:zeman:preklad-morfemu [2010/12/15 13:57]
zeman Předzpracování paralelních dat.
+++ user:zeman:preklad-morfemu [2010/12/15 15:29]
zeman Umístění souborů.
@@ Line 6: / Line 6: @@
   * Předcházející pokusy proběhly v rámci přípravy výuky o neřízené morfematické segmentaci.
     * /net/work/people/zeman/enlex
-    * Do nástrojů vede odkaz z enlex.
-    * Přesto je novější verze v TectoMT.
-    * Je v ní také můj skript train.pl.
   * Rozebrat Morfessorem všechna anglická a česká trénovací, vývojová i testovací data.
     * Vybrat vhodný malý pokus s malými daty, na kterých se to provede.
@@ Line 17: / Line 14: @@
 ===== Morfessor =====
-Morfessor mám momentálně na dvou místech:
+Morfessor mám momentálně v&nbsp;TectoMT, ale vede na něj také symbolický odkaz z&nbsp;nástrojů:
-  * ''/home/zeman/nastroje/morfessor''
   * ''$TMT_ROOT/personal/zeman/morfessor''
+  * ''/home/zeman/nastroje/morfessor''
-Verze v&nbsp;TectoMT je aktuálnější a ta druhá by se měla smazat nebo nahradit symbolickým odkazem. V&nbsp;TectoMT je také můj obalovací skript ''train.pl''.
+Verze v&nbsp;TectoMT obsahuje moje úpravy Morfessora (např. práce s&nbsp;texty v&nbsp;UTF-8) a také můj obalovací skript ''train.pl''.
+===== Umístění souborů =====
+Umístění programových souborů Morfessora nebo s&nbsp;Morfessorem souvisejících je popsáno výše.
+Paralelní data, na která se to celé bude aplikovat, typicky leží v&nbsp;příslušné složce ''augmented_corpora''. Předpokládám, že tam také budou ležet segmentované verze těchto korpusů po průchodu Morfessorem.
+Pracovní složka pro Morfessora a všechna data, která souvisejí s&nbsp;konkrétním jazykem, ale nikoli s&nbsp;konkrétním korpusem pro tento jazyk, by měla ležet jinde. Asi by to mohlo být ''/net/work/people/zeman/morfessor'', kam by se přesunuly i současné složky ''cslex'' a ''enlex''.
 ===== Předzpracování paralelních dat Morfessorem =====
@@ Line 28: / Line 33: @@
 Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data.
+  * Uvést cestu k&nbsp;''augmented_corpora''.
+  * Uvést kód jazyka, který chceme rozebrat.
+  * Vyjmenovat korpusy, ze kterých chceme texty v&nbsp;tomto jazyce použít.
+  * Postupně otevřít (včetně rozgzipování) všechny korpusy a prohnat je frekvenčním slovníkem.
+  * ''$STATMT/scripts/freqdict.pl''
+    * Pro Morfessor je ještě třeba prohodit sloupce (nejdřív četnost, pak slovo).
+    * <code perl>perl -pe 's/\r?\n$//; s/^(.*?)\t(\d+)/$2 $1\n/;' < freqdict.txt > formorfessor.txt</code>
+  * Potom zavolat Morfessor:
+  * ''$TMT_ROOT/personal/zeman/morfessor/bin/train.pl < formorfessor.txt > freqdict.morfessor.txt''
+  * To celé raději pouštět na clusteru.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences