Differences

This shows you the differences between two versions of the page.

--- user:zeman:preklad-morfemu [2010/12/14 17:44]
zeman vytvořeno
+++ user:zeman:preklad-morfemu [2010/12/15 14:05]
zeman Starší kopie Morfessora odstraněna.
@@ Line 1: / Line 1: @@
 ====== Překlad morfémů ======
+===== Zbývá udělat =====
   * Znova rozchodit Morfessor.
   * Předcházející pokusy proběhly v rámci přípravy výuky o neřízené morfematické segmentaci.
     * /net/work/people/zeman/enlex
-    * Vlastní Morfessor mám na dvou místech, jednak v /home/zeman/nastroje/morfessor, jednak v TectoMT/personal/zeman.
     * Do nástrojů vede odkaz z enlex.
     * Přesto je novější verze v TectoMT.
@@ Line 13: / Line 14: @@
   * Pustit Joshuu včetně Gizy.
   * Prozkoumat, co vypadlo z Gizy, protože to bude hlavní zajímavost do článku.
+===== Morfessor =====
+Morfessor mám momentálně v&nbsp;TectoMT, ale vede na něj také symbolický odkaz z&nbsp;nástrojů:
+  * ''$TMT_ROOT/personal/zeman/morfessor''
+  * ''/home/zeman/nastroje/morfessor''
+Verze v&nbsp;TectoMT obsahuje moje úpravy Morfessora (např. práce s&nbsp;texty v&nbsp;UTF-8) a také můj obalovací skript ''train.pl''.
+===== Předzpracování paralelních dat Morfessorem =====
+Morfessor čte frekvenční slovník (na každém řádku četnost, mezera, slovo). Nejdříve mu ho tedy musíme vyrobit z&nbsp;jednojazyčné části paralelního korpusu (a klidně můžeme přihodit libovolné další texty v&nbsp;tomtéž jazyku, čím více a čím různorodější, tím lépe – Morfessor pak bude mít více materiálu pro správné určení morfů).
+Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences