Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:preklad-morfemu [2010/12/14 17:44] zeman vytvořeno |
user:zeman:preklad-morfemu [2010/12/15 13:57] zeman Předzpracování paralelních dat. |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Překlad morfémů ====== | ====== Překlad morfémů ====== | ||
+ | |||
+ | ===== Zbývá udělat ===== | ||
* Znova rozchodit Morfessor. | * Znova rozchodit Morfessor. | ||
* Předcházející pokusy proběhly v rámci přípravy výuky o neřízené morfematické segmentaci. | * Předcházející pokusy proběhly v rámci přípravy výuky o neřízené morfematické segmentaci. | ||
* / | * / | ||
- | * Vlastní Morfessor mám na dvou místech, jednak v / | ||
* Do nástrojů vede odkaz z enlex. | * Do nástrojů vede odkaz z enlex. | ||
* Přesto je novější verze v TectoMT. | * Přesto je novější verze v TectoMT. | ||
Line 13: | Line 14: | ||
* Pustit Joshuu včetně Gizy. | * Pustit Joshuu včetně Gizy. | ||
* Prozkoumat, co vypadlo z Gizy, protože to bude hlavní zajímavost do článku. | * Prozkoumat, co vypadlo z Gizy, protože to bude hlavní zajímavost do článku. | ||
+ | |||
+ | ===== Morfessor ===== | ||
+ | |||
+ | Morfessor mám momentálně na dvou místech: | ||
+ | * ''/ | ||
+ | * '' | ||
+ | |||
+ | Verze v& | ||
+ | |||
+ | ===== Předzpracování paralelních dat Morfessorem ===== | ||
+ | |||
+ | Morfessor čte frekvenční slovník (na každém řádku četnost, mezera, slovo). Nejdříve mu ho tedy musíme vyrobit z& | ||
+ | |||
+ | Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data. | ||