Differences
This shows you the differences between two versions of the page.
Both sides previous revision
Previous revision
|
|
user:zeman:preklad-morfemu [2010/12/16 11:14] zeman Aktualizace. |
user:zeman:preklad-morfemu [2012/03/19 22:32] (current) zeman Eman a Morfessor. |
| |
Tímto programem chceme prohnat text v daném jazyce z každého paralelního korpusu. Výsledek chceme uložit u téhož paralelního korpusu. Bude mít stejný počet vět (řádků), ale jiný počet tokenů, proto ho musíme prohlásit za jiný jazyk. Např. ''en.gz'' --> ''enMorf.gz''. Program, který tohle provede se všemi korpusy v ''augmented_corpora'' pro jeden jazyk, se jmenuje ''acmorfseg.pl'' a opět má v sobě zadrátované cesty. | Tímto programem chceme prohnat text v daném jazyce z každého paralelního korpusu. Výsledek chceme uložit u téhož paralelního korpusu. Bude mít stejný počet vět (řádků), ale jiný počet tokenů, proto ho musíme prohlásit za jiný jazyk. Např. ''en.gz'' --> ''enMorf.gz''. Program, který tohle provede se všemi korpusy v ''augmented_corpora'' pro jeden jazyk, se jmenuje ''acmorfseg.pl'' a opět má v sobě zadrátované cesty. |
| |
| ==== Eman ==== |
| |
| V březnu 2012 tyto pokusy oživuju a zakládám na to nové druhy kroků v Emanovi: morfessor pro instalaci Morfessora včetně mých doplňkových skriptů, morfmodel pro natrénování morfematického modelu pro konkrétní jazyk (zatím na všech korpusech z mých augmented corpora, cesta k nim je zadrátovaná ve zdrojáku). Plánuju i morfcorpus, který rozseká daný korpus modelem pro daný jazyk a výsledek zaregistruje v Corpmanovi. |