[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:preklad-morfemu [2010/12/16 11:14]
zeman Aktualizace.
user:zeman:preklad-morfemu [2012/03/19 22:32] (current)
zeman Eman a Morfessor.
Line 40: Line 40:
  
 Tímto programem chceme prohnat text v daném jazyce z každého paralelního korpusu. Výsledek chceme uložit u téhož paralelního korpusu. Bude mít stejný počet vět (řádků), ale jiný počet tokenů, proto ho musíme prohlásit za jiný jazyk. Např. ''en.gz'' --> ''enMorf.gz''. Program, který tohle provede se všemi korpusy v ''augmented_corpora'' pro jeden jazyk, se jmenuje ''acmorfseg.pl'' a opět má v sobě zadrátované cesty. Tímto programem chceme prohnat text v daném jazyce z každého paralelního korpusu. Výsledek chceme uložit u téhož paralelního korpusu. Bude mít stejný počet vět (řádků), ale jiný počet tokenů, proto ho musíme prohlásit za jiný jazyk. Např. ''en.gz'' --> ''enMorf.gz''. Program, který tohle provede se všemi korpusy v ''augmented_corpora'' pro jeden jazyk, se jmenuje ''acmorfseg.pl'' a opět má v sobě zadrátované cesty.
 +
 +==== Eman ====
 +
 +V březnu 2012 tyto pokusy oživuju a zakládám na to nové druhy kroků v Emanovi: morfessor pro instalaci Morfessora včetně mých doplňkových skriptů, morfmodel pro natrénování morfematického modelu pro konkrétní jazyk (zatím na všech korpusech z mých augmented corpora, cesta k nim je zadrátovaná ve zdrojáku). Plánuju i morfcorpus, který rozseká daný korpus modelem pro daný jazyk a výsledek zaregistruje v Corpmanovi.

[ Back to the navigation ] [ Back to the content ]