====== Překlad morfémů ======

===== Zbývá udělat =====

  * Rozebrat Morfessorem všechna anglická a česká trénovací, vývojová i testovací data.
    * Vybrat vhodný malý pokus s malými daty, na kterých se to provede.
    * Pozor! Pokud pustím Morfessora na malých datech, bude dávat horší výsledky, než když ho pustím na velkých!
  * Pustit Joshuu včetně Gizy.
  * Prozkoumat, co vypadlo z Gizy, protože to bude hlavní zajímavost do článku.

===== Morfessor =====

Morfessor mám momentálně v&nbsp;TectoMT, ale vede na něj také symbolický odkaz z&nbsp;nástrojů:
  * ''$TMT_ROOT/personal/zeman/morfessor''
  * ''/home/zeman/nastroje/morfessor''

Verze v&nbsp;TectoMT obsahuje moje úpravy Morfessora (např. práce s&nbsp;texty v&nbsp;UTF-8) a také můj obalovací skript ''train.pl''.

===== Umístění souborů =====

Umístění programových souborů Morfessora nebo s&nbsp;Morfessorem souvisejících je popsáno výše.

Paralelní data, na která se to celé bude aplikovat, typicky leží v&nbsp;příslušné složce ''augmented_corpora''. Předpokládám, že tam také budou ležet segmentované verze těchto korpusů po průchodu Morfessorem.

Pracovní složka pro Morfessora a všechna data, která souvisejí s&nbsp;konkrétním jazykem, ale nikoli s&nbsp;konkrétním korpusem pro tento jazyk, by měla ležet jinde. Založil jsem na to složku ''/net/work/people/zeman/morfessor''. Přesunul jsem do ní i starší složky ''cslex'' a ''enlex'', ve kterých jsou první pokusy s&nbsp;Morfessorem, které proběhly v&nbsp;rámci přípravy výuky o neřízené morfematické segmentaci.

===== Předzpracování paralelních dat Morfessorem =====

Morfessor čte frekvenční slovník (na každém řádku četnost, mezera, slovo). Nejdříve mu ho tedy musíme vyrobit z&nbsp;jednojazyčné části paralelního korpusu (a klidně můžeme přihodit libovolné další texty v&nbsp;tomtéž jazyku, čím více a čím různorodější, tím lépe – Morfessor pak bude mít více materiálu pro správné určení morfů).

Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data.

Program pro trénování Morfessora nad paralelními korpusy pro konkrétní jazyk se jmenuje ''actrain.pl''. Leží vedle Morfessora v&nbsp;''$TMT_ROOT/personal/zeman/morfessor/bin''. Zatím má v&nbsp;sobě zadrátovanou cestu k&nbsp;Morfessorovi, k&nbsp;''augmented_corpora'' (WMT) a k&nbsp;pracovní složce. Skript projde všechny paralelní korpusy v&nbsp;''augmented_corpora'', vybere z&nbsp;nich texty ve zvoleném jazyce, slepí je do jednoho jednojazyčného korpusu a na něm natrénuje Morfessor. Kód jazyka se předává jako parametr, např. takhle pro angličtinu:

<code bash>qsub.csh $TMT_ROOT/personal/zeman/morfessor/bin/actrain.pl -l en</code>

Když trénink doběhne, máme k&nbsp;dispozici 2 frekvenční seznamy slov, jeden před Morfessorem a jeden po něm: ''/net/work/people/zeman/morfessor/en/freqdict.txt'' a ''segmented.txt''. Ten druhý se dá použít pro předzpracování tokenizovaného textu v&nbsp;daném jazyce (ten byl pravděpodobně součástí trénovacích dat pro Morfessora, takže by neměl obsahovat žádná neznámá slova). Na to máme program ''morfseg.pl'':

<code bash>$TMT_ROOT/personal/zeman/morfessor/bin/morfseg.pl -m /net/work/people/zeman/morfessor/en/segmented.txt < tokenized.txt > segmented.txt</code>

Tímto programem chceme prohnat text v&nbsp;daném jazyce z&nbsp;každého paralelního korpusu. Výsledek chceme uložit u téhož paralelního korpusu. Bude mít stejný počet vět (řádků), ale jiný počet tokenů, proto ho musíme prohlásit za jiný jazyk. Např. ''en.gz'' --> ''enMorf.gz''. Program, který tohle provede se všemi korpusy v&nbsp;''augmented_corpora'' pro jeden jazyk, se jmenuje ''acmorfseg.pl'' a opět má v&nbsp;sobě zadrátované cesty.

==== Eman ====

V&nbsp;březnu 2012 tyto pokusy oživuju a zakládám na to nové druhy kroků v&nbsp;Emanovi: morfessor pro instalaci Morfessora včetně mých doplňkových skriptů, morfmodel pro natrénování morfematického modelu pro konkrétní jazyk (zatím na všech korpusech z&nbsp;mých augmented corpora, cesta k&nbsp;nim je zadrátovaná ve zdrojáku). Plánuju i morfcorpus, který rozseká daný korpus modelem pro daný jazyk a výsledek zaregistruje v&nbsp;Corpmanovi.