[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Překlad morfémů

Zbývá udělat

Morfessor

Morfessor mám momentálně na dvou místech:

Verze v TectoMT je aktuálnější a ta druhá by se měla smazat nebo nahradit symbolickým odkazem. V TectoMT je také můj obalovací skript train.pl.

Předzpracování paralelních dat Morfessorem

Morfessor čte frekvenční slovník (na každém řádku četnost, mezera, slovo). Nejdříve mu ho tedy musíme vyrobit z jednojazyčné části paralelního korpusu (a klidně můžeme přihodit libovolné další texty v tomtéž jazyku, čím více a čím různorodější, tím lépe – Morfessor pak bude mít více materiálu pro správné určení morfů).

Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data.


[ Back to the navigation ] [ Back to the content ]