Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
user:zeman:preklad-morfemu [2010/12/15 14:17] zeman Předzpracování paralelních dat. |
user:zeman:preklad-morfemu [2010/12/16 11:14] zeman Aktualizace. |
||
---|---|---|---|
Line 3: | Line 3: | ||
===== Zbývá udělat ===== | ===== Zbývá udělat ===== | ||
- | * Znova rozchodit Morfessor. | ||
- | * Předcházející pokusy proběhly v rámci přípravy výuky o neřízené morfematické segmentaci. | ||
- | * / | ||
- | * Do nástrojů vede odkaz z enlex. | ||
- | * Přesto je novější verze v TectoMT. | ||
- | * Je v ní také můj skript train.pl. | ||
* Rozebrat Morfessorem všechna anglická a česká trénovací, | * Rozebrat Morfessorem všechna anglická a česká trénovací, | ||
* Vybrat vhodný malý pokus s malými daty, na kterých se to provede. | * Vybrat vhodný malý pokus s malými daty, na kterých se to provede. | ||
Line 22: | Line 16: | ||
Verze v& | Verze v& | ||
+ | |||
+ | ===== Umístění souborů ===== | ||
+ | |||
+ | Umístění programových souborů Morfessora nebo s& | ||
+ | |||
+ | Paralelní data, na která se to celé bude aplikovat, typicky leží v& | ||
+ | |||
+ | Pracovní složka pro Morfessora a všechna data, která souvisejí s& | ||
===== Předzpracování paralelních dat Morfessorem ===== | ===== Předzpracování paralelních dat Morfessorem ===== | ||
Line 29: | Line 31: | ||
Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data. | Pak ještě potřebujeme program, který načte Morfessorem navržené dělení trénovacích slov, zapamatuje si ho a aplikuje ho na libovolný tokenizovaný vstupní text. Tímto programem potom proženeme naše paralelní data. | ||
- | * Uvést | + | Program pro trénování Morfessora nad paralelními korpusy pro konkrétní jazyk se jmenuje '' |
- | * Uvést kód jazyka, který chceme rozebrat. | + | |
- | * Vyjmenovat korpusy, ze kterých chceme texty v tomto jazyce použít. | + | <code bash> |
- | * Postupně otevřít (včetně rozgzipování) | + | |
- | * '' | + | Když trénink doběhne, máme k& |
- | * Pro Morfessor je ještě třeba prohodit sloupce (nejdřív | + | |
- | * '' | + | <code bash>$TMT_ROOT/ |
- | * Potom zavolat Morfessor: | + | |
- | * '' | + | |
- | * To celé raději pouštět na clusteru. | + | |
+ | Tímto programem chceme prohnat text v& |