Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:morpho-challenge-2008 [2008/06/27 12:02] zeman Popis výstupních souborů. |
user:zeman:morpho-challenge-2008 [2008/06/27 16:58] zeman Segmentace hotová. |
||
---|---|---|---|
Line 48: | Line 48: | ||
Skript '' | Skript '' | ||
- | ===== Zbývá udělat ===== | + | ===== Morfematická segmentace |
- | + | ||
- | * Vzít testovací data a mnou natrénované kmeny a koncovky a provést morfematickou segmentaci testovacích dat. Jedno slovo může být rozebráno několika způsoby. Morfémy mohou být identifikovány libovolným řetězcem, takže je nemusíme převádět zpět do původního kódování, | + | |
- | * Vyzkoušet skórování. | + | |
- | * Pustit celý algoritmus na převrácená slova a získat předpony. | + | |
- | * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s& | + | |
- | + | ||
- | ==== Morfematická segmentace ==== | + | |
Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce. | Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce. | ||
Line 63: | Line 56: | ||
Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | ||
< | < | ||
+ | |||
+ | < | ||
+ | foreach l (ar de en fi tr) | ||
+ | $MC/ | ||
+ | end</ | ||
+ | |||
+ | ===== Úprava výstupu před odesláním ===== | ||
+ | |||
+ | Ve výstupních souborech musí být první slovo (tvar, který jsme měli rozebrat) identické s& | ||
+ | |||
+ | < | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | $MC/ | ||
+ | |||
+ | ===== Zbývá udělat ===== | ||
+ | |||
+ | * Pustit celý algoritmus na převrácená slova a získat předpony. | ||
+ | * Vyzkoušet skórování. | ||
+ | * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit se najít uvnitř kmenu jiný existující kmen tak, aby to, co zbyde, byl také existující kmen nebo složenina. | ||
+ | * Stáhnout doplňující seznamy slov pro soutěž 2 (information retrieval) a celý postup pro ně zopakovat. | ||
+ | * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s& | ||
+ | * Odeslat výsledky Mikkovi. | ||