Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:morpho-challenge-2008 [2008/06/27 12:49] zeman Stáhnout rozšířená data pro information retrieval. |
user:zeman:morpho-challenge-2008 [2008/06/27 14:01] zeman Oprava cesty ke skriptu. |
||
---|---|---|---|
Line 47: | Line 47: | ||
vzorfiltr.pl < en.vzor > en1.vzor</ | vzorfiltr.pl < en.vzor > en1.vzor</ | ||
Skript '' | Skript '' | ||
+ | |||
+ | ===== Morfematická segmentace ===== | ||
+ | |||
+ | Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce. | ||
+ | |||
+ | Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, | ||
+ | |||
+ | Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | ||
+ | < | ||
+ | |||
+ | < | ||
+ | foreach l (ar de en fi tr) | ||
+ | $MC/ | ||
+ | end</ | ||
===== Zbývá udělat ===== | ===== Zbývá udělat ===== | ||
Line 57: | Line 71: | ||
* Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s& | * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s& | ||
* Odeslat výsledky Mikkovi. | * Odeslat výsledky Mikkovi. | ||
- | |||
- | ==== Morfematická segmentace ==== | ||
- | |||
- | Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce. | ||
- | |||
- | Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, | ||
- | |||
- | Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | ||
- | < | ||