Differences

This shows you the differences between two versions of the page.

--- user:zeman:morpho-challenge-2008 [2008/07/31 16:06]
zeman Sjednotit označení koncovek.
+++ user:zeman:morpho-challenge-2008 [2008/07/31 16:43]
zeman Poučení z němčiny.
@@ Line 47: / Line 47: @@
 vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
@@ Line 65: / Line 66: @@
 V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci:
   - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.
+    - Kmen a koncovka nemusely být viděny přímo spolu. Stačí, když byl kmen viděn s N jinými koncovkami, které se s hledanou koncovkou společně vyskytují alespoň v jednom vzoru.
   - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.
   - Známá je koncovka, kmen známý být nemusí.
@@ Line 147: / Line 149: @@
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
   * Odeslat výsledky Mikkovi.
@@ Line 167: / Line 171: @@
 Vzhledem ke způsobu vyhodnocení, který používá Morpho Challenge, by to chtělo sjednotit označení koncovek. Např. když téměř stejnou sadu koncovek uvidíme jednou jako "a, y, e, u, o, ou" a jindy jako "na, ny, ně, nu, no, nou". Nevím ale, jak to udělat.
+Jestliže slovo obsahuje pomlčku, je to téměř jistá hranice morfémů.
+Jak mám poznat podmnožinu, když se kvůli chybějícímu výskytu v trénovacích datech neposunulo písmeno? Například mám v němčině největší vzor "0,m,n,r,re,rem,ren,rer,res,s". Všechny kmeny končí na "e". Jak poznám, že kdybych toto "e" zahrnul do koncovek ("e,em,en,er,ere,erem,eren,erer,eres,es"), mohl bych do vzoru přilít jiný vzor, který je téměř jeho podmnožinou, akorát má navíc koncovku "0" (tedy bez toho "e")? Další věc: jak poznám složené koncovky? Tady by zrovna správná segmentace byla "aggressiv+er+e". Musel bych hledat podmnožinu množiny koncovek, která je v množině koncovek obsažena dvakrát, jednou s prefixem a podruhé bez. Hledání by muselo být fuzzy.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences