[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/07/31 21:01]
zeman Proč se nerozdělilo a-com's?
user:zeman:morpho-challenge-2008 [2008/07/31 21:16]
zeman Kam se ztrácejí slova?
Line 151: Line 151:
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s trénovacími daty.   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s trénovacími daty.
   * Odeslat výsledky Mikkovi.   * Odeslat výsledky Mikkovi.
 +
  
  
Line 176: Line 177:
  
 Jak mám poznat podmnožinu, když se kvůli chybějícímu výskytu v trénovacích datech neposunulo písmeno? Například mám v němčině největší vzor "0,m,n,r,re,rem,ren,rer,res,s". Všechny kmeny končí na "e". Jak poznám, že kdybych toto "e" zahrnul do koncovek ("e,em,en,er,ere,erem,eren,erer,eres,es"), mohl bych do vzoru přilít jiný vzor, který je téměř jeho podmnožinou, akorát má navíc koncovku "0" (tedy bez toho "e")? Další věc: jak poznám složené koncovky? Tady by zrovna správná segmentace byla "aggressiv+er+e". Musel bych hledat podmnožinu množiny koncovek, která je v množině koncovek obsažena dvakrát, jednou s prefixem a podruhé bez. Hledání by muselo být fuzzy. Jak mám poznat podmnožinu, když se kvůli chybějícímu výskytu v trénovacích datech neposunulo písmeno? Například mám v němčině největší vzor "0,m,n,r,re,rem,ren,rer,res,s". Všechny kmeny končí na "e". Jak poznám, že kdybych toto "e" zahrnul do koncovek ("e,em,en,er,ere,erem,eren,erer,eres,es"), mohl bych do vzoru přilít jiný vzor, který je téměř jeho podmnožinou, akorát má navíc koncovku "0" (tedy bez toho "e")? Další věc: jak poznám složené koncovky? Tady by zrovna správná segmentace byla "aggressiv+er+e". Musel bych hledat podmnožinu množiny koncovek, která je v množině koncovek obsažena dvakrát, jednou s prefixem a podruhé bez. Hledání by muselo být fuzzy.
 +
 +Třetina slov v angličtině neprojde filtrováním vzorů. Na vstupu mám 385 tisíc slov, na výstupu 122 tisíc segmentací. (Ve skutečnosti jsem jich asi odfiltroval víc, protože na výstupu navíc mohou být i taková slova, která jsem vůbec neviděl. Můžou se tam dostat při slučování vzorů s nadmnožinami.) Otázka je, jak přesně k tomu došlo. Kdybych věděl, kde se slova ztrácejí, možná by mě napadlo, jak je neztratit úplně. To bych ale musel rozvinout ladění, abych dokázal stopovat slovo během celého procesu filtrování.

[ Back to the navigation ] [ Back to the content ]