[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/07/31 15:58]
zeman
user:zeman:morpho-challenge-2008 [2008/07/31 16:12]
zeman Brát v úvahu pomlčku.
Line 147: Line 147:
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s trénovacími daty.   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s trénovacími daty.
   * Odeslat výsledky Mikkovi.   * Odeslat výsledky Mikkovi.
 +
 +
 +
 +
  
 ===== Postřehy ===== ===== Postřehy =====
 +
 +Zkusit nejpřísnější segmentaci. Slovo se rozdělí pouze v případě, že kmen a koncovka byly viděny //spolu.//
  
 Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k předponě. Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k předponě.
Line 157: Line 163:
  
 Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, když všechna tato slova jsou v datech a //-ly// i //-ness// jsou běžné koncovky? Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, když všechna tato slova jsou v datech a //-ly// i //-ness// jsou běžné koncovky?
 +
 +Četnost koncovek: u kolika slov (typů i výskytů) jsme viděli danou koncovku? Méně časté koncovky by měly mít ztížené uplatnění při segmentaci. Zatím ale nevím, jak jim ho ztížit jinak, než je úplně zakázat.
 +
 +Vzhledem ke způsobu vyhodnocení, který používá Morpho Challenge, by to chtělo sjednotit označení koncovek. Např. když téměř stejnou sadu koncovek uvidíme jednou jako "a, y, e, u, o, ou" a jindy jako "na, ny, ně, nu, no, nou". Nevím ale, jak to udělat.
 +
 +Jestliže slovo obsahuje pomlčku, je to téměř jistá hranice morfémů.
 +

[ Back to the navigation ] [ Back to the content ]