[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/07/31 15:58]
zeman
user:zeman:morpho-challenge-2008 [2008/07/31 16:30]
zeman Chytřejší výběr segmentace.
Line 47: Line 47:
 vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code> vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''. Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
 +
  
  
Line 65: Line 66:
 V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci: V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci:
   - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.   - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.
 +    - Kmen a koncovka nemusely být viděny přímo spolu. Stačí, když byl kmen viděn s N jinými koncovkami, které se s hledanou koncovkou společně vyskytují alespoň v jednom vzoru.
   - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.   - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.
   - Známá je koncovka, kmen známý být nemusí.   - Známá je koncovka, kmen známý být nemusí.
Line 147: Line 149:
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
   * Odeslat výsledky Mikkovi.   * Odeslat výsledky Mikkovi.
 +
 +
 +
 +
  
 ===== Postřehy ===== ===== Postřehy =====
 +
 +Zkusit nejpřísnější segmentaci. Slovo se rozdělí pouze v případě, že kmen a koncovka byly viděny //spolu.//
  
 Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k&nbsp;předponě. Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k&nbsp;předponě.
Line 157: Line 165:
  
 Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, když všechna tato slova jsou v&nbsp;datech a //-ly// i //-ness// jsou běžné koncovky? Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, když všechna tato slova jsou v&nbsp;datech a //-ly// i //-ness// jsou běžné koncovky?
 +
 +Četnost koncovek: u kolika slov (typů i výskytů) jsme viděli danou koncovku? Méně časté koncovky by měly mít ztížené uplatnění při segmentaci. Zatím ale nevím, jak jim ho ztížit jinak, než je úplně zakázat.
 +
 +Vzhledem ke způsobu vyhodnocení, který používá Morpho Challenge, by to chtělo sjednotit označení koncovek. Např. když téměř stejnou sadu koncovek uvidíme jednou jako "a, y, e, u, o, ou" a jindy jako "na, ny, ně, nu, no, nou". Nevím ale, jak to udělat.
 +
 +Jestliže slovo obsahuje pomlčku, je to téměř jistá hranice morfémů.
 +

[ Back to the navigation ] [ Back to the content ]