[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/07/31 13:35]
zeman Přehození kapitol.
user:zeman:morpho-challenge-2008 [2008/07/31 16:12]
zeman Brát v úvahu pomlčku.
Line 47: Line 47:
 vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code> vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''. Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
 +
  
 ===== Morfematická segmentace ===== ===== Morfematická segmentace =====
Line 61: Line 62:
   $MC/mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt   $MC/mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt
 end</code> end</code>
 +
 +V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci:
 +  - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.
 +  - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.
 +  - Známá je koncovka, kmen známý být nemusí.
 +  - Známý je kmen, koncovka známá být nemusí.
 +  - Známý je kmen nebo koncovka, ale ne nutně obojí.
 +Poslední tři body neumím uspořádat podle přísnosti, ale všechny tři jsou méně přísné než první dva body. Můj přístup z roku 2007 a oficiálně vyhodnocená metoda 1 z roku 2008 zkouší nejdřív bod 2, a pokud selže, tak bod 5. I když by popis na začátku této kapitoly mohl napovídat, že začínám podle bodu 1, není tomu tak.
  
 ===== Úprava výstupu před odesláním ===== ===== Úprava výstupu před odesláním =====
Line 138: Line 147:
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
   * Odeslat výsledky Mikkovi.   * Odeslat výsledky Mikkovi.
 +
 +
 +
 +
  
 ===== Postřehy ===== ===== Postřehy =====
 +
 +Zkusit nejpřísnější segmentaci. Slovo se rozdělí pouze v případě, že kmen a koncovka byly viděny //spolu.//
  
 Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k&nbsp;předponě. Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k&nbsp;předponě.
Line 148: Line 163:
  
 Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, když všechna tato slova jsou v&nbsp;datech a //-ly// i //-ness// jsou běžné koncovky? Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, když všechna tato slova jsou v&nbsp;datech a //-ly// i //-ness// jsou běžné koncovky?
 +
 +Četnost koncovek: u kolika slov (typů i výskytů) jsme viděli danou koncovku? Méně časté koncovky by měly mít ztížené uplatnění při segmentaci. Zatím ale nevím, jak jim ho ztížit jinak, než je úplně zakázat.
 +
 +Vzhledem ke způsobu vyhodnocení, který používá Morpho Challenge, by to chtělo sjednotit označení koncovek. Např. když téměř stejnou sadu koncovek uvidíme jednou jako "a, y, e, u, o, ou" a jindy jako "na, ny, ně, nu, no, nou". Nevím ale, jak to udělat.
 +
 +Jestliže slovo obsahuje pomlčku, je to téměř jistá hranice morfémů.
 +

[ Back to the navigation ] [ Back to the content ]