Differences

This shows you the differences between two versions of the page.

--- user:zeman:morpho-challenge-2008 [2008/07/31 15:58]
zeman
+++ user:zeman:morpho-challenge-2008 [2008/07/31 16:30]
zeman Chytřejší výběr segmentace.
@@ Line 47: / Line 47: @@
 vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
@@ Line 65: / Line 66: @@
 V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci:
   - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.
+    - Kmen a koncovka nemusely být viděny přímo spolu. Stačí, když byl kmen viděn s N jinými koncovkami, které se s hledanou koncovkou společně vyskytují alespoň v jednom vzoru.
   - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.
   - Známá je koncovka, kmen známý být nemusí.
@@ Line 147: / Line 149: @@
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
   * Odeslat výsledky Mikkovi.
 ===== Postřehy =====
+Zkusit nejpřísnější segmentaci. Slovo se rozdělí pouze v případě, že kmen a koncovka byly viděny //spolu.//
 Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k&nbsp;předponě.
@@ Line 157: / Line 165: @@
 Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, když všechna tato slova jsou v&nbsp;datech a //-ly// i //-ness// jsou běžné koncovky?
+Četnost koncovek: u kolika slov (typů i výskytů) jsme viděli danou koncovku? Méně časté koncovky by měly mít ztížené uplatnění při segmentaci. Zatím ale nevím, jak jim ho ztížit jinak, než je úplně zakázat.
+Vzhledem ke způsobu vyhodnocení, který používá Morpho Challenge, by to chtělo sjednotit označení koncovek. Např. když téměř stejnou sadu koncovek uvidíme jednou jako "a, y, e, u, o, ou" a jindy jako "na, ny, ně, nu, no, nou". Nevím ale, jak to udělat.
+Jestliže slovo obsahuje pomlčku, je to téměř jistá hranice morfémů.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences