Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:morpho-challenge-2008 [2008/07/31 13:35] zeman Přehození kapitol. |
user:zeman:morpho-challenge-2008 [2008/07/31 21:01] zeman Proč se nerozdělilo a-com's? |
||
---|---|---|---|
Line 47: | Line 47: | ||
vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</ | vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</ | ||
Skript '' | Skript '' | ||
+ | |||
+ | |||
+ | |||
===== Morfematická segmentace ===== | ===== Morfematická segmentace ===== | ||
Line 61: | Line 64: | ||
$MC/ | $MC/ | ||
end</ | end</ | ||
+ | |||
+ | V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci: | ||
+ | - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu. | ||
+ | - Kmen a koncovka nemusely být viděny přímo spolu. Stačí, když byl kmen viděn s N jinými koncovkami, které se s hledanou koncovkou společně vyskytují alespoň v jednom vzoru. | ||
+ | - Další možnost by byla snažit se zjistit, zda slovo může náležet ke vzoru, který připouští danou koncovku. I když náš systém toto slovo zařadil k jinému slovu. Např. nejpřísnější metoda nerozdělila " | ||
+ | - Kmen i koncovka musí být známé, ale nemusely být viděny spolu. | ||
+ | - Známá je koncovka, kmen známý být nemusí. | ||
+ | - Známý je kmen, koncovka známá být nemusí. | ||
+ | - Známý je kmen nebo koncovka, ale ne nutně obojí. | ||
+ | Poslední tři body neumím uspořádat podle přísnosti, | ||
===== Úprava výstupu před odesláním ===== | ===== Úprava výstupu před odesláním ===== | ||
Line 138: | Line 151: | ||
* Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s& | * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s& | ||
* Odeslat výsledky Mikkovi. | * Odeslat výsledky Mikkovi. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== Postřehy ===== | ===== Postřehy ===== | ||
+ | |||
+ | Zkusit nejpřísnější segmentaci. Slovo se rozdělí pouze v případě, že kmen a koncovka byly viděny //spolu.// | ||
Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k& | Předpony, zdá se, fungují, ale na rozdíl od přípon by to tu nechtělo dávat společná písmena ke kmeni, nýbrž k& | ||
Line 148: | Line 168: | ||
Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, | Algoritmus 3 (předpony + kmeny + přípony) nedělá to, co má. Jaktože nepoznal vzor //abrupt - abruptly - abruptness//, | ||
+ | |||
+ | Četnost koncovek: u kolika slov (typů i výskytů) jsme viděli danou koncovku? Méně časté koncovky by měly mít ztížené uplatnění při segmentaci. Zatím ale nevím, jak jim ho ztížit jinak, než je úplně zakázat. | ||
+ | |||
+ | Vzhledem ke způsobu vyhodnocení, | ||
+ | |||
+ | Jestliže slovo obsahuje pomlčku, je to téměř jistá hranice morfémů. | ||
+ | |||
+ | Jak mám poznat podmnožinu, |