[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/07/31 16:43]
zeman Poučení z němčiny.
user:zeman:morpho-challenge-2008 [2008/07/31 21:01]
zeman Proč se nerozdělilo a-com's?
Line 47: Line 47:
 vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code> vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''. Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
 +
  
  
Line 67: Line 68:
   - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.   - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.
     - Kmen a koncovka nemusely být viděny přímo spolu. Stačí, když byl kmen viděn s N jinými koncovkami, které se s hledanou koncovkou společně vyskytují alespoň v jednom vzoru.     - Kmen a koncovka nemusely být viděny přímo spolu. Stačí, když byl kmen viděn s N jinými koncovkami, které se s hledanou koncovkou společně vyskytují alespoň v jednom vzoru.
 +    - Další možnost by byla snažit se zjistit, zda slovo může náležet ke vzoru, který připouští danou koncovku. I když náš systém toto slovo zařadil k jinému slovu. Např. nejpřísnější metoda nerozdělila "a-com's" na "a-com" a "'s", přestože samostatné slovo "a-com" v datech bylo a koncovka "'s" je součástí mnoha vzorů. Dotyčná kombinace kmene a koncovky byla zřejmě nějak odfiltrována. Chtělo by to nějaký ladící režim.
   - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.   - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.
   - Známá je koncovka, kmen známý být nemusí.   - Známá je koncovka, kmen známý být nemusí.

[ Back to the navigation ] [ Back to the content ]