[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/06/27 12:49]
zeman Stáhnout rozšířená data pro information retrieval.
user:zeman:morpho-challenge-2008 [2008/06/27 14:00]
zeman Rozbor všech jazyků.
Line 47: Line 47:
 vzorfiltr.pl < en.vzor > en1.vzor</code> vzorfiltr.pl < en.vzor > en1.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''. Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
 +
 +===== Morfematická segmentace =====
 +
 +Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce.
 +
 +Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, zda rozpoznáme alespoň koncovky (aniž bychom znali kmen).
 +
 +Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto:
 +<code>mchallenge.pl kmeny.txt koncovky.txt < wordlist.eng > en.dz.txt</code>
 +
 +<code>cd $MC/data/2008
 +foreach l (ar de en fi tr)
 +  mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt
 +end</code>
  
 ===== Zbývá udělat ===== ===== Zbývá udělat =====
Line 57: Line 71:
   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.   * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
   * Odeslat výsledky Mikkovi.   * Odeslat výsledky Mikkovi.
- 
-==== Morfematická segmentace ==== 
- 
-Mám natrénovaný seznam vzorů, resp. seznam kmenů a koncovek. Segmentace ve skutečnosti znamená najít takové dělení slova na dvě části, aby první část odpovídala známému kmenu a druhá část známé koncovce. 
- 
-Slovo umím rozložit na právě dva morfémy (kmen a koncovka) nebo nechat nerozložené. Při přiřazování slov ke vzorům se přednostně zjišťuje, zda známe přímo danou dvojici kmen-koncovka. Pokud žádnou takovou dvojici nenajdeme, zjišťujeme, zda rozpoznáme alespoň koncovky (aniž bychom znali kmen). 
- 
-Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: 
-<code>mchallenge.pl kmeny.txt koncovky.txt < wordlist.eng > en.dz.txt</code> 
  

[ Back to the navigation ] [ Back to the content ]