[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/07/28 16:27]
zeman Přidán kód pro vyhodnocování.
user:zeman:morpho-challenge-2008 [2008/07/31 15:58]
zeman
Line 44: Line 44:
 Seznam vzorů se buduje takto (práce je rozdělena do několika kroků, protože zpracování velkých dat trvá dlouho a při opravě nějaké drobnosti u filtrování vzorů nechceme muset opakovat i první dva kroky): Seznam vzorů se buduje takto (práce je rozdělena do několika kroků, protože zpracování velkých dat trvá dlouho a při opravě nějaké drobnosti u filtrování vzorů nechceme muset opakovat i první dva kroky):
 <code>csts2kmkon.pl < en.csts > en.kmkon <code>csts2kmkon.pl < en.csts > en.kmkon
-kmkon2vzor.pl < en.kmkon > en.vzor +kmkon2vzor.pl < en.kmkon > en.nefiltr 
-vzorfiltr.pl < en.vzor en1.vzor</code>+vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''. Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
 +
  
 ===== Morfematická segmentace ===== ===== Morfematická segmentace =====
Line 62: Line 63:
 end</code> end</code>
  
 +V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci:
 +  - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.
 +  - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.
 +  - Známá je koncovka, kmen známý být nemusí.
 +  - Známý je kmen, koncovka známá být nemusí.
 +  - Známý je kmen nebo koncovka, ale ne nutně obojí.
 +Poslední tři body neumím uspořádat podle přísnosti, ale všechny tři jsou méně přísné než první dva body. Můj přístup z roku 2007 a oficiálně vyhodnocená metoda 1 z roku 2008 zkouší nejdřív bod 2, a pokud selže, tak bod 5. I když by popis na začátku této kapitoly mohl napovídat, že začínám podle bodu 1, není tomu tak.
  
 ===== Úprava výstupu před odesláním ===== ===== Úprava výstupu před odesláním =====
Line 78: Line 86:
 $MC/mc_convert.pl -t fi < fi.dz3.txt | gzip -c > wordlist.fin.dz3.gz $MC/mc_convert.pl -t fi < fi.dz3.txt | gzip -c > wordlist.fin.dz3.gz
 $MC/mc_convert.pl -t tr < tr.dz3.txt | gzip -c > wordlist.tur.dz3.gz</code> $MC/mc_convert.pl -t tr < tr.dz3.txt | gzip -c > wordlist.tur.dz3.gz</code>
- 
-===== Zpracování převrácených slov a hledání předpon ===== 
- 
-<code># lrc 
-cd $MC/data/2008 
-foreach l (ar de en fi tr) 
-  $MC/reverse.pl < $l.csts > $l.rev.csts 
-  qsub.csh $MC/mc_jazyk.csh $l.rev 
-end</code> 
- 
-<code>foreach l (ar de en fi tr) 
-  cat $l.rev.kmeny.txt | $MC/reverse_line.pl > $l.kmeny1.txt 
-  cat $l.rev.koncovky.txt | $MC/reverse_line.pl > $l.predpony.txt 
-  $MC/mchallenge3.pl $l.predpony.txt $l.kmeny1.txt $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz3.txt 
-end</code> 
- 
-===== Zbývá udělat ===== 
- 
-  * Vyzkoušet skórování. 
-  * Pustit celý algoritmus na převrácená slova a získat předpony. 
-  * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit se najít uvnitř kmenu jiný existující kmen tak, aby to, co zbyde, byl také existující kmen nebo složenina. 
-  * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty. 
-  * Odeslat výsledky Mikkovi. 
  
 ===== Skórování ===== ===== Skórování =====
  
-Organizátoři poskytli program ''eval_morphemes.pl''. Pokyny pro správné vyhodnocování sepsali na stránce [[http://www.cis.hut.fi/morphochallenge2008/evaluation.shtml]].+Organizátoři poskytli program ''eval_morphemes.pl''. Pokyny pro správné vyhodnocování sepsali na stránce [[http://www.cis.hut.fi/morphochallenge2008/evaluation.shtml]]. Napsal jsem si kvůli tomu ''Makefile'', který je ve složce s daty a níže popsaný postup se z něj dá vyčíst.
  
 Co ještě potřebujeme: Co ještě potřebujeme:
Line 128: Line 113:
 $MC/sample_word_pairs.pl -refwords $MC/data/2008/relevantwords.eng < $MC/data/2008/en.dz.txt > $MC/data/2008/wordpairs_result.eng $MC/sample_word_pairs.pl -refwords $MC/data/2008/relevantwords.eng < $MC/data/2008/en.dz.txt > $MC/data/2008/wordpairs_result.eng
 $MC/eval_morphemes.pl -trace $MC/data/2008/samplepairs.goldstd.eng $MC/data/2008/wordpairs_result.eng $MC/data/2008/goldstdsample.eng $MC/data/2008/en.dz.txt</code> $MC/eval_morphemes.pl -trace $MC/data/2008/samplepairs.goldstd.eng $MC/data/2008/wordpairs_result.eng $MC/data/2008/goldstdsample.eng $MC/data/2008/en.dz.txt</code>
 +
 +===== Vyhodnocení =====
 +
 +Moje vyhodnocení se bude lišit od oficiálních výsledků soutěže, protože mám k dispozici gold standard jen pro 500 slov z každého jazyka. Na prvním místě uvádím své výsledky, vpravo pak oficiální výsledky zveřejněné na stránkách soutěže.
 +
 +| Jazyk | F | P | R | Fo | Po | Ro |
 +| en | 48.56 | 53.39 | 44.53 | 46.90 | 52.98 | 42.07 |
 +| de | 27.67 | 30.28 | 25.47 | 36.98 | 53.12 | 28.37 |
 +| fi | 30.97 | 47.44 | 22.99 | 30.33 | 58.51 | 20.47 |
 +| tr | 32.68 | 59.46 | 22.53 | 29.23 | 65.81 | 18.79 |
 +| ar | 15.78 | 79.86 | 8.76 | 21.86 | 77.24 | 12.73 |
 +
 +===== Zpracování převrácených slov a hledání předpon =====
 +
 +<code># lrc
 +cd $MC/data/2008
 +foreach l (ar de en fi tr)
 +  $MC/reverse.pl < $l.csts > $l.rev.csts
 +  qsub.csh $MC/mc_jazyk.csh $l.rev
 +end</code>
 +
 +<code>foreach l (ar de en fi tr)
 +  cat $l.rev.kmeny.txt | $MC/reverse_line.pl > $l.kmeny1.txt
 +  cat $l.rev.koncovky.txt | $MC/reverse_line.pl > $l.predpony.txt
 +  $MC/mchallenge3.pl $l.predpony.txt $l.kmeny1.txt $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz3.txt
 +end</code>
 +
 +===== Zbývá udělat =====
 +
 +  * Vyzkoušet skórování.
 +  * Pustit celý algoritmus na převrácená slova a získat předpony.
 +  * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit se najít uvnitř kmenu jiný existující kmen tak, aby to, co zbyde, byl také existující kmen nebo složenina.
 +  * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
 +  * Odeslat výsledky Mikkovi.
  
 ===== Postřehy ===== ===== Postřehy =====

[ Back to the navigation ] [ Back to the content ]