[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/07/28 16:27]
zeman Přidán kód pro vyhodnocování.
user:zeman:morpho-challenge-2008 [2008/07/31 13:35]
zeman Přehození kapitol.
Line 44: Line 44:
 Seznam vzorů se buduje takto (práce je rozdělena do několika kroků, protože zpracování velkých dat trvá dlouho a při opravě nějaké drobnosti u filtrování vzorů nechceme muset opakovat i první dva kroky): Seznam vzorů se buduje takto (práce je rozdělena do několika kroků, protože zpracování velkých dat trvá dlouho a při opravě nějaké drobnosti u filtrování vzorů nechceme muset opakovat i první dva kroky):
 <code>csts2kmkon.pl < en.csts > en.kmkon <code>csts2kmkon.pl < en.csts > en.kmkon
-kmkon2vzor.pl < en.kmkon > en.vzor +kmkon2vzor.pl < en.kmkon > en.nefiltr 
-vzorfiltr.pl < en.vzor en1.vzor</code>+vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''. Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
  
Line 61: Line 61:
   $MC/mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt   $MC/mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt
 end</code> end</code>
- 
  
 ===== Úprava výstupu před odesláním ===== ===== Úprava výstupu před odesláním =====
Line 78: Line 77:
 $MC/mc_convert.pl -t fi < fi.dz3.txt | gzip -c > wordlist.fin.dz3.gz $MC/mc_convert.pl -t fi < fi.dz3.txt | gzip -c > wordlist.fin.dz3.gz
 $MC/mc_convert.pl -t tr < tr.dz3.txt | gzip -c > wordlist.tur.dz3.gz</code> $MC/mc_convert.pl -t tr < tr.dz3.txt | gzip -c > wordlist.tur.dz3.gz</code>
- 
-===== Zpracování převrácených slov a hledání předpon ===== 
- 
-<code># lrc 
-cd $MC/data/2008 
-foreach l (ar de en fi tr) 
-  $MC/reverse.pl < $l.csts > $l.rev.csts 
-  qsub.csh $MC/mc_jazyk.csh $l.rev 
-end</code> 
- 
-<code>foreach l (ar de en fi tr) 
-  cat $l.rev.kmeny.txt | $MC/reverse_line.pl > $l.kmeny1.txt 
-  cat $l.rev.koncovky.txt | $MC/reverse_line.pl > $l.predpony.txt 
-  $MC/mchallenge3.pl $l.predpony.txt $l.kmeny1.txt $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz3.txt 
-end</code> 
- 
-===== Zbývá udělat ===== 
- 
-  * Vyzkoušet skórování. 
-  * Pustit celý algoritmus na převrácená slova a získat předpony. 
-  * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit se najít uvnitř kmenu jiný existující kmen tak, aby to, co zbyde, byl také existující kmen nebo složenina. 
-  * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty. 
-  * Odeslat výsledky Mikkovi. 
  
 ===== Skórování ===== ===== Skórování =====
  
-Organizátoři poskytli program ''eval_morphemes.pl''. Pokyny pro správné vyhodnocování sepsali na stránce [[http://www.cis.hut.fi/morphochallenge2008/evaluation.shtml]].+Organizátoři poskytli program ''eval_morphemes.pl''. Pokyny pro správné vyhodnocování sepsali na stránce [[http://www.cis.hut.fi/morphochallenge2008/evaluation.shtml]]. Napsal jsem si kvůli tomu ''Makefile'', který je ve složce s daty a níže popsaný postup se z něj dá vyčíst.
  
 Co ještě potřebujeme: Co ještě potřebujeme:
Line 128: Line 104:
 $MC/sample_word_pairs.pl -refwords $MC/data/2008/relevantwords.eng < $MC/data/2008/en.dz.txt > $MC/data/2008/wordpairs_result.eng $MC/sample_word_pairs.pl -refwords $MC/data/2008/relevantwords.eng < $MC/data/2008/en.dz.txt > $MC/data/2008/wordpairs_result.eng
 $MC/eval_morphemes.pl -trace $MC/data/2008/samplepairs.goldstd.eng $MC/data/2008/wordpairs_result.eng $MC/data/2008/goldstdsample.eng $MC/data/2008/en.dz.txt</code> $MC/eval_morphemes.pl -trace $MC/data/2008/samplepairs.goldstd.eng $MC/data/2008/wordpairs_result.eng $MC/data/2008/goldstdsample.eng $MC/data/2008/en.dz.txt</code>
 +
 +===== Vyhodnocení =====
 +
 +Moje vyhodnocení se bude lišit od oficiálních výsledků soutěže, protože mám k dispozici gold standard jen pro 500 slov z každého jazyka. Na prvním místě uvádím své výsledky, vpravo pak oficiální výsledky zveřejněné na stránkách soutěže.
 +
 +| Jazyk | F | P | R | Fo | Po | Ro |
 +| en | 48.56 | 53.39 | 44.53 | 46.90 | 52.98 | 42.07 |
 +| de | 27.67 | 30.28 | 25.47 | 36.98 | 53.12 | 28.37 |
 +| fi | 30.97 | 47.44 | 22.99 | 30.33 | 58.51 | 20.47 |
 +| tr | 32.68 | 59.46 | 22.53 | 29.23 | 65.81 | 18.79 |
 +| ar | 15.78 | 79.86 | 8.76 | 21.86 | 77.24 | 12.73 |
 +
 +===== Zpracování převrácených slov a hledání předpon =====
 +
 +<code># lrc
 +cd $MC/data/2008
 +foreach l (ar de en fi tr)
 +  $MC/reverse.pl < $l.csts > $l.rev.csts
 +  qsub.csh $MC/mc_jazyk.csh $l.rev
 +end</code>
 +
 +<code>foreach l (ar de en fi tr)
 +  cat $l.rev.kmeny.txt | $MC/reverse_line.pl > $l.kmeny1.txt
 +  cat $l.rev.koncovky.txt | $MC/reverse_line.pl > $l.predpony.txt
 +  $MC/mchallenge3.pl $l.predpony.txt $l.kmeny1.txt $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz3.txt
 +end</code>
 +
 +===== Zbývá udělat =====
 +
 +  * Vyzkoušet skórování.
 +  * Pustit celý algoritmus na převrácená slova a získat předpony.
 +  * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit se najít uvnitř kmenu jiný existující kmen tak, aby to, co zbyde, byl také existující kmen nebo složenina.
 +  * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
 +  * Odeslat výsledky Mikkovi.
  
 ===== Postřehy ===== ===== Postřehy =====

[ Back to the navigation ] [ Back to the content ]