Differences

This shows you the differences between two versions of the page.

--- user:zeman:morpho-challenge-2008 [2008/07/28 16:27]
zeman Přidán kód pro vyhodnocování.
+++ user:zeman:morpho-challenge-2008 [2008/07/31 15:58]
zeman
@@ Line 44: / Line 44: @@
 Seznam vzorů se buduje takto (práce je rozdělena do několika kroků, protože zpracování velkých dat trvá dlouho a při opravě nějaké drobnosti u filtrování vzorů nechceme muset opakovat i první dva kroky):
 <code>csts2kmkon.pl < en.csts > en.kmkon
-kmkon2vzor.pl < en.kmkon > en.vzor
+kmkon2vzor.pl < en.kmkon > en.nefiltr
-vzorfiltr.pl < en.vzor > en1.vzor</code>
+vzorfiltr.pl -okm en.kmeny.txt -okonc en.koncovky.txt < en.nefiltr > en.vzor</code>
 Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
 ===== Morfematická segmentace =====
@@ Line 62: / Line 63: @@
 end</code>
+V úvahu přichází několik stupňů přísnosti při aplikaci vzorů na morfematickou segmentaci:
+  - Slovo rozdělit pouze v případě, že toto dělení bylo viděno v trénovacích datech a proniklo filtrem mezi výsledné vzory. Jinými slovy, kmen i koncovka musí být známé a navíc musely být viděny spolu.
+  - Kmen i koncovka musí být známé, ale nemusely být viděny spolu.
+  - Známá je koncovka, kmen známý být nemusí.
+  - Známý je kmen, koncovka známá být nemusí.
+  - Známý je kmen nebo koncovka, ale ne nutně obojí.
+Poslední tři body neumím uspořádat podle přísnosti, ale všechny tři jsou méně přísné než první dva body. Můj přístup z roku 2007 a oficiálně vyhodnocená metoda 1 z roku 2008 zkouší nejdřív bod 2, a pokud selže, tak bod 5. I když by popis na začátku této kapitoly mohl napovídat, že začínám podle bodu 1, není tomu tak.
 ===== Úprava výstupu před odesláním =====
@@ Line 78: / Line 86: @@
 $MC/mc_convert.pl -t fi < fi.dz3.txt | gzip -c > wordlist.fin.dz3.gz
 $MC/mc_convert.pl -t tr < tr.dz3.txt | gzip -c > wordlist.tur.dz3.gz</code>
-===== Zpracování převrácených slov a hledání předpon =====
-<code># lrc
-cd $MC/data/2008
-foreach l (ar de en fi tr)
-  $MC/reverse.pl < $l.csts > $l.rev.csts
-  qsub.csh $MC/mc_jazyk.csh $l.rev
-end</code>
-<code>foreach l (ar de en fi tr)
-  cat $l.rev.kmeny.txt | $MC/reverse_line.pl > $l.kmeny1.txt
-  cat $l.rev.koncovky.txt | $MC/reverse_line.pl > $l.predpony.txt
-  $MC/mchallenge3.pl $l.predpony.txt $l.kmeny1.txt $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz3.txt
-end</code>
-===== Zbývá udělat =====
-  * Vyzkoušet skórování.
-  * Pustit celý algoritmus na převrácená slova a získat předpony.
-  * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit se najít uvnitř kmenu jiný existující kmen tak, aby to, co zbyde, byl také existující kmen nebo složenina.
-  * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
-  * Odeslat výsledky Mikkovi.
 ===== Skórování =====
-Organizátoři poskytli program ''eval_morphemes.pl''. Pokyny pro správné vyhodnocování sepsali na stránce [[http://www.cis.hut.fi/morphochallenge2008/evaluation.shtml]].
+Organizátoři poskytli program ''eval_morphemes.pl''. Pokyny pro správné vyhodnocování sepsali na stránce [[http://www.cis.hut.fi/morphochallenge2008/evaluation.shtml]]. Napsal jsem si kvůli tomu ''Makefile'', který je ve složce s daty a níže popsaný postup se z něj dá vyčíst.
 Co ještě potřebujeme:
@@ Line 128: / Line 113: @@
 $MC/sample_word_pairs.pl -refwords $MC/data/2008/relevantwords.eng < $MC/data/2008/en.dz.txt > $MC/data/2008/wordpairs_result.eng
 $MC/eval_morphemes.pl -trace $MC/data/2008/samplepairs.goldstd.eng $MC/data/2008/wordpairs_result.eng $MC/data/2008/goldstdsample.eng $MC/data/2008/en.dz.txt</code>
+===== Vyhodnocení =====
+Moje vyhodnocení se bude lišit od oficiálních výsledků soutěže, protože mám k dispozici gold standard jen pro 500 slov z každého jazyka. Na prvním místě uvádím své výsledky, vpravo pak oficiální výsledky zveřejněné na stránkách soutěže.
+| Jazyk | F | P | R | Fo | Po | Ro |
+| en | 48.56 | 53.39 | 44.53 | 46.90 | 52.98 | 42.07 |
+| de | 27.67 | 30.28 | 25.47 | 36.98 | 53.12 | 28.37 |
+| fi | 30.97 | 47.44 | 22.99 | 30.33 | 58.51 | 20.47 |
+| tr | 32.68 | 59.46 | 22.53 | 29.23 | 65.81 | 18.79 |
+| ar | 15.78 | 79.86 | 8.76 | 21.86 | 77.24 | 12.73 |
+===== Zpracování převrácených slov a hledání předpon =====
+<code># lrc
+cd $MC/data/2008
+foreach l (ar de en fi tr)
+  $MC/reverse.pl < $l.csts > $l.rev.csts
+  qsub.csh $MC/mc_jazyk.csh $l.rev
+end</code>
+<code>foreach l (ar de en fi tr)
+  cat $l.rev.kmeny.txt | $MC/reverse_line.pl > $l.kmeny1.txt
+  cat $l.rev.koncovky.txt | $MC/reverse_line.pl > $l.predpony.txt
+  $MC/mchallenge3.pl $l.predpony.txt $l.kmeny1.txt $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz3.txt
+end</code>
+===== Zbývá udělat =====
+  * Vyzkoušet skórování.
+  * Pustit celý algoritmus na převrácená slova a získat předpony.
+  * Zkusit rozpoznat složená slova, resp. složené kmeny. Pouze jednoduchý přístup, snažit se najít uvnitř kmenu jiný existující kmen tak, aby to, co zbyde, byl také existující kmen nebo složenina.
+  * Vymyslet způsob, jak využít četnosti slovních tvarů, které jsme dostali s&nbsp;trénovacími daty.
+  * Odeslat výsledky Mikkovi.
 ===== Postřehy =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences