[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:morpho-challenge-2008 [2008/06/27 14:00]
zeman Rozbor všech jazyků.
user:zeman:morpho-challenge-2008 [2008/06/27 15:18]
zeman Úprava výstupu před odesláním.
Line 59: Line 59:
 <code>cd $MC/data/2008 <code>cd $MC/data/2008
 foreach l (ar de en fi tr) foreach l (ar de en fi tr)
-  mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt+  $MC/mchallenge.pl $l.kmeny.txt $l.koncovky.txt < wordlist.$l.txt > $l.dz.txt
 end</code> end</code>
 +
 +===== Úprava výstupu před odesláním =====
 +
 +Ve výstupních souborech musí být první slovo (tvar, který jsme měli rozebrat) identické s&nbsp;řetězcem, který jsme od organizátorů dostali, tedy také v&nbsp;původním kódování. Zbytek řádku mohou být více méně libovolné řetězce, kterými si označujeme morfémy. Mohli bychom výstupy prohnat převodem kódování inverzním k&nbsp;tomu, který jsme na začátku dělali se vstupem. O něco bezpečnější se zdá žádné překódování neprovádět a pouze nahradit první slovo kopií prvního slova ze vstupu (vstupní a výstupní soubor mají stejný počet řádků, což se dá snadno ověřit). Má to ale háček. Původní texty obsahují ne-ASCII znaky, které jsou pak vesměs zakódované v&nbsp;ISO Latin 1. Uvnitř Perlu budou tyto znaky reprezentované jako UTF-8. Pokud pak na výstupu zvolíme UTF-8, bude se výstupní slovo lišit od vstupního. Pokud zvolíme ISO Latin 1, budou v&nbsp;pytli morfémy (možná jde nejen o estetickou chybu, ale i o věcnou, protože např. v&nbsp;arabštině by to mohlo dopadnout tak, že většina morfémů se převede na řetězce otazníků). Takže nakonec bude možná přece jen lepší překódovat celé výstupní soubory do těch příšerných kódování, která používají organizátoři.
 +
 +<code>cd ~/data/morphochallenge/2008
 +$MC/mc_convert.pl -t ar < ar.dz.txt | gzip -c > wordlist.ara.dz.gz
 +$MC/mc_convert.pl -t de < de.dz.txt | gzip -c > wordlist.ger.dz.gz
 +$MC/mc_convert.pl -t en < en.dz.txt | gzip -c > wordlist.eng.dz.gz
 +$MC/mc_convert.pl -t fi < fi.dz.txt | gzip -c > wordlist.fin.dz.gz
 +$MC/mc_convert.pl -t tr < tr.dz.txt | gzip -c > wordlist.tur.dz.gz</code>
  
 ===== Zbývá udělat ===== ===== Zbývá udělat =====

[ Back to the navigation ] [ Back to the content ]