[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:zeman:morpho-challenge-2007 [2007/05/29 18:15]
zeman vytvořeno
user:zeman:morpho-challenge-2007 [2007/05/29 19:00] (current)
zeman Na vstupu byl neplatný znak UTF-8.
Line 18: Line 18:
 kmkon2vzor.pl < en.kmkon > en.vzor kmkon2vzor.pl < en.kmkon > en.vzor
 vzorfiltr.pl < en.vzor > en1.vzor</code> vzorfiltr.pl < en.vzor > en1.vzor</code>
 +Skript ''vzorfiltr.pl'' jako vedlejší účinek vedle standardního výstupu tiše vyrobí soubory ''kmeny.txt'' a ''koncovky.txt''.
  
 Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto:
-<code>mchallenge.pl cestakmen cestakonc < wordlist.eng > en.dz.txt</code>+<code>mchallenge.pl kmeny.txt koncovky.txt < wordlist.eng > en.dz.txt</code> 
 +Turečtinu je pak ještě nutné prohnat skriptem ''tr2mctr.pl'', aby se obnovilo exotické kódování, které organizátoři vyžadují.
  
 +===== Nové seznamy slov pro soutěž v získávání informací =====
 +
 +Organizátoři dodatečně poskytli seznamy nových slov, která se neobjevila v původních trénovacích datech, ale vyskytují se v datech, nad kterými se vyhodnocuje získávání informací (information retrieval). Spojuji nový seznam slov se starým. Nad spojeným seznamem natrénuji nový seznam vzorů. Těmito vzory pak rozeberu nový seznam slov a pošlu ho zpátky organizátorům.
 +
 +<code>cat wordlist.eng new-wordlist.eng > combined.eng
 +iconv -f iso-8859-1 -t utf8 < combined.eng | mctr2csts.pl > entrain1.csts
 +csts2kmkon.pl < entrain1.csts > en1.kmkon
 +kmkon2vzor.pl < en1.kmkon > en1.vzor
 +vzorfiltr.pl < en1.vzor > en1.filtr.vzor
 +mv kmeny.txt en1kmeny.txt
 +mv koncovky.txt en1koncovky.txt
 +mchallenge.pl en1kmeny.txt en1koncovky.txt < new-wordlist.eng > en1.dz.txt</code>

[ Back to the navigation ] [ Back to the content ]