[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:morpho-challenge-2007 [2007/05/29 18:18]
zeman kmeny.txt a koncovky.txt
user:zeman:morpho-challenge-2007 [2007/05/29 19:00] (current)
zeman Na vstupu byl neplatný znak UTF-8.
Line 22: Line 22:
 Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto:
 <code>mchallenge.pl kmeny.txt koncovky.txt < wordlist.eng > en.dz.txt</code> <code>mchallenge.pl kmeny.txt koncovky.txt < wordlist.eng > en.dz.txt</code>
 +Turečtinu je pak ještě nutné prohnat skriptem ''tr2mctr.pl'', aby se obnovilo exotické kódování, které organizátoři vyžadují.
  
 +===== Nové seznamy slov pro soutěž v získávání informací =====
 +
 +Organizátoři dodatečně poskytli seznamy nových slov, která se neobjevila v původních trénovacích datech, ale vyskytují se v datech, nad kterými se vyhodnocuje získávání informací (information retrieval). Spojuji nový seznam slov se starým. Nad spojeným seznamem natrénuji nový seznam vzorů. Těmito vzory pak rozeberu nový seznam slov a pošlu ho zpátky organizátorům.
 +
 +<code>cat wordlist.eng new-wordlist.eng > combined.eng
 +iconv -f iso-8859-1 -t utf8 < combined.eng | mctr2csts.pl > entrain1.csts
 +csts2kmkon.pl < entrain1.csts > en1.kmkon
 +kmkon2vzor.pl < en1.kmkon > en1.vzor
 +vzorfiltr.pl < en1.vzor > en1.filtr.vzor
 +mv kmeny.txt en1kmeny.txt
 +mv koncovky.txt en1koncovky.txt
 +mchallenge.pl en1kmeny.txt en1koncovky.txt < new-wordlist.eng > en1.dz.txt</code>

[ Back to the navigation ] [ Back to the content ]