Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
user:zeman:morpho-challenge-2007 [2007/05/29 18:15] zeman vytvořeno |
user:zeman:morpho-challenge-2007 [2007/05/29 19:00] (current) zeman Na vstupu byl neplatný znak UTF-8. |
||
---|---|---|---|
Line 18: | Line 18: | ||
kmkon2vzor.pl < en.kmkon > en.vzor | kmkon2vzor.pl < en.kmkon > en.vzor | ||
vzorfiltr.pl < en.vzor > en1.vzor</ | vzorfiltr.pl < en.vzor > en1.vzor</ | ||
+ | Skript '' | ||
Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | Rozklad slov na základě již vybudovaného seznamu vzorů se provede takto: | ||
- | < | + | < |
+ | Turečtinu je pak ještě nutné prohnat skriptem '' | ||
+ | ===== Nové seznamy slov pro soutěž v získávání informací ===== | ||
+ | |||
+ | Organizátoři dodatečně poskytli seznamy nových slov, která se neobjevila v původních trénovacích datech, ale vyskytují se v datech, nad kterými se vyhodnocuje získávání informací (information retrieval). Spojuji nový seznam slov se starým. Nad spojeným seznamem natrénuji nový seznam vzorů. Těmito vzory pak rozeberu nový seznam slov a pošlu ho zpátky organizátorům. | ||
+ | |||
+ | < | ||
+ | iconv -f iso-8859-1 -t utf8 < combined.eng | mctr2csts.pl > entrain1.csts | ||
+ | csts2kmkon.pl < entrain1.csts > en1.kmkon | ||
+ | kmkon2vzor.pl < en1.kmkon > en1.vzor | ||
+ | vzorfiltr.pl < en1.vzor > en1.filtr.vzor | ||
+ | mv kmeny.txt en1kmeny.txt | ||
+ | mv koncovky.txt en1koncovky.txt | ||
+ | mchallenge.pl en1kmeny.txt en1koncovky.txt < new-wordlist.eng > en1.dz.txt</ |