Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/02/04 18:16] zeman Čeština s němčinou, španělštinou a francouzštinou. |
user:zeman:wmt [2012/02/04 23:41] zeman Jak označkovat newstest. |
||
---|---|---|---|
Line 8: | Line 8: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Udělat pořádek v záznamech. | + | * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10). |
- | * Najít | + | * Otestovat jiná vývojová data (k dispozici je newstest 2008, 2009 a 2010, nebo všechny |
- | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty. | + | * Otestovat morfematickou segmentaci (ale musí se doimplementovat závěrečné slepování). |
- | * Převést | + | * Dotáhnout do konce pokusy s uvozovkami (v6b), včetně testovacích dat. |
- | * Konečně převést Joshuu pod Emana. | + | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty (v7). |
- | * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | + | * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, gigawordy pro jazykové modely atd. |
- | * Dotáhnout do konce obo-max. | + | * Převést |
- | * Při klonování experimentu se musí kopírovat mert/ | + | |
- | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím pro všechny | + | |
===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ||
Line 80: | Line 78: | ||
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | ||
nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | ||
- | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</ | + | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log & |
+ | for y in 2008 2009 2010 2011 ; do | ||
+ | for l in cs de en es fr ; do | ||
+ | nohup nice make CORPUS=newstest$y-v6b LANGUAGE=$l >& make-newstest$y-$l.log & | ||
+ | done | ||
+ | done</ | ||
No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " | No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " |