Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/02/03 18:15] zeman Poznámky o Ondrových datech a o pokusech s Emanem. |
user:zeman:wmt [2012/02/04 18:24] zeman Jiná dev data? |
||
---|---|---|---|
Line 2: | Line 2: | ||
http:// | http:// | ||
- | http:// | + | http:// |
http:// | http:// | ||
< | < | ||
Line 8: | Line 8: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Udělat pořádek v záznamech. | + | * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10). |
- | * Najít | + | * Otestovat jiná vývojová data (k dispozici je newstest 2008, 2009 a 2010, nebo všechny |
- | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty. | + | * Otestovat morfematickou segmentaci (ale musí se doimplementovat závěrečné slepování). |
- | * Převést | + | * Dotáhnout do konce pokusy s uvozovkami (v6b), včetně testovacích dat. |
- | * Konečně převést Joshuu pod Emana. | + | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty (v7). |
- | * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština). | + | * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, gigawordy pro jazykové modely atd. |
- | * Dotáhnout do konce obo-max. | + | * Převést |
- | * Při klonování experimentu se musí kopírovat mert/ | + | |
- | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím pro všechny | + | |
===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ||
Line 55: | Line 53: | ||
Testovací data by měl mít stejná jako já, tj. '' | Testovací data by měl mít stejná jako já, tj. '' | ||
- | ===== Výsledky | + | ===== Pokusy s uvozovkami |
- | Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje | + | Paralelní data, která máme k& |
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | + | <code bash> |
- | | decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 | | + | |
- | | escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 | | + | |
- | | frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 | | + | |
- | ===== Pokusy s uvozovkami ===== | + | Takhle se upraví korpus v& |
- | Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být " | + | <code bash>cd / |
- | '' | + | Do Makefile přidáme nově upravené korpusy, mající v& |
- | a co historie loňských commitů? | + | |
- | Podle časových značek u korpusů v '' | + | <code bash> |
+ | NEWSCOMM = $(foreach pair,es-en/es es-en/en,news-commentary-v6b.$(pair))</ | ||
- | UPDATE: Tohle jsem k uvozovkám našel v textovém souboru s průběžnými výsledky | + | Ale pozor! Jestliže jsme už předtím zpracovali jiný jazykový pár, musíme ho z& |
+ | <code bash> | ||
- | --------------------------------------- | + | Teď použijeme TectoMT/ |
- | Mám k dispozici trénovací data s opravenými uvozovkami, zatím jen pro angličtinu se španělštinou. | + | |
- | Potřebuju je označkovat, abych mohl pouštět experimenty s faktory lemma a stc. | + | <code bash>cd $TMT_ROOT/treex/devel/ |
- | cd /net/work/people/ | + | |
- | # Přidat do Makefile nově upravené korpusy mající v názvu " | + | |
- | EUROPARL = $(foreach pair,es-en/es es-en/en, | + | |
- | NEWSCOMM = $(foreach pair,es-en/es es-en/en,news-commentary-v6b.$(pair)) | + | |
- | # Ale pozor! Jestliže už jsme předtím zpracovali jiný jazykový pár, musíme ho z Makefile alespoň dočasně vyhodit! | + | |
- | # Jinak si novým zkopírováním zdrojových korpusů přepíšeme případnou označkovanou verzi korpusu! | + | |
- | make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr | + | |
- | # Teď použijeme TectoMT a cluster k označkování nových korpusů. | + | |
- | cd /net/work/ | + | |
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & | ||
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | ||
nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | ||
- | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log & | + | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</ |
- | # No a nyní již můžeme naklonovat nové pokusy. | + | |
- | # I když můžeme naklonovat oba směry (např. " | + | No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " |
- | $STATMT/ | + | |
+ | <code bash>$STATMT/ | ||
cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 | cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 | ||
$STATMT/ | $STATMT/ | ||
- | vi scripts/ | + | vim scripts/ |
- | $ac_tmtrain | + | $ac_tmtrain |
- | Výsledky: | + | Dotažení do konce: i vývojová a testovací data musí být ve verzi v6b. Můžeme přeskočit alignment a trénování jazykového modelu, ale musíme pustit '' |
- | Skóre " | + | |
- | Skóre " | + | |
- | Vylaďovací ani testovací data zatím nijak upravována nebyla. | + | |
- | Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem. | + | |
- | es-en: dříve 0.2452, nyní 0.2428 | + | <code bash> |
- | en-es: dříve 0.2590, nyní 0.2542 | + | cd encs-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b |
- | + | $STATMT/ | |
- | ===== Inventura 16.1.2012 ===== | + | vim scripts/ |
- | + | $ac_dev | |
- | 16.1.2012 21:12: Pouštím znova pokus '' | + | $ac_test |
- | + | (qsub.pl) scripts/ | |
- | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' | + | nohup nice $STATMT/ |
- | ^ Jazyky ^ BLEU ^ | + | Pokusy s& |
- | | en-cs | 0.1191 | | + | |
- | | cs-en | 0.1692 | | + | |
- | | en-de | 0.1337 | | + | |
- | | de-en | 0.1885 | | + | |
- | | en-es | 0.2573 | | + | |
- | | es-en | 0.2446 | | + | |
- | | en-fr | 0.2591 | | + | |
- | | fr-en | 0.2243 | | + | |
- | Od jara mám vytvořené také pokusy s korpusy, ve kterých jsou upravené uvozovky | + | Nový průběh všech osmi starých pokusů |
- | '' | + | ^ Jazyky ^ v6 ^ v6b-tr |
- | + | | en-cs | 0.1191 | 0.1246 | |
- | První výsledky jsou zatím bez záruky, protože v průběhu Gizy jsem narazil na kvótu. Procesy sice nespadly, ale nejsem si jistý, co prováděly těch několik hodin, kdy nemohly psát na disk. Takže raději pustit ještě jednou (ostatně jeden z nich dokonce nedoběhl). | + | | cs-en | 0.1692 | 0.1792 | | |
- | + | | en-de | 0.1337 | 0.1274 | | | |
- | 24.1.2012 už mám i skoro všechny kontrolní výsledky druhého běhu, ale mezitím jsem zjistil chybu v počítání alignmentu, takže pouštím potřetí (zatím šest pokusů pro češtinu, němčinu a španělštinu, | + | | de-en | 0.1885 | 0.1859 | | |
- | + | | en-es | 0.2573 | 0.2531 | |
- | ^ Jazyky ^ BLEU ^ Kontrolní běh ^ Třetí běh ^ | + | | es-en | 0.2446 | 0.2375 |
- | | en-cs | FAILED | + | | en-fr | 0.2591 | 0.2619 |
- | | cs-en | 0.1748 | 0.1748 | 0.1792 | + | | fr-en | 0.2243 | 0.2285 | | |
- | | en-de | 0.1268 | 0.1268 | 0.1274 | + | |
- | | de-en | 0.1869 | 0.1869 | 0.1859 | + | |
- | | en-es | 0.2542 | 0.2542 | + | |
- | | es-en | 0.2428 | FAILED | + | |
- | | en-fr | 0.2586 | 0.2628 | + | |
- | | fr-en | 0.2294 | 0.2294 | 0.2285 | + | |
===== Pokusy s Emanem ===== | ===== Pokusy s Emanem ===== | ||
Line 187: | Line 157: | ||
(Ondřej měl s Mosesem asi 0.1230.) | (Ondřej měl s Mosesem asi 0.1230.) | ||
Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||
+ | |||
+ | ===== Čeština s němčinou, španělštinou a francouzštinou ===== | ||
+ | |||
+ | Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v& | ||
+ | |||
+ | Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, | ||
+ | |||
+ | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
+ | | decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 | | ||
+ | | escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 | | ||
+ | | frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 | | ||