Both sides previous revision
Previous revision
|
Next revision
Both sides next revision
|
user:zeman:wmt [2012/01/26 08:44] zeman Doběhly uvozovky en-es. |
user:zeman:wmt [2012/01/26 09:01] zeman obo-max |
Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? | Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? |
| |
===== Staré záznamy ===== | ===== obo-max ===== |
| |
obo-max: testuje na wmt102.test09, staré BLEU = 0.l300 | Nejúspěšnější nastavení z roku 2010 (více méně recyklované v roce 2011) bylo ''obo-max'', nyní přejmenované na ''obo-max-test2009'', a ''obo-max3'', nyní přejmenované na ''obo-max-test2010''. Oba tyto pokusy nyní používají Joshuu 1.3 (stará skóre byla naměřena s Joshuou 1.1 a jinými skripty). Oba používají Ondřejova velká data, tj. 7 miliónů párů vět z Czengu 0.92 na trénování, 13 miliónů českých vět (210 miliónů slov) pro český jazykový model (hexagram), nějaké tokenizační a technické úpravy (jazyky csNm a enNa2). Oba využívají Ondrovy ''augmented_corpora'' (''/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora''). V mých vlastních možná ani nejsou k dispozici zdrojové korpusy. Testovací korpus má u Ondry název ''wmt102.test09'', resp. ''wmt102.test10''. |
obo-max3: testuje na wmt102.test10, staré BLEU = 0.1402 | |
Oba používají Joshuu 1.3. | |
Oba používají Ondřejova velká data (7 miliónů párů vět z Czengu 0.92 na trénování, 13 miliónů českých vět (210 miliónů slov) pro český jazykový model (hexagram), nějaké tokenizační a technické úpravy (jazyky csNm a enNa2)). Oba využívají Ondrovy ''augmented_corpora'' (''/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora''). V mých vlastních možná ani nejsou k dispozici zdrojové korpusy. | |
| |
22.1.2012 ''obo-max-final'' (předchozí aktivita 7.3.2010, podle názvu to bylo to, co jsem tehdy nakonec odeslal). I tohle se od ''obo-max'' liší zřejmě jen použitým Makefilem a testovacími daty 2010. Od ''obo-max3'' se to, zdá se, neliší vůbec, alespoň pokud jde o konfigurační skript ''setexp.pl''. Pro jistotu to pouštím také, po porovnání výsledků dva z nich asi smažu. | ^ Výsledek ^ Test 2009 ^ Test 2010 ^ |
| | Starý (Joshua 1.1) | 0.1300 | 0.1402 | |
| | Nový (25.1.2012, Joshua 1.3) | 0.1381 | 0.1477 | |
| |
Nový výsledek 25.1.2012: ''obo-max'' BLEU = 0.1381 (newstest2009). | 22.1.2012 ''obo-max-final'' (předchozí aktivita 7.3.2010, podle názvu to bylo to, co jsem tehdy nakonec odeslal). I tohle se od ''obo-max'' liší zřejmě jen použitým Makefilem a testovacími daty 2010. Od ''obo-max3'' se to, zdá se, neliší vůbec, alespoň pokud jde o konfigurační skript ''setexp.pl''. Pro jistotu to pouštím také, po porovnání výsledků dva z nich asi smažu. |
Nový výsledek 25.1.2012: ''obo-max3'' BLEU = 0.1477 (newstest2010). | |
| |
Výhledově chci přejmenovat ''obo-max'' na ''obo-max-test2009'' a ''obo-max3'' na ''obo-max-test2010''. A pustit analogický ''obo-max-test2011''. | Výhledově chci pustit analogické ''obo-max-test2011''. |
| |
===== Data ===== | ===== Data ===== |