Both sides previous revision
Previous revision
|
Next revision
Both sides next revision
|
user:zeman:wmt [2012/01/26 09:11] zeman Odstraněny zastaralé výsledky s výjimkou neobvyklých jazykových párů (čeština-neangličtina). |
user:zeman:wmt [2012/01/29 22:18] zeman obo-max-test2011 |
Nejúspěšnější nastavení z roku 2010 (více méně recyklované v roce 2011) bylo ''obo-max'', nyní přejmenované na ''obo-max-test2009'', a ''obo-max3'', nyní přejmenované na ''obo-max-test2010''. Oba tyto pokusy nyní používají Joshuu 1.3 (stará skóre byla naměřena s Joshuou 1.1 a jinými skripty). Oba používají Ondřejova velká data, tj. 7 miliónů párů vět z Czengu 0.92 na trénování, 13 miliónů českých vět (210 miliónů slov) pro český jazykový model (hexagram), nějaké tokenizační a technické úpravy (jazyky csNm a enNa2). Oba využívají Ondrovy ''augmented_corpora'' (''/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora''). V mých vlastních možná ani nejsou k dispozici zdrojové korpusy. Testovací korpus má u Ondry název ''wmt102.test09'', resp. ''wmt102.test10''. V obou případech ladím váhy na ''wmt102.test08''. | Nejúspěšnější nastavení z roku 2010 (více méně recyklované v roce 2011) bylo ''obo-max'', nyní přejmenované na ''obo-max-test2009'', a ''obo-max3'', nyní přejmenované na ''obo-max-test2010''. Oba tyto pokusy nyní používají Joshuu 1.3 (stará skóre byla naměřena s Joshuou 1.1 a jinými skripty). Oba používají Ondřejova velká data, tj. 7 miliónů párů vět z Czengu 0.92 na trénování, 13 miliónů českých vět (210 miliónů slov) pro český jazykový model (hexagram), nějaké tokenizační a technické úpravy (jazyky csNm a enNa2). Oba využívají Ondrovy ''augmented_corpora'' (''/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora''). V mých vlastních možná ani nejsou k dispozici zdrojové korpusy. Testovací korpus má u Ondry název ''wmt102.test09'', resp. ''wmt102.test10''. V obou případech ladím váhy na ''wmt102.test08''. |
| |
^ Výsledek ^ Test 2009 ^ Test 2010 ^ | Vytvořil jsem ještě i analogické ''obo-max-test2011'', ale zatím to má háček. Ondrovy ''augmented_corpora'' neobsahují ''newstest2011''. Takže jsem se vyhnul pouštění ''prepare.pl'', přeplácnul jsem svou kopii testovacích souborů svou kopií ''newstest2011'', což navíc neprošlo stejnou úpravou jako ostatní Ondrova data (není to tedy ve skutečnosti jazyk csNm, resp. enNa2, ale obyčejné moje cs a en; byť jsem je přejmenoval, aby to fungovalo). |
| Starý (Joshua 1.1) | 0.1300 | 0.1402 | | |
| Nový (25.1.2012, Joshua 1.3) | 0.1381 | 0.1477 | | |
| |
22.1.2012 ''obo-max-final'' (předchozí aktivita 7.3.2010, podle názvu to bylo to, co jsem tehdy nakonec odeslal). I tohle se od ''obo-max'' liší zřejmě jen použitým Makefilem a testovacími daty 2010. Od ''obo-max3'' se to, zdá se, neliší vůbec, alespoň pokud jde o konfigurační skript ''setexp.pl''. Pro jistotu to pouštím také, po porovnání výsledků dva z nich asi smažu. | ^ Výsledek ^ Test 2009 ^ Test 2010 ^ Test 2011 ^ |
| | Starý (Joshua 1.1) | 0.1300 | 0.1402 | | |
Výhledově chci pustit analogické ''obo-max-test2011''. | | Nový (25.1.2012, Joshua 1.3) | 0.1381 | 0.1477 | 0.1452 | |
| |
===== Data ===== | ===== Data ===== |