Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:wmt [2012/01/21 21:35] zeman Jiné augmented_corpora. |
user:zeman:wmt [2012/01/25 21:09] zeman obo-max doběhlo. |
| |
21.1.2012 se vracím k pokusu ''wmt/experiments/en-cs/josh11/obo-max''. Pustím ho znova. Starý ''test.log'', který jsem v něm našel, má BLEU = 0.1300 a datum 8.3.2010. Jeho kopie korpusu zabírá 3 GB, překladový model zabírá 5 GB. Ale jeho současný skript ''setexp.pl'' odkazuje na složku s Joshuou 1.3, nikoli 1.1, jak by se zdálo z ''josh11'' v cestě! Dnešní verze ''joshua.pl'' si zase stěžuje, že tu není skript ''aligntest.pl''. Pustím tedy ''resetex'' a aktualizuju rovnou všechno. Pozor! Tento pokus využívá Ondrovy ''augmented_corpora'' (''/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora''). V mých vlastních možná ani nejsou k dispozici zdrojové korpusy. Kromě toho by to mohlo mít i tu výhodu, že Ondrovy věci leží někde na merkuru, kde možná nemám kvótu na místo na disku. | 21.1.2012 se vracím k pokusu ''wmt/experiments/en-cs/josh11/obo-max''. Pustím ho znova. Starý ''test.log'', který jsem v něm našel, má BLEU = 0.1300 a datum 8.3.2010. Jeho kopie korpusu zabírá 3 GB, překladový model zabírá 5 GB. Ale jeho současný skript ''setexp.pl'' odkazuje na složku s Joshuou 1.3, nikoli 1.1, jak by se zdálo z ''josh11'' v cestě! Dnešní verze ''joshua.pl'' si zase stěžuje, že tu není skript ''aligntest.pl''. Pustím tedy ''resetex'' a aktualizuju rovnou všechno. Pozor! Tento pokus využívá Ondrovy ''augmented_corpora'' (''/home/bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora''). V mých vlastních možná ani nejsou k dispozici zdrojové korpusy. Kromě toho by to mohlo mít i tu výhodu, že Ondrovy věci leží někde na merkuru, kde možná nemám kvótu na místo na disku. |
| |
| 22.1.2012 obdobně pouštím také ''obo-max3''. Zkoušel jsem diff na ''setexp.pl'' u ''obo-max'' a ''obo-max3''. Kromě odkazu na jiný Makefile pro ''augment.pl'', který jsem u ''obo-max'' včera opravoval, se liší pouze v jedné další věci, a to je testovací soubor: u ''obo-max'' je to wmt102.test09, u ''obo-max3'' je to wmt102.test10. |
| |
| 22.1.2012 ''obo-max-final'' (předchozí aktivita 7.3.2010, podle názvu to bylo to, co jsem tehdy nakonec odeslal). I tohle se od ''obo-max'' liší zřejmě jen použitým Makefilem a testovacími daty 2010. Od ''obo-max3'' se to, zdá se, neliší vůbec, alespoň pokud jde o konfigurační skript ''setexp.pl''. Pro jistotu to pouštím také, po porovnání výsledků dva z nich asi smažu. |
| |
| Nový výsledek 25.1.2012: ''obo-max3'' BLEU = 0.1477 (newstest2010). |
| Nový výsledek 25.1.2012: ''obo-max'' BLEU = 0.1381 (newstest2009). |
| |
==== Staré záznamy ==== | ==== Staré záznamy ==== |
| |
Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). | Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). |
| |
===== Infrastruktura a zarovnání ===== | |
| |
Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční. | |
| |
===== Inventura 16.1.2012 ===== | ===== Inventura 16.1.2012 ===== |
| en-es | 0.2573 | | | en-es | 0.2573 | |
| es-en | 0.2446 | | | es-en | 0.2446 | |
| en-fr | | | | en-fr | 0.2591 | |
| fr-en | 0.2243 | | | fr-en | 0.2243 | |
| |
| |
''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011'' | ''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011'' |
| |
| První výsledky jsou zatím bez záruky, protože v průběhu Gizy jsem narazil na kvótu. Procesy sice nespadly, ale nejsem si jistý, co prováděly těch několik hodin, kdy nemohly psát na disk. Takže raději pustit ještě jednou (ostatně jeden z nich dokonce nedoběhl). |
| |
| 24.1.2012 už mám i skoro všechny kontrolní výsledky druhého běhu, ale mezitím jsem zjistil chybu v počítání alignmentu, takže pouštím potřetí (zatím šest pokusů pro češtinu, němčinu a španělštinu, později pustím i francouzštinu, až i u ní skončí druhý běh). |
| |
| ^ Jazyky ^ BLEU ^ Kontrolní běh ^ Třetí běh ^ |
| | en-cs | FAILED | 0.1267 | 0.1246 | |
| | cs-en | 0.1748 | 0.1748 | 0.1792 | |
| | en-de | 0.1268 | 0.1268 | 0.1274 | |
| | de-en | 0.1869 | 0.1869 | 0.1859 | |
| | en-es | 0.2542 | 0.2542 | | |
| | es-en | 0.2428 | FAILED | 0.2375 | |
| | en-fr | 0.2586 | 0.2628 | | |
| | fr-en | 0.2294 | 0.2294 | | |
| |