Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/01/29 22:33] zeman Záznam o tom, jak se v datech upravují uvozovky. |
user:zeman:wmt [2012/02/04 17:25] zeman Odkaz na WMT 2012. |
||
---|---|---|---|
Line 2: | Line 2: | ||
http:// | http:// | ||
- | http:// | + | http:// |
http:// | http:// | ||
< | < | ||
Line 10: | Line 10: | ||
* Udělat pořádek v záznamech. | * Udělat pořádek v záznamech. | ||
* Najít a oživit loňské pokusy s interpunkcí, | * Najít a oživit loňské pokusy s interpunkcí, | ||
+ | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty. | ||
* Převést všechny pokusy pod aktuální verzi Joshuy. | * Převést všechny pokusy pod aktuální verzi Joshuy. | ||
* Konečně převést Joshuu pod Emana. | * Konečně převést Joshuu pod Emana. | ||
Line 65: | Line 66: | ||
===== Pokusy s uvozovkami ===== | ===== Pokusy s uvozovkami ===== | ||
- | Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být "v6b" | + | Paralelní data, která máme k& |
- | '' | + | <code bash>$STATMT/ |
- | a co historie loňských commitů? | + | |
- | Podle časových značek u korpusů v '' | + | Takhle se upraví |
- | UPDATE: Tohle jsem k uvozovkám našel v textovém souboru s průběžnými výsledky z loňského WMT (Makefilem se tam primárně myslí Makefile dat pro WMT, tedy '' | + | <code bash> |
+ | Do Makefile přidáme nově upravené korpusy, mající v& | ||
- | --------------------------------------- | + | <code bash>EUROPARL = $(foreach pair, |
- | Mám k dispozici trénovací data s opravenými uvozovkami, zatím jen pro angličtinu se španělštinou. | + | NEWSCOMM = $(foreach pair, |
- | Potřebuju je označkovat, | + | |
- | cd / | + | Ale pozor! Jestliže |
- | # Přidat do Makefile nově upravené korpusy mající v názvu " | + | |
- | EUROPARL = $(foreach pair, | + | <code bash>make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr</ |
- | NEWSCOMM = $(foreach pair, | + | |
- | # Ale pozor! Jestliže už jsme předtím zpracovali jiný jazykový pár, musíme ho z Makefile alespoň dočasně vyhodit! | + | Teď použijeme TectoMT/ |
- | # Jinak si novým zkopírováním zdrojových korpusů přepíšeme případnou označkovanou verzi korpusu! | + | |
- | make corpus CORPUS=europarl-v6b.fr-en LANGUAGE=fr | + | <code bash>cd $TMT_ROOT/ |
- | # Teď použijeme TectoMT a cluster k označkování nových korpusů. | + | |
- | cd /net/work/people/zeman/tectomt/applications/ | + | |
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & | ||
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | ||
nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | ||
- | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log & | + | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</ |
- | # No a nyní již můžeme naklonovat nové pokusy. | + | |
- | # I když můžeme naklonovat oba směry (např. " | + | No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " |
- | $STATMT/ | + | |
+ | <code bash>$STATMT/ | ||
cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 | cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 | ||
$STATMT/ | $STATMT/ | ||
- | vi scripts/ | + | vim scripts/ |
- | $ac_tmtrain | + | $ac_tmtrain |
+ | |||
+ | Dotažení do konce: i vývojová a testovací data musí být ve verzi v6b. Můžeme přeskočit alignment a trénování jazykového modelu, ale musíme pustit '' | ||
+ | |||
+ | <code bash> | ||
+ | cd encs-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b | ||
+ | $STATMT/ | ||
+ | vim scripts/ | ||
+ | $ac_dev | ||
+ | $ac_test | ||
+ | (qsub.pl) scripts/ | ||
+ | nohup nice $STATMT/ | ||
- | Výsledky: | + | Pokusy s& |
- | Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011. | + | |
- | Skóre " | + | |
- | Vylaďovací ani testovací data zatím nijak upravována nebyla. | + | |
- | Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem. | + | |
- | es-en: dříve 0.2452, nyní 0.2428 | + | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' |
- | en-es: dříve 0.2590, nyní 0.2542 | + | |
+ | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ | ||
+ | | en-cs | 0.1191 | 0.1246 | | | ||
+ | | cs-en | 0.1692 | 0.1792 | | | ||
+ | | en-de | 0.1337 | 0.1274 | | | ||
+ | | de-en | 0.1885 | 0.1859 | | | ||
+ | | en-es | 0.2573 | 0.2531 | | | ||
+ | | es-en | 0.2446 | 0.2375 | | | ||
+ | | en-fr | 0.2591 | 0.2619 | | | ||
+ | | fr-en | 0.2243 | 0.2285 | | | ||
- | ===== Inventura 16.1.2012 | + | ===== Pokusy s Emanem |
- | 16.1.2012 21:12: Pouštím znova pokus '' | + | Tohle jsou data, která Ondřej použil pro svůj „malý pokus“: |
+ | SRCAUG=enNmT1+stc | ||
+ | TGTAUG=csNmT1+stc | ||
+ | ALILABEL=enNmT1-lemma-csNmT1-lemma | ||
+ | DEV: wmt10 | ||
+ | TEST: wmt11 | ||
- | Nový průběh všech osmi starých pokusů | + | Kopie příslušných korpusů jsou na mém hřišti v těchto krocích |
- | ^ Jazyky ^ BLEU ^ | + | < |
- | | en-cs | 0.1191 | | + | |
- | | cs-en | 0.1692 | | + | |
- | | en-de | 0.1337 | | + | |
- | | de-en | 0.1885 | | + | |
- | | en-es | 0.2573 | | + | |
- | | es-en | 0.2446 | | + | |
- | | en-fr | 0.2591 | | + | |
- | | fr-en | 0.2243 | | + | |
- | Od jara mám vytvořené také pokusy | + | SRC=en TGT=cs IMPORTCORPUS=yes TRALS=s.corpus.60681730.20120201-2157 TRALT=s.corpus.892024c6.20120201-2157 TRTMS=s.corpus.402e5219.20120201-2302 TRTMT=s.corpus.d8e0b2d7.20120201-2157 TRLMT=s.corpus.d8e0b2d7.20120201-2157 DEVS=s.corpus.e46c791e.20120201-2159 DEVT=s.corpus.c3230ea2.20120201-2201 TESTS=s.corpus.7b9dc07b.20120201-2205 TESTT=s.corpus.d0ef157e.20120201-2208 eman init dandata |
+ | s.dandata.1d1f8734.20120203-1125 | ||
- | '' | + | wmt10/ |
+ | wmt10/ | ||
+ | wmt11/ | ||
+ | wmt11/ | ||
- | První výsledky jsou zatím bez záruky, protože v průběhu Gizy jsem narazil na kvótu. Procesy sice nespadly, ale nejsem si jistý, co prováděly těch několik hodin, kdy nemohly psát na disk. Takže raději pustit ještě jednou (ostatně jeden z nich dokonce nedoběhl). | + | Korpusy pro alignment: |
+ | s.corpus.60681730.20120201-2157 | ||
+ | s.corpus.892024c6.20120201-2157 | ||
- | 24.1.2012 už mám i skoro všechny kontrolní výsledky druhého běhu, ale mezitím jsem zjistil chybu v počítání alignmentu, takže pouštím potřetí (zatím šest pokusů pro češtinu, němčinu a španělštinu, | + | GIZASTEP=s.mosesgiza.8a492679.20120202-1628 DATASTEP=s.dandata.1d1f8734.20120203-1125 ALISYM=gdfa eman init danalign |
+ | s.danalign.9fb3696a.20120203-1128 | ||
+ | JOSHUASTEP=s.joshua.2723ccd9.20120131-1031 ALIGNSTEP=s.danalign.9fb3696a.20120203-1128 eman init binarize --start --mem 31g | ||
+ | s.binarize.4576151d.20120203-1524 | ||
+ | BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=dev eman init extract --start | ||
+ | s.extract.95792bfb.20120203-1528 | ||
+ | BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=test eman init extract --start | ||
+ | s.extract.01f5693c.20120203-1528 | ||
+ | SRILMSTEP=s.srilm.e99247ad.20120201-0921 DATASTEP=s.dandata.1d1f8734.20120203-1125 ORDER=5 eman init danlm --start | ||
+ | s.danlm.06d337e0.20120203-1600 | ||
+ | LMSTEP=s.danlm.06d337e0.20120203-1600 EXTRACTSTEP=s.extract.95792bfb.20120203-1528 eman init zmert --start | ||
+ | s.zmert.884b636b.20120203-1602 | ||
+ | MERTSTEP=s.zmert.884b636b.20120203-1602 EXTRACTSTEP=s.extract.01f5693c.20120203-1528 eman init daneval --start | ||
+ | s.daneval.96709ff9.20120203-1603</ | ||
- | ^ Jazyky ^ BLEU ^ Kontrolní běh ^ Třetí běh ^ | + | Výsledek Danova pokusu s Ondřejovými malými daty: |
- | | en-cs | FAILED | 0.1267 | 0.1246 | | + | BLEU = 0.1185 |
- | | cs-en | 0.1748 | 0.1748 | 0.1792 | | + | (Ondřej měl s Mosesem asi 0.1230.) |
- | | en-de | 0.1268 | 0.1268 | 0.1274 | | + | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. |
- | | de-en | 0.1869 | 0.1869 | 0.1859 | | + | |
- | | en-es | 0.2542 | 0.2542 | 0.2531 | | + | |
- | | es-en | 0.2428 | FAILED | 0.2375 | | + | |
- | | en-fr | 0.2586 | 0.2628 | | | + | |
- | | fr-en | 0.2294 | 0.2294 | | | + | |