Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2010/03/08 10:50] zeman |
user:zeman:wmt [2012/02/07 09:49] zeman BLEU. |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Danovy pokusy s Joshuou na WMT 2010 ====== | + | ====== Danovy pokusy s Joshuou na WMT 2012 ====== |
http:// | http:// | ||
- | http:// | + | http:// |
http:// | http:// | ||
< | < | ||
Line 8: | Line 8: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Přeložit ostrá testovací data všeho kromě '' | + | * V Emanovi zařídit, abych počítal BLEU skóre přesně stejným způsobem jako Ondra. |
- | * Přeložit ostrá testovací | + | |
- | * Paralelizovat extrakci gramatiky, abych měl šanci | + | * Otestovat jiná vývojová |
- | * Dotáhnout do konce obo-max. | + | * Otestovat morfematickou segmentaci (ale musí se doimplementovat závěrečné slepování). |
- | * Při klonování experimentu se musí kopírovat mert/ | + | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty (v7). |
+ | * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu | ||
+ | * Převést | ||
- | ===== Příprava korpusů | + | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== |
- | Vývojová data ('' | + | Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? |
- | ===== Náročnost | + | ===== obo-max |
- | ==== obo-base1 ==== | + | Nejúspěšnější nastavení z& |
- | První pokus s Ondřejovými daty 3.3.2010, ale jen trigramový jazykový model. Proběhlo celkem bez potíží. | + | Vytvořil jsem ještě i analogické '' |
- | ==== obo-base2 ==== | + | ^ Výsledek ^ Test 2009 ^ Test 2010 ^ Test 2011 ^ |
+ | | Starý (Joshua 1.1) | 0.1300 | 0.1402 | | | ||
+ | | Nový (25.1.2012, Joshua 1.3) | 0.1381 | 0.1477 | 0.1452 | | ||
- | Snažím se vyrobit větší jazykové modely. Zatím (5.3.2010 dopoledne) doběhl čtyřgram, běží pentagram. | + | ===== Data ===== |
- | Trénování 4gramového jazykového modelu trvalo půl hodiny a spotřebovalo něco mezi 10 a 15 GB. Trénování pentagramu trvalo asi 40 minut a spotřebovalo něco přes 18 GB. Hexagram trval hodinu a spotřeboval nejméně 23 GB (to byl poslední údaj, který jsem viděl, než jsem odešel). | + | Vývojová data ('' |
- | ==== obo-base3 | + | ==== Ondřejova data ==== |
- | Klon obo-base2. Používám | + | Ondřejovy augmented corpora se nacházejí v& |
- | ==== obo-max ==== | + | Vysvětlení Ondrových pseudojazyků: |
+ | * Znaky za '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
- | Binarizace ve verzi 1.3 zahrnuje počítání tabulky lexikálních pravděpodobností a trvá asi 1:20 hodiny. Paměťová náročnost: | + | Ondřejův maximální paralelní korpus navíc obsahuje |
- | Extrakce gramatiky nabíhala přes 20 minut, vyčerpala 11 GB. Teď už běží vlastní extrakce, ale je hodně pomalá, jedna věta trvá třeba i 10 minut. Průměrný čas je zatím 3 minuty na 1 větu, takže 2500 vět by trvalo 5 dní. Paměť stoupla zatím na 15 GB. Chtělo by to paralelizovat minimálně na 20 procesů! | + | Pro český jazykový model chtěl Ondřej později ještě přidat korpusy '' |
+ | Testovací data by měl mít stejná jako já, tj. '' | ||
+ | ===== Pokusy s uvozovkami ===== | ||
+ | Paralelní data, která máme k& | ||
+ | <code bash> | ||
+ | Takhle se upraví korpus v& | ||
+ | <code bash>cd / | ||
+ | Do Makefile přidáme nově upravené korpusy, mající v& | ||
+ | <code bash> | ||
+ | NEWSCOMM = $(foreach pair, | ||
+ | Ale pozor! Jestliže jsme už předtím zpracovali jiný jazykový pár, musíme ho z& | ||
+ | <code bash> | ||
+ | Teď použijeme TectoMT/ | ||
- | ===== Výsledky | + | <code bash>cd $TMT_ROOT/ |
+ | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=fr >& make-euro-fren-fr.log & | ||
+ | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | ||
+ | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | ||
+ | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log & | ||
+ | for y in 2008 2009 2010 2011 ; do | ||
+ | for l in cs de en es fr ; do | ||
+ | nohup nice make CORPUS=newstest$y-v6b LANGUAGE=$l >& make-newstest$y-$l.log & | ||
+ | done | ||
+ | done</ | ||
- | Není-li | + | No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " |
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | + | <code bash> |
- | | encs-allcstem4-tmnews-lmnews | + | cd fren-stc-allemma-tmv6b-lmv6b-lm6-test2011 |
- | | csen-allcstem4-tmnews-lmnews | 0.1439 | 0.1471 | | | 26.2.2010 | | + | $STATMT/ |
- | | ende-allcstem4-tmnews-lmnews | 0.1168 | 0.1114 | | | 26.2.2010 | | + | vim scripts/ |
- | | deen-allcstem4-tmnews-lmnews | 0.1725 | 0.1617 | | | 26.2.2010 | | + | $ac_tmtrain |
- | | enes-allcstem4-tmnews-lmnews | 0.1945 | | 0.2268 | Původně 26.2. kvůli vadnému alignmentu havaroval MERT, tohle je opravný pokus. Testovací data nejsou WMT 2009 jako u ostatních jazyků, ale WMT 2010. | 6.3.2010 | | + | |
- | | esen-allcstem4-tmnews-lmnews | extrakce havarovala | | | | 26.2.2010 | | + | |
- | | enfr-allcstem4-tmnews-lmnews | 0.1991 | test havaroval | | | 26.2.2010 | | + | |
- | | fren-allcstem4-tmnews-lmnews | 0.1869 | 0.2020 | | | 26.2.2010 | | + | |
- | ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, | + | Dotažení do konce: i vývojová a testovací data musí být ve verzi v6b. Můžeme přeskočit alignment |
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | + | <code bash> |
- | | obo-base1 (encs) | 0.1084 | 0.0990 | | | 3.3.2010 | | + | cd encs-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b |
- | | obo-base3 (encs) | 0.1064 | 0.0990 | | Na rozdíl od obo-base1 použit šestigramový jazykový model místo třígramového. Výsledek je velmi podezřelý (velmi podezřele podobný tomu třígramovému), | + | $STATMT/ |
- | | obo-base3 (encs) | 0.1103 | 0.1012 | | Opravný pokus, tentokrát už dekodér snad ví, že máme šestigram. | 5.3.2010 | | + | vim scripts/ |
- | | obo-max (encs) | 0.1344 | 0.1300 | | Ondrův maximální paralelní korpus a třígramový jazykový model. | 8.3.2010 | | + | $ac_dev |
- | | obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | + | $ac_test |
+ | (qsub.pl) scripts/ | ||
+ | nohup nice $STATMT/ | ||
- | ===== Ondřej ===== | + | Pokusy s& |
- | Ahoj. | + | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' |
- | S podobnymi podminkami souhlasim, aspon se dozvime vic. | + | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ |
+ | | en-cs | 0.1191 | 0.1246 | 0.1257 | | ||
+ | | cs-en | 0.1692 | 0.1792 | 0.1801 | | ||
+ | | en-de | 0.1337 | 0.1274 | 0.1334 | | ||
+ | | de-en | 0.1885 | 0.1859 | 0.1896 | | ||
+ | | en-es | 0.2573 | 0.2531 | 0.2627 | | ||
+ | | es-en | 0.2446 | 0.2375 | 0.2497 | | ||
+ | | en-fr | 0.2591 | 0.2619 | 0.2526 | | ||
+ | | fr-en | 0.2243 | 0.2285 | 0.2384 | | ||
- | Cili do WMT by mohl jit: | + | ===== Pokusy s Emanem ===== |
- | - muj moses | + | Tohle jsou data, která Ondřej použil pro svůj „malý pokus“: |
- | - Tvuj joshua | + | SRCAUG=enNmT1+stc |
- | - TectoMT | + | TGTAUG=csNmT1+stc |
+ | ALILABEL=enNmT1-lemma-csNmT1-lemma | ||
+ | DEV: wmt10 | ||
+ | TEST: wmt11 | ||
- | Moje augmented corpora | + | Kopie příslušných korpusů |
- | baseline korpus je | + | < |
- | czeng092-ne | + | |
- | (alignment enNa-lemma-csNa-lemma-gdfa) | + | |
- | maximalni paralelni korpus je | + | SRC=en TGT=cs IMPORTCORPUS=yes TRALS=s.corpus.60681730.20120201-2157 TRALT=s.corpus.892024c6.20120201-2157 TRTMS=s.corpus.402e5219.20120201-2302 TRTMT=s.corpus.d8e0b2d7.20120201-2157 TRLMT=s.corpus.d8e0b2d7.20120201-2157 DEVS=s.corpus.e46c791e.20120201-2159 DEVT=s.corpus.c3230ea2.20120201-2201 TESTS=s.corpus.7b9dc07b.20120201-2205 TESTT=s.corpus.d0ef157e.20120201-2208 eman init dandata |
- | czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2 | + | s.dandata.1d1f8734.20120203-1125 |
- | (alignment csNm-lemma-enNm-lemma-gdfa) | + | |
- | korpusy pro LM mam zatim rozhrabane a pouzivam zejmena: | + | wmt10/ |
+ | wmt10/ | ||
+ | wmt11/ | ||
+ | wmt11/ | ||
- | wmt10mono2 | + | Korpusy pro alignment: |
+ | s.corpus.60681730.20120201-2157 | ||
+ | s.corpus.892024c6.20120201-2157 | ||
- | pozdeji budou pouzitelne wmt09mono, webcoll a syn200x | + | GIZASTEP=s.mosesgiza.8a492679.20120202-1628 DATASTEP=s.dandata.1d1f8734.20120203-1125 ALISYM=gdfa eman init danalign |
+ | s.danalign.9fb3696a.20120203-1128 | ||
+ | JOSHUASTEP=s.joshua.2723ccd9.20120131-1031 ALIGNSTEP=s.danalign.9fb3696a.20120203-1128 eman init binarize --start --mem 31g | ||
+ | s.binarize.4576151d.20120203-1524 | ||
+ | BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=dev eman init extract --start | ||
+ | s.extract.95792bfb.20120203-1528 | ||
+ | BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=test eman init extract --start | ||
+ | s.extract.01f5693c.20120203-1528 | ||
+ | SRILMSTEP=s.srilm.e99247ad.20120201-0921 DATASTEP=s.dandata.1d1f8734.20120203-1125 ORDER=5 eman init danlm --start | ||
+ | s.danlm.06d337e0.20120203-1600 | ||
+ | LMSTEP=s.danlm.06d337e0.20120203-1600 EXTRACTSTEP=s.extract.95792bfb.20120203-1528 eman init zmert --start | ||
+ | s.zmert.884b636b.20120203-1602 | ||
+ | MERTSTEP=s.zmert.884b636b.20120203-1602 EXTRACTSTEP=s.extract.01f5693c.20120203-1528 eman init daneval --start | ||
+ | s.daneval.96709ff9.20120203-1603</ | ||
- | development korpus je wmt102.test08 | + | Výsledek Danova pokusu s Ondřejovými malými daty: |
- | test korpus | + | BLEU = 0.1185 |
+ | (Ondřej měl s Mosesem asi 0.1230.) | ||
+ | Ještě | ||
+ | ===== Čeština s němčinou, španělštinou a francouzštinou ===== | ||
- | Zdrojovy jazyk je pro mne enNa2+stc. | + | Tyto jazykové páry nejsou součástí shared task. Organizátoři |
- | Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno) | + | |
- | ' | + | Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, |
+ | |||
+ | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
+ | | decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 | | ||
+ | | escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 | | ||
+ | | frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 | | ||
- | O. |