Danovy pokusy s Joshuou na WMT 2010

http://www.statmt.org/wmt10/translation-task.html
http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua

/net/work/people/zeman/wmt

Aktuální úkoly

Vyrobit 5gramový a 6gramový jazykový model z Ondřejových dat. (Ondra už mi mezitím dal svůj hotový šestigram, ale přesto chci ověřit, že už ho dokážu vyrobit.)
Pustit MERT obo-base s Ondrovým šestigramem.
Paralelizovat extrakci gramatiky, abych měl šanci se jí u obo-max někdy dočkat.

Příprava korpusů

Vývojová data (news-test) jsou k dispozici ve formátu SGML. Obsahují pouze jeden referenční překlad, takže stačí vykopat obsah prvků <seg>. Výsledek strčit do augmented_corpora.

Náročnost

obo-base1

První pokus s Ondřejovými daty 3.3.2010, ale jen trigramový jazykový model. Proběhlo celkem bez potíží.

obo-base2

Snažím se vyrobit větší jazykové modely. Zatím (5.3.2010 dopoledne) doběhl čtyřgram, běží pentagram.

Trénování 4gramového jazykového modelu trvalo půl hodiny a spotřebovalo něco mezi 10 a 15 GB. Trénování pentagramu trvalo asi 40 minut a spotřebovalo něco přes 18 GB.

obo-base3

Klon obo-base2. Používám Ondřejův hotový šestigramový model a pouštím rovnou MERT.

obo-max

Binarizace ve verzi 1.3 zahrnuje počítání tabulky lexikálních pravděpodobností a trvá asi 1:20 hodiny. Paměťová náročnost: až do počítání lexikálních pravděpodobností včetně vystačil s 9,8 GB. Pak se ale pustil do předpočítávání indexů nejčastějších frází a s pamětí vyletěl na 22 GB, což je strop, který jsem mu dal, takže je otázka, jestli by nedokázal využít i větší množství paměti. Podle Lanova vyjádření by mohl být problém s větami o 100 a více slovech, proto jsem z korpusu takové věty odstranil. Můj čistící skript vybral z 7 544 465 řádků 7 543 152 takových, které měly 1-99 tokenů.

Extrakce gramatiky nabíhala přes 20 minut, vyčerpala 11 GB. Teď už běží vlastní extrakce, ale je hodně pomalá, jedna věta trvá třeba i 10 minut. Průměrný čas je zatím 3 minuty na 1 větu, takže 2500 vět by trvalo 5 dní. Paměť stoupla zatím na 15 GB. Chtělo by to paralelizovat minimálně na 20 procesů!

Výsledky

Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.

Pokus	Dev BLEU	Test BLEU	Poznámka	Datum
encs-allcstem4-tmnews-lmnews	0.0918	0.0905		24.2.2010
csen-allcstem4-tmnews-lmnews	0.1439	0.1471		26.2.2010
ende-allcstem4-tmnews-lmnews	0.1168	test havaroval		26.2.2010
deen-allcstem4-tmnews-lmnews	0.1725	0.1617		26.2.2010
enes-allcstem4-tmnews-lmnews	MERT havaroval			26.2.2010
esen-allcstem4-tmnews-lmnews	extrakce havarovala			26.2.2010
enfr-allcstem4-tmnews-lmnews	0.1991	test havaroval		26.2.2010
fren-allcstem4-tmnews-lmnews	0.1869	0.2020		26.2.2010

ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť.

Pokus	Dev BLEU	Test BLEU	Poznámka	Datum
obo-base1 (encs)	0.1084	0.0990		3.3.2010

Ondřej

Ahoj.

S podobnymi podminkami souhlasim, aspon se dozvime vic.

Cili do WMT by mohl jit:

- muj moses
- Tvuj joshua
- TectoMT

Moje augmented corpora jsou ~bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/

baseline korpus je
czeng092-ne
(alignment enNa-lemma-csNa-lemma-gdfa)

maximalni paralelni korpus je
czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2
(alignment csNm-lemma-enNm-lemma-gdfa)

korpusy pro LM mam zatim rozhrabane a pouzivam zejmena:

wmt10mono2

pozdeji budou pouzitelne wmt09mono, webcoll a syn200x

development korpus je wmt102.test08
test korpus je wmt102.test09

Zdrojovy jazyk je pro mne enNa2+stc.
Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno)

'stc' obecne znamena supervised truecasing, cili truecasovano podle lemmatu.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents