Danovy pokusy s Joshuou na WMT 2010

http://www.statmt.org/wmt10/translation-task.html
http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua

/net/work/people/zeman/wmt

Příprava korpusů

Vývojová data (news-test) jsou k dispozici ve formátu SGML. Obsahují pouze jeden referenční překlad, takže stačí vykopat obsah prvků <seg>. Výsledek strčit do augmented_corpora.

Náročnost

obo-max

Binarizace trvá zřejmě mnoho hodin (kvůli počítání tabulky lexikálních pravděpodobností). Paměťovou náročnost neznám, ale určitě je schopná spolykat nejméně 7,8 GB (viděl jsem, než jsem šel spát). Navíc momentálně padá na “negative array size” (podle Lanova vyjádření by to mohlo být způsobeno větami o 100 a více slovech, ověřuji na datech od takových vět vyčištěných). Můj čistící skript vybral z 7 544 465 řádků 7 543 152 takových, které měly 1-99 tokenů.

Výsledky

Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.

Pokus	Dev BLEU	Test BLEU	Poznámka	Datum
encs-allcstem4-tmnews-lmnews	0.0918	0.0905		24.2.2010
csen-allcstem4-tmnews-lmnews	0.1439	0.1471		26.2.2010
ende-allcstem4-tmnews-lmnews	0.1168	test havaroval		26.2.2010
deen-allcstem4-tmnews-lmnews	0.1725	0.1617		26.2.2010
enes-allcstem4-tmnews-lmnews	MERT havaroval			26.2.2010
esen-allcstem4-tmnews-lmnews	extrakce havarovala			26.2.2010
enfr-allcstem4-tmnews-lmnews	0.1991	test havaroval		26.2.2010
fren-allcstem4-tmnews-lmnews	0.1869	0.2020		26.2.2010

ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť.

Pokus	Dev BLEU	Test BLEU	Poznámka	Datum
obo-base1 (encs)	0.1084	0.0990		3.3.2010

Ondřej

Ahoj.

S podobnymi podminkami souhlasim, aspon se dozvime vic.

Cili do WMT by mohl jit:

- muj moses
- Tvuj joshua
- TectoMT

Moje augmented corpora jsou ~bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/

baseline korpus je
czeng092-ne
(alignment enNa-lemma-csNa-lemma-gdfa)

maximalni paralelni korpus je
czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2
(alignment csNm-lemma-enNm-lemma-gdfa)

korpusy pro LM mam zatim rozhrabane a pouzivam zejmena:

wmt10mono2

pozdeji budou pouzitelne wmt09mono, webcoll a syn200x

development korpus je wmt102.test08
test korpus je wmt102.test09

Zdrojovy jazyk je pro mne enNa2+stc.
Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno)

'stc' obecne znamena supervised truecasing, cili truecasovano podle lemmatu.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents