[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Danovy pokusy s Joshuou na WMT 2010

http://www.statmt.org/wmt10/translation-task.html
http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua

/net/work/people/zeman/wmt

Příprava korpusů

Vývojová data (news-test) jsou k dispozici ve formátu SGML. Obsahují pouze jeden referenční překlad, takže stačí vykopat obsah prvků <seg>. Výsledek strčit do augmented_corpora.

Výsledky

Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.

Pokus Dev BLEU Test BLEU Poznámka Datum
encs-allcstem4-tmnews-lmnews 0.0918 0.0905 24.2.2010
csen-allcstem4-tmnews-lmnews 0.1439 0.1471 26.2.2010
ende-allcstem4-tmnews-lmnews 0.1168 test havaroval 26.2.2010
deen-allcstem4-tmnews-lmnews 0.1725 0.1617 26.2.2010
enes-allcstem4-tmnews-lmnews MERT havaroval 26.2.2010
esen-allcstem4-tmnews-lmnews extrakce havarovala 26.2.2010
enfr-allcstem4-tmnews-lmnews 0.1991 test havaroval 26.2.2010
fren-allcstem4-tmnews-lmnews 0.1869 0.2020 26.2.2010

ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť.

Ondřej

Ahoj.

S podobnymi podminkami souhlasim, aspon se dozvime vic.

Cili do WMT by mohl jit:

- muj moses
- Tvuj joshua
- TectoMT

Moje augmented corpora jsou ~bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/

baseline korpus je
czeng092-ne
(alignment enNa-lemma-csNa-lemma-gdfa)

maximalni paralelni korpus je
czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2
(alignment csNm-lemma-enNm-lemma-gdfa)

korpusy pro LM mam zatim rozhrabane a pouzivam zejmena:

wmt10mono2

pozdeji budou pouzitelne wmt09mono, webcoll a syn200x

development korpus je wmt102.test08
test korpus je wmt102.test09

Zdrojovy jazyk je pro mne enNa2+stc.
Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno)

'stc' obecne znamena supervised truecasing, cili truecasovano podle lemmatu.

O.


[ Back to the navigation ] [ Back to the content ]