[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Danovy pokusy s Joshuou na WMT 2010

http://www.statmt.org/wmt10/translation-task.html
http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua

/net/work/people/zeman/wmt

Příprava korpusů

Vývojová data (news-test) jsou k dispozici ve formátu SGML. Obsahují pouze jeden referenční překlad, takže stačí vykopat obsah prvků <seg>. Výsledek strčit do augmented_corpora.

Náročnost

obo-max

Binarizace trvá zřejmě mnoho hodin (kvůli počítání tabulky lexikálních pravděpodobností). Paměťovou náročnost neznám, ale určitě je schopná spolykat nejméně 7,8 GB (viděl jsem, než jsem šel spát). Navíc momentálně padá na “negative array size” (podle Lanova vyjádření by to mohlo být způsobeno větami o 100 a více slovech, ověřuji na datech od takových vět vyčištěných). Můj čistící skript vybral z 7 544 465 řádků 7 543 152 takových, které měly 1-99 tokenů.

Výsledky

Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.

Pokus Dev BLEU Test BLEU Poznámka Datum
encs-allcstem4-tmnews-lmnews 0.0918 0.0905 24.2.2010
csen-allcstem4-tmnews-lmnews 0.1439 0.1471 26.2.2010
ende-allcstem4-tmnews-lmnews 0.1168 test havaroval 26.2.2010
deen-allcstem4-tmnews-lmnews 0.1725 0.1617 26.2.2010
enes-allcstem4-tmnews-lmnews MERT havaroval 26.2.2010
esen-allcstem4-tmnews-lmnews extrakce havarovala 26.2.2010
enfr-allcstem4-tmnews-lmnews 0.1991 test havaroval 26.2.2010
fren-allcstem4-tmnews-lmnews 0.1869 0.2020 26.2.2010

ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť.

Pokus Dev BLEU Test BLEU Poznámka Datum
obo-base1 (encs) 0.1084 0.0990 3.3.2010

Ondřej

Ahoj.

S podobnymi podminkami souhlasim, aspon se dozvime vic.

Cili do WMT by mohl jit:

- muj moses
- Tvuj joshua
- TectoMT

Moje augmented corpora jsou ~bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/

baseline korpus je
czeng092-ne
(alignment enNa-lemma-csNa-lemma-gdfa)

maximalni paralelni korpus je
czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2
(alignment csNm-lemma-enNm-lemma-gdfa)

korpusy pro LM mam zatim rozhrabane a pouzivam zejmena:

wmt10mono2

pozdeji budou pouzitelne wmt09mono, webcoll a syn200x

development korpus je wmt102.test08
test korpus je wmt102.test09

Zdrojovy jazyk je pro mne enNa2+stc.
Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno)

'stc' obecne znamena supervised truecasing, cili truecasovano podle lemmatu.

O.


[ Back to the navigation ] [ Back to the content ]