This is an old revision of the document!
Table of Contents
Danovy pokusy s Joshuou na WMT 2010
http://www.statmt.org/wmt10/translation-task.html
http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua
/net/work/people/zeman/wmt
Příprava korpusů
Vývojová data (news-test
) jsou k dispozici ve formátu SGML. Obsahují pouze jeden referenční překlad, takže stačí vykopat obsah prvků <seg>
. Výsledek strčit do augmented_corpora
.
Výsledky
Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.
Pokus | Dev BLEU | Test BLEU | Poznámka | Datum |
encs-allcstem4-tmnews-lmnews | 0.0918 | 0.0905 | 24.2.2010 | |
csen-allcstem4-tmnews-lmnews | 0.1439 | 0.1471 | 26.2.2010 | |
ende-allcstem4-tmnews-lmnews | 0.1168 | test havaroval | 26.2.2010 | |
deen-allcstem4-tmnews-lmnews | 0.1725 | 0.1617 | 26.2.2010 | |
enes-allcstem4-tmnews-lmnews | MERT havaroval | 26.2.2010 | ||
esen-allcstem4-tmnews-lmnews | extrakce havarovala | 26.2.2010 | ||
enfr-allcstem4-tmnews-lmnews | 0.1991 | test havaroval | 26.2.2010 | |
fren-allcstem4-tmnews-lmnews | 0.1869 | 0.2020 | 26.2.2010 |
ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť.
Ondřej
Ahoj.
S podobnymi podminkami souhlasim, aspon se dozvime vic.
Cili do WMT by mohl jit:
- muj moses
- Tvuj joshua
- TectoMT
Moje augmented corpora jsou ~bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/
baseline korpus je
czeng092-ne
(alignment enNa-lemma-csNa-lemma-gdfa)
maximalni paralelni korpus je
czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2
(alignment csNm-lemma-enNm-lemma-gdfa)
korpusy pro LM mam zatim rozhrabane a pouzivam zejmena:
wmt10mono2
pozdeji budou pouzitelne wmt09mono, webcoll a syn200x
development korpus je wmt102.test08
test korpus je wmt102.test09
Zdrojovy jazyk je pro mne enNa2+stc.
Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno)
'stc' obecne znamena supervised truecasing, cili truecasovano podle lemmatu.
O.