This is an old revision of the document!
Table of Contents
Danovy pokusy s Joshuou na WMT 2010
http://www.statmt.org/wmt10/translation-task.html
http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua
/net/work/people/zeman/wmt
Příprava korpusů
Vývojová data (news-test
) jsou k dispozici ve formátu SGML. Obsahují pouze jeden referenční překlad, takže stačí vykopat obsah prvků <seg>
. Výsledek strčit do augmented_corpora
.
Náročnost
obo-max
Binarizace trvá zřejmě mnoho hodin (kvůli počítání tabulky lexikálních pravděpodobností). Paměťovou náročnost neznám, ale určitě je schopná spolykat nejméně 7,8 GB (viděl jsem, než jsem šel spát). Navíc momentálně padá na “negative array size” (podle Lanova vyjádření by to mohlo být způsobeno větami o 100 a více slovech, ověřuji na datech od takových vět vyčištěných). Můj čistící skript vybral z 7 544 465 řádků 7 543 152 takových, které měly 1-99 tokenů.
Výsledky
Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.
Pokus | Dev BLEU | Test BLEU | Poznámka | Datum |
encs-allcstem4-tmnews-lmnews | 0.0918 | 0.0905 | 24.2.2010 | |
csen-allcstem4-tmnews-lmnews | 0.1439 | 0.1471 | 26.2.2010 | |
ende-allcstem4-tmnews-lmnews | 0.1168 | test havaroval | 26.2.2010 | |
deen-allcstem4-tmnews-lmnews | 0.1725 | 0.1617 | 26.2.2010 | |
enes-allcstem4-tmnews-lmnews | MERT havaroval | 26.2.2010 | ||
esen-allcstem4-tmnews-lmnews | extrakce havarovala | 26.2.2010 | ||
enfr-allcstem4-tmnews-lmnews | 0.1991 | test havaroval | 26.2.2010 | |
fren-allcstem4-tmnews-lmnews | 0.1869 | 0.2020 | 26.2.2010 |
ende test havaroval, protože jsem ho pustil dřív, než doběhla extrakce gramatiky pro testovací data. enfr ale padá i poté, a to proto, že některým částem (15 a 18) nestačí paměť.
Pokus | Dev BLEU | Test BLEU | Poznámka | Datum |
obo-base1 (encs) | 0.1084 | 0.0990 | 3.3.2010 |
Ondřej
Ahoj.
S podobnymi podminkami souhlasim, aspon se dozvime vic.
Cili do WMT by mohl jit:
- muj moses
- Tvuj joshua
- TectoMT
Moje augmented corpora jsou ~bojar/diplomka/granty/emplus/wmt10/playground/augmented_corpora/
baseline korpus je
czeng092-ne
(alignment enNa-lemma-csNa-lemma-gdfa)
maximalni paralelni korpus je
czeng092-ne+czeng092-eu+czeng092-fi+czeng092-te+czeng092-su+czeng092-we+emea2
(alignment csNm-lemma-enNm-lemma-gdfa)
korpusy pro LM mam zatim rozhrabane a pouzivam zejmena:
wmt10mono2
pozdeji budou pouzitelne wmt09mono, webcoll a syn200x
development korpus je wmt102.test08
test korpus je wmt102.test09
Zdrojovy jazyk je pro mne enNa2+stc.
Cilovy jazyk je pro mne csN[ma]+stc (jsou identicke, ne pro kazdy korpus mam vyrobeno vsechno)
'stc' obecne znamena supervised truecasing, cili truecasovano podle lemmatu.
O.