[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Pokusy s předzpracováním paralelních textů pro TSD 2010

Výsledky

Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.

Pokus Dev WMT08 Test WMT09 Poznámka Datum
encs-josh13 0.0878 0.0869 9.3.2010
encs-articles 0.0907 0.0887 Z anglické strany vypuštěny určité i neurčité členy. 16.3.2010
encs-subject 0.0903 0.0864 Před kořenové slovo anglického podmětu vepsán token _SUBJ_. 16.3.2010
encs-subject1 Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) /Sb. 17.3.2010
encs-attribute 0.0785 0.0786 K anglickým přívlastkům připojeno (do jednoho tokenu) /Atr. Cílem bylo odlišit např. “Prague” jako přídavné jméno “pražský” od podstatného jména “Praha”. Bohužel se ukazuje, že parser považuje za přívlastek všechno možné, někdy dokonce včetně hlavního slovesa v minulém čase (“agreed”). Proto to asi nefunguje. Možná by bylo lepší zkusit se spolehnout na tagger a jeho názor na to, co je přídavné jméno. 17.3.2010

[ Back to the navigation ] [ Back to the content ]