[ Skip to the content ]

[ Back to the navigation ]

You are here: start » user » zeman » tsd2010

This is an old revision of the document!

Pokusy s předzpracováním paralelních textů pro TSD 2010

Výsledky

Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.

Pokus	Dev WMT08	Test WMT09	Poznámka	Datum
encs-josh13	0.0878	0.0869		9.3.2010
encs-articles	0.0907	0.0887	Z anglické strany vypuštěny určité i neurčité členy.	16.3.2010
encs-subject	0.0903	0.0864	Před kořenové slovo anglického podmětu vepsán token `_SUBJ_`.	16.3.2010
encs-subject1			Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) `/Sb`.	17.3.2010
encs-attribute	0.0785	0.0786	K anglickým přívlastkům připojeno (do jednoho tokenu) `/Atr`. Cílem bylo odlišit např. “Prague” jako přídavné jméno “pražský” od podstatného jména “Praha”. Bohužel se ukazuje, že parser považuje za přívlastek všechno možné, někdy dokonce včetně hlavního slovesa v minulém čase (“agreed”). Proto to asi nefunguje. Možná by bylo lepší zkusit se spolehnout na tagger a jeho názor na to, co je přídavné jméno.	17.3.2010

[ Back to the navigation ] [ Back to the content ]