This is an old revision of the document!
Pokusy s předzpracováním paralelních textů pro TSD 2010
Výsledky
Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.
Pokus | Dev WMT08 | Test WMT09 | Poznámka | Datum |
encs-josh13 | 0.0878 | 0.0869 | 9.3.2010 | |
encs-articles | 0.0907 | 0.0887 | Z anglické strany vypuštěny určité i neurčité členy. | 16.3.2010 |
encs-subject | 0.0903 | 0.0864 | Před kořenové slovo anglického podmětu vepsán token _SUBJ_ . | 16.3.2010 |
encs-subject1 | Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) /Sb . | 17.3.2010 | ||
encs-attribute | 0.0785 | 0.0786 | K anglickým přívlastkům připojeno (do jednoho tokenu) /Atr . Cílem bylo odlišit např. “Prague” jako přídavné jméno “pražský” od podstatného jména “Praha”. Bohužel se ukazuje, že parser považuje za přívlastek všechno možné, někdy dokonce včetně hlavního slovesa v minulém čase (“agreed”). Proto to asi nefunguje. Možná by bylo lepší zkusit se spolehnout na tagger a jeho názor na to, co je přídavné jméno. | 17.3.2010 |