[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Pokusy s předzpracováním paralelních textů pro TSD 2010

Výsledky

Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model.

Pokus Dev WMT08 Test WMT09 Poznámka Datum
encs-josh13 0.0878 0.0869 9.3.2010
encs-articles 0.0907 0.0887 Z anglické strany vypuštěny určité i neurčité členy. 16.3.2010
encs-subject 0.0903 0.0864 Před kořenové slovo anglického podmětu vepsán token _SUBJ_. 16.3.2010
encs-subject1 0.0872 0.0883 Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) /Sb. 17.3.2010
encs-attribute 0.0785 0.0786 K anglickým přívlastkům připojeno (do jednoho tokenu) /Atr. Cílem bylo odlišit např. “Prague” jako přídavné jméno “pražský” od podstatného jména “Praha”. Bohužel se ukazuje, že parser považuje za přívlastek všechno možné, někdy dokonce včetně hlavního slovesa v minulém čase (“agreed”). Proto to asi nefunguje. Možná by bylo lepší zkusit se spolehnout na tagger a jeho názor na to, co je přídavné jméno. 17.3.2010
encs-adjective 0.0889 0.0874 Místo přívlastků (viz výše) se připojuje /JJ u přídavných jmen. Zjistil jsem ale, že jako přídavná jména jsou značkována většinou jen slova, která opravdu jako přídavná jména vypadají, nikoli atributivně použitá podstatná jména (jako “Prague”). Takže to nijak signifikantně nepomohlo. Mohli bychom zkusit ještě třetí věc, značkovat atributy, ale pouze ty, které leží před podstatným jménem a samy nemají žádné děti. 17.3.2010

[ Back to the navigation ] [ Back to the content ]