Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:tsd2010 [2010/05/30 21:50] zeman verbparticle |
user:zeman:tsd2010 [2010/09/08 17:02] (current) zeman Výsledek. |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== | ====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== | ||
+ | |||
+ | ===== Předzpracování ===== | ||
+ | |||
+ | Zdrojová anglická strana paralelního korpusu se nejdříve prožene značkováním a parsingem v& | ||
+ | |||
+ | "Mam, ale je tam zvlast anglictina a cestina (a zadny alignment). Nebude ale velky problem to spojit. | ||
+ | |||
+ | / | ||
+ | |||
+ | Jen upozornuju, ze to nejsou tmt soubory, ale lot, line-oriented-tmt, | ||
+ | |||
+ | Výše uvedená Ondrova cesta vede na ''/ | ||
+ | |||
+ | Ovšem pozor, v& | ||
+ | |||
+ | <code bash> | ||
===== Výsledky ===== | ===== Výsledky ===== | ||
Line 24: | Line 40: | ||
30.5.2010: verbparticle, | 30.5.2010: verbparticle, | ||
+ | |||
+ | Nové pokusy před odesláním konečné verze článku. Joshua verze 1.1, ale čištění od dlouhých vět už probíhá jako u verze 1.3. | ||
+ | |||
+ | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Poznámka** | **Datum** | | ||
+ | | encs | 0.0916 | 0.0891 | | 31.5.2010 | | ||
+ | | encs-articles | 0.0921 | 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. Statisticky nevýznamné zlepšení. | 31.5.2010 | | ||
+ | | encs-subject | 0.0891 | 0.0864 | Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) ''/ | ||
+ | | encs-articles-subject | 0.0859 | 0.0851 | Kombinace transformací '' | ||
+ | | encs-verbparticle | 0.0880 | 0.0864 | Viz výše. | 30.5.2010 | | ||
+ | | enhi | 0.1116 | 0.1230 | | 31.5.2010 | | ||
+ | | enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u '' | ||
+ | | enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 | | ||
+ | | enhi-postpositions | 0.1112 | 0.1227 | Z& | ||
+ | |||
+ | 7.9.2010 ověřuju, že jsem schopen zopakovat výše uvedené květnové výsledky. Opakuju pouze překladovou část, ne předzpracování. Ověřeno: encs. U en-articles byl dost zmatek a žádná předcházející verze experimentu nevypadala důvěryhodně. Nová verze naklonovaná z nového ověřeného encs mi dala dev = 0.0923, test = 0.0893. Nová verze en-subject-regrese mi dala dev = 0.0891, test = 0.0864. Nová verze encs-verbparticle-regrese mi dala dev = 0.0878, test = 0.0850. | ||
+ | |||
+ | | encs-complextense | 0.0879 | 0.0863 | Mění "is doing" na " | ||
+ | | encs-article | 0.0888 | 0.0836 | Upravené odstraňování členů pomocí funkcí jádra TectoMT. Výsledek by teoreticky měl být identický s& | ||
+ | | enhi | 0.1116 | 0.1230 | Základní anglicko-hindský pokus. Aspoň zde se potvrdily stejné výsledky jako v& | ||
+ | | enhi-articles | 0.1141 | 0.1230 | Původní odstraňování členů, ověřen stejný výsledek. | 8.9.2010 | | ||
+ | | enhi-article | 0.1168 | 0.1237 | Upravené odstraňování členů pomocí funkcí jádra TectoMT. Výsledek by teoreticky měl být identický s& | ||
+ | | enhi-the | 0.1158 | 0.1236 | Odstraňuje se pouze určitý člen, neurčitý se nechává na místě, protože hindština ho občas používá také. | 8.9.2010 | | ||
+ | | enhi-sov | 0.1074 | 0.1163 | Slovesa se přesouvají na konec klauze. | 8.9.2010 | | ||
+ | |||
+ | ===== Náměty ===== | ||
+ | |||
+ | * Zrušit anglické složené časy. Např. "is also planning" | ||
+ | * Je-li podmětem osobní zájmeno, zařídit, aby se vyskytovalo těsně vedle slovesa, nebo možná aby s ním bylo dokonce slepené. Ve frázích jako "he has never achieved" | ||
+ | * Zařídit, aby parser dostal text tokenizovaný takovým způsobem, na jaký je zvyklý, a po parsingu aby se text přetokenizoval tak, jak je to vhodné pro překlad. | ||
+ | * Vymyslet opravný blok za parserem, který pravidlově vychytá některé jeho chyby. Např. " |