Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:tsd2010 [2010/05/31 16:09] zeman Založena tabulka pro novou sadu pokusů. |
user:zeman:tsd2010 [2010/08/28 22:30] zeman filelist.txt musí být uvnitř en.parsed. |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== | ====== Pokusy s předzpracováním paralelních textů pro TSD 2010 ====== | ||
+ | |||
+ | ===== Předzpracování ===== | ||
+ | |||
+ | Zdrojová anglická strana paralelního korpusu se nejdříve prožene značkováním a parsingem v& | ||
+ | |||
+ | "Mam, ale je tam zvlast anglictina a cestina (a zadny alignment). Nebude ale velky problem to spojit. | ||
+ | |||
+ | / | ||
+ | |||
+ | Jen upozornuju, ze to nejsou tmt soubory, ale lot, line-oriented-tmt, | ||
+ | |||
+ | Výše uvedená Ondrova cesta vede na ''/ | ||
+ | |||
+ | <code bash> | ||
===== Výsledky ===== | ===== Výsledky ===== | ||
Line 30: | Line 44: | ||
| encs | 0.0916 | 0.0891 | | 31.5.2010 | | | encs | 0.0916 | 0.0891 | | 31.5.2010 | | ||
| encs-articles | 0.0921 | 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. Statisticky nevýznamné zlepšení. | 31.5.2010 | | | encs-articles | 0.0921 | 0.0898 | Z anglické strany vypuštěny určité i neurčité členy. Statisticky nevýznamné zlepšení. | 31.5.2010 | | ||
+ | | encs-subject | 0.0891 | 0.0864 | Ke kořenovému slovu anglického podmětu připojeno (do jednoho tokenu) ''/ | ||
+ | | encs-articles-subject | 0.0859 | 0.0851 | Kombinace transformací '' | ||
+ | | encs-verbparticle | 0.0880 | 0.0864 | Viz výše. | 30.5.2010 | | ||
| enhi | 0.1116 | 0.1230 | | 31.5.2010 | | | enhi | 0.1116 | 0.1230 | | 31.5.2010 | | ||
- | | enhi-articles | | | Zatím se členy odstraňují úplně stejně jako u '' | + | | enhi-articles | 0.1141 |
+ | | enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 | | ||