[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:tsd2010 [2010/08/28 22:34]
zeman Potřebujeme úplné cesty.
user:zeman:tsd2010 [2010/09/08 17:02] (current)
zeman Výsledek.
Line 52: Line 52:
 | enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 | | enhi-articles | 0.1141 | 0.1230 | Zatím se členy odstraňují úplně stejně jako u ''encs''. Ve skutečnosti bychom ale pro hindštinu měli asi odstraňovat pouze určité členy. | 31.5.2010 |
 | enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 | | enhi-reord2008 | 0.1074 | 0.1172 | Stará pravidla pro úpravu slovosledu z roku 2008: sloveso na konec věty a z předložek záložky. Možná se ale nepodařilo pravidla přenést úplně správně, bude to potřeba ještě prozkoumat po částech. | 31.5.2010 |
 +| enhi-postpositions | 0.1112 | 0.1227 | Z předložek se dělají záložky. | 2.6.2010 |
  
 +7.9.2010 ověřuju, že jsem schopen zopakovat výše uvedené květnové výsledky. Opakuju pouze překladovou část, ne předzpracování. Ověřeno: encs. U en-articles byl dost zmatek a žádná předcházející verze experimentu nevypadala důvěryhodně. Nová verze naklonovaná z nového ověřeného encs mi dala dev = 0.0923, test = 0.0893. Nová verze en-subject-regrese mi dala dev = 0.0891, test = 0.0864. Nová verze encs-verbparticle-regrese mi dala dev = 0.0878, test = 0.0850.
 +
 +| encs-complextense | 0.0879 | 0.0863 | Mění "is doing" na "does" (resp. "dos", protože nepoužíváme úplnou morfologickou syntézu). | 8.9.2010 |
 +| encs-article | 0.0888 | 0.0836 | Upravené odstraňování členů pomocí funkcí jádra TectoMT. Výsledek by teoreticky měl být identický s ''articles'', ale zjevně není. | 8.9.2010 |
 +| enhi | 0.1116 | 0.1230 | Základní anglicko-hindský pokus. Aspoň zde se potvrdily stejné výsledky jako v květnu. | 8.9.2010 |
 +| enhi-articles | 0.1141 | 0.1230 | Původní odstraňování členů, ověřen stejný výsledek. | 8.9.2010 |
 +| enhi-article | 0.1168 | 0.1237 | Upravené odstraňování členů pomocí funkcí jádra TectoMT. Výsledek by teoreticky měl být identický s ''articles'', ale zjevně není. | 8.9.2010 |
 +| enhi-the | 0.1158 | 0.1236 | Odstraňuje se pouze určitý člen, neurčitý se nechává na místě, protože hindština ho občas používá také. | 8.9.2010 |
 +| enhi-sov | 0.1074 | 0.1163 | Slovesa se přesouvají na konec klauze. | 8.9.2010 |
 +
 +===== Náměty =====
 +
 +  * Zrušit anglické složené časy. Např. "is also planning" převést na "plans also"; "am/are planning" převést na "plan". Aby tam nezůstala osamělá pomocná slovesa. Určitě se to týká i jiných časů než přítomného průběhového. Někde mám seznam všech složených slovesných tvarů, které jsem v datech potkal.
 +  * Je-li podmětem osobní zájmeno, zařídit, aby se vyskytovalo těsně vedle slovesa, nebo možná aby s ním bylo dokonce slepené. Ve frázích jako "he has never achieved" hrozí, že "he" nebude mít žádný vliv na rod českého příčestí, a navíc tam může zůstat viset české "on", které bychom do české věty normálně nedali.
 +  * Zařídit, aby parser dostal text tokenizovaný takovým způsobem, na jaký je zvyklý, a po parsingu aby se text přetokenizoval tak, jak je to vhodné pro překlad.
 +  * Vymyslet opravný blok za parserem, který pravidlově vychytá některé jeho chyby. Např. "off" ve spojení "spin - off" nemůže viset na nějakém slovesu o kilometr dříve.

[ Back to the navigation ] [ Back to the content ]