This is an old revision of the document!
Table of Contents
Návrh projektu na MT Marathon Dublin 2010
Nástroj pro automatické vyhledávání určitých typů chyb strojového překladu a jejich pohodlné zobrazení. Měl by být užitečný zejména pro lidi, kteří neovládají jeden z jazyků, mezi kterými se překládá. Vyhledávání a vizualizace ale bude užitečná pro všechny. Primárně předpokládáme testování s Mosesem a Joshuou, ale mělo by to být modulární, aby šlo co největší část využít i s jinými systémy.
Vyhledávací část bude náročnější na nápady, pokud to má najít opravdu zajímavé věci. Bude potřeba se koukat do trénovacích i testovacích dat, frázových tabulek / extrahovaných gramatik, souborů s párováním z Gizy atd.
Zobrazovací část by měla poskytnout maximální možný komfort při zkoumání chyb a jejich procházení. Komfort spočívá zejména v soustředění různých zdrojů dat (viz výše o vyhledávací části) na jednom místě a v jejich provázání odkazy.
Programovací jazyk bude především Perl, na něj jsme zvyklí.
K zobrazování výsledků by se mohlo využít HTML (dynamicky generované Perlem). Buď by se předgenerovalo do řady provázaných souborů, nebo by se použilo ve spojení s webovým serverem jako CGI. Výhodou by byla možnost rozklikávání různých alternativ, snadné přecházení na jiné typy dotazů atd. Nevýhody: obtížné zobrazování stromů (snad by šlo propojit s Tredem a jeho exportem do SVG), dále potenciálně pomalá odezva CGI verze (možná by šlo propojit s SQL serverem jako u PerlTQ, ale to už by nebylo součástí projektu v Dublinu) resp. nároky na množství generovaného HTML u varianty, která předgenerovává statické stránky.
Název
Každý úspěšný nástroj musí mít dobrý název Tady jsou nějaké nápady:
ADDICTER
Automatic Detection and DIsplay of Common Translation ERrors
nebo taky (to se mi líbí víc, i když to zvyšuje vazbu na Mosese a Joshuu; ale zase je to poušť, kde rostou Joshua Trees):
MOJAVE (pronounced /moʊˈhɑːvi/ or /məˈhɑːvi/)
MOses-Joshua Analysis and Visualization of Errors
Poznámky, co všechno by to mohlo umět
- out of vocabulary rate (occurrences/types in training/test data, source/target language)
- rozpoznat pojmenované entity (máme-li na to pro daná data nástroj) a zjistit, co se děje kolem nich
- trojí alignment ref-src-sys
- lemmatized: u kterých slov jsme trefili lemma, ale ne tvar?
- matchující slova (system vs. reference translation) po vynechání stopwords
- hledání podobných slov (překlepy, alternativní transkripce hindských slov přejatých z angličtiny)
- porovnávání frázových tabulek a glos: přeložili jsme nějaký výraz nevhodnou alternativou?
- chybně vynechaná slova a fráze?
- BLEU per věta
- slovosled (které slovo je před kterým v referenčním překladu, a jak se to liší od výstupu systému)
- porovnávání stromů, pokud máme parsery
- Hledat jevy
- Kvantifikovat závažnost a řadit je podle ní
- Zobrazovat je hezky graficky
- Pokud dokážeme jasně vymezit určitý typ chyby, zajímá nás i celkový počet jejích výskytů.
- Možnost kliknout na slovo nebo frázi a nechat si ukázat jeho výskyty s kontextem
- ve frázové tabulce
- v trénovacích datech (zarovnané obě strany)
- v trénovacích datech jazykového modelu (pokud jde o cílový jazyk)
- v seznamu n-best překladů
- další překlady toho samého jinde v testovacích datech
- Všechna hledání lze na požádání provádět lematizovaná, díky čemuž uvidíme, kdy netrefujeme morfologii cílového jazyka. Podmínkou samozřejmě je, že máme k dispozici lematizátor.
- Zobrazování:
- Každý text v každém jazyce může mít
- transliteraci
- glosy (druhým jazykem z daného páru, nebo třeba i třetím jazykem, když překládáme mezi dvěma neznámými jazyky)
- psát se zprava doleva (v rámci slova zajistí operační systém, ale uspořádání uzlů v rámci věty je na nás)