This is an old revision of the document!
Table of Contents
Návrh projektu na MT Marathon Dublin 2010
Ondřej objevil formulář, kde je potřeba návrh projektu zaregistrovat do půlnoci 10.1.2010: http://www.mtmarathon2010.info/web/Projects.html
Nástroj pro automatické vyhledávání určitých typů chyb strojového překladu a jejich pohodlné zobrazení. Měl by být užitečný zejména pro lidi, kteří neovládají jeden z jazyků, mezi kterými se překládá. Vyhledávání a vizualizace ale bude užitečná pro všechny. Primárně předpokládáme testování s Mosesem a Joshuou, ale mělo by to být modulární, aby šlo co největší část využít i s jinými systémy.
Vyhledávací část bude náročnější na nápady, pokud to má najít opravdu zajímavé věci. Bude potřeba se koukat do trénovacích i testovacích dat, frázových tabulek / extrahovaných gramatik, souborů s párováním z Gizy atd.
Zobrazovací část by měla poskytnout maximální možný komfort při zkoumání chyb a jejich procházení. Komfort spočívá zejména v soustředění různých zdrojů dat (viz výše o vyhledávací části) na jednom místě a v jejich provázání odkazy.
Programovací jazyk bude především Perl, na něj jsme zvyklí.
K zobrazování výsledků by se mohlo využít HTML (dynamicky generované Perlem). Buď by se předgenerovalo do řady provázaných souborů, nebo by se použilo ve spojení s webovým serverem jako CGI. Výhodou by byla možnost rozklikávání různých alternativ, snadné přecházení na jiné typy dotazů atd. Nevýhody: obtížné zobrazování stromů (snad by šlo propojit s Tredem a jeho exportem do SVG), dále potenciálně pomalá odezva CGI verze (možná by šlo propojit s SQL serverem jako u PerlTQ, ale to už by nebylo součástí projektu v Dublinu) resp. nároky na množství generovaného HTML u varianty, která předgenerovává statické stránky.
Asi bychom tomu projektu mohli vytvořit někde nějaké stránky přístupné i pro potenciální účastníky, a taky SVN repozitář, takže co třeba na svn.ms.mff.cuni.cz? Případně to zařadit do našeho statmt repozitáře, ale tam zas asi nechceme pustit kdejakého cizince.
Název
Každý úspěšný nástroj musí mít dobrý název Tady jsou nějaké nápady:
ADDICTER
Automatic Detection and DIsplay of Common Translation ERrors
nebo taky (to se mi líbí víc, i když to zvyšuje vazbu na Mosese a Joshuu; ale zase je to poušť, kde rostou Joshua Trees):
MOJAVE (pronounced /moʊˈhɑːvi/ or /məˈhɑːvi/)
MOses-Joshua Analysis and Visualization of Errors
Poznámky, co všechno by to mohlo umět
- out of vocabulary rate (occurrences/types in training/test data, source/target language)
- rozpoznat pojmenované entity (máme-li na to pro daná data nástroj) a zjistit, co se děje kolem nich
- trojí alignment ref-src-sys
- lemmatized: u kterých slov jsme trefili lemma, ale ne tvar?
- matchující slova (system vs. reference translation) po vynechání stopwords
- hledání podobných slov (překlepy, alternativní transkripce hindských slov přejatých z angličtiny)
- porovnávání frázových tabulek a glos: přeložili jsme nějaký výraz nevhodnou alternativou?
- chybně vynechaná slova a fráze?
- BLEU per věta
- slovosled (které slovo je před kterým v referenčním překladu, a jak se to liší od výstupu systému)
- porovnávání stromů, pokud máme parsery
- Hledat jevy
- Kvantifikovat závažnost a řadit je podle ní
- Zobrazovat je hezky graficky
- Pokud dokážeme jasně vymezit určitý typ chyby, zajímá nás i celkový počet jejích výskytů.
- Možnost kliknout na slovo nebo frázi a nechat si ukázat jeho výskyty s kontextem
- ve frázové tabulce
- v trénovacích datech (zarovnané obě strany)
- v trénovacích datech jazykového modelu (pokud jde o cílový jazyk)
- v seznamu n-best překladů
- další překlady toho samého jinde v testovacích datech
- Všechna hledání lze na požádání provádět lematizovaná, díky čemuž uvidíme, kdy netrefujeme morfologii cílového jazyka. Podmínkou samozřejmě je, že máme k dispozici lematizátor.
- Zobrazování:
- Každý text v každém jazyce může mít
- transliteraci
- glosy (druhým jazykem z daného páru, nebo třeba i třetím jazykem, když překládáme mezi dvěma neznámými jazyky)
- psát se zprava doleva (v rámci slova zajistí operační systém, ale uspořádání uzlů v rámci věty je na nás)