[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Table of Contents

Návrh projektu na MT Marathon Dublin 2010

Ondřej objevil formulář, kde je potřeba návrh projektu zaregistrovat do půlnoci 10.1.2010: http://www.mtmarathon2010.info/web/Projects.html

Nástroj pro automatické vyhledávání určitých typů chyb strojového překladu a jejich pohodlné zobrazení. Měl by být užitečný zejména pro lidi, kteří neovládají jeden z jazyků, mezi kterými se překládá. Vyhledávání a vizualizace ale bude užitečná pro všechny. Primárně předpokládáme testování s Mosesem a Joshuou, ale mělo by to být modulární, aby šlo co největší část využít i s jinými systémy.

Vyhledávací část bude náročnější na nápady, pokud to má najít opravdu zajímavé věci. Bude potřeba se koukat do trénovacích i testovacích dat, frázových tabulek / extrahovaných gramatik, souborů s párováním z Gizy atd.

Zobrazovací část by měla poskytnout maximální možný komfort při zkoumání chyb a jejich procházení. Komfort spočívá zejména v soustředění různých zdrojů dat (viz výše o vyhledávací části) na jednom místě a v jejich provázání odkazy.

Programovací jazyk bude především Perl, na něj jsme zvyklí.

K zobrazování výsledků by se mohlo využít HTML (dynamicky generované Perlem). Buď by se předgenerovalo do řady provázaných souborů, nebo by se použilo ve spojení s webovým serverem jako CGI. Výhodou by byla možnost rozklikávání různých alternativ, snadné přecházení na jiné typy dotazů atd. Nevýhody: obtížné zobrazování stromů (snad by šlo propojit s Tredem a jeho exportem do SVG), dále potenciálně pomalá odezva CGI verze (možná by šlo propojit s SQL serverem jako u PerlTQ, ale to už by nebylo součástí projektu v Dublinu) resp. nároky na množství generovaného HTML u varianty, která předgenerovává statické stránky.

Asi bychom tomu projektu mohli vytvořit někde nějaké stránky přístupné i pro potenciální účastníky, a taky SVN repozitář, takže co třeba na svn.ms.mff.cuni.cz? Případně to zařadit do našeho statmt repozitáře, ale tam zas asi nechceme pustit kdejakého cizince.

Název

Každý úspěšný nástroj musí mít dobrý název 8-) Tady jsou nějaké nápady:

ADDICTER
Automatic Detection and DIsplay of Common Translation ERrors

nebo taky (to se mi líbí víc, i když to zvyšuje vazbu na Mosese a Joshuu; ale zase je to poušť, kde rostou Joshua Trees):
MOJAVE (pronounced /moʊˈhɑːvi/ or /məˈhɑːvi/)
MOses-Joshua Analysis and Visualization of Errors

Poznámky, co všechno by to mohlo umět

Poznámky 2012


[ Back to the navigation ] [ Back to the content ]