[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:zeman:mojave [2009/12/15 17:57]
zeman vytvořeno
user:zeman:mojave [2013/01/23 09:52] (current)
zeman Poznámky 2012.
Line 1: Line 1:
 ====== Návrh projektu na MT Marathon Dublin 2010 ====== ====== Návrh projektu na MT Marathon Dublin 2010 ======
 +
 +Ondřej objevil formulář, kde je potřeba návrh projektu zaregistrovat do půlnoci 10.1.2010: http://www.mtmarathon2010.info/web/Projects.html
  
 Nástroj pro automatické vyhledávání určitých typů chyb strojového překladu a jejich pohodlné zobrazení. Měl by být užitečný zejména pro lidi, kteří neovládají jeden z jazyků, mezi kterými se překládá. Vyhledávání a vizualizace ale bude užitečná pro všechny. Primárně předpokládáme testování s Mosesem a Joshuou, ale mělo by to být modulární, aby šlo co největší část využít i s jinými systémy. Nástroj pro automatické vyhledávání určitých typů chyb strojového překladu a jejich pohodlné zobrazení. Měl by být užitečný zejména pro lidi, kteří neovládají jeden z jazyků, mezi kterými se překládá. Vyhledávání a vizualizace ale bude užitečná pro všechny. Primárně předpokládáme testování s Mosesem a Joshuou, ale mělo by to být modulární, aby šlo co největší část využít i s jinými systémy.
Line 10: Line 12:
  
 K zobrazování výsledků by se mohlo využít HTML (dynamicky generované Perlem). Buď by se předgenerovalo do řady provázaných souborů, nebo by se použilo ve spojení s webovým serverem jako CGI. Výhodou by byla možnost rozklikávání různých alternativ, snadné přecházení na jiné typy dotazů atd. Nevýhody: obtížné zobrazování stromů (snad by šlo propojit s Tredem a jeho exportem do SVG), dále potenciálně pomalá odezva CGI verze (možná by šlo propojit s SQL serverem jako u PerlTQ, ale to už by nebylo součástí projektu v Dublinu) resp. nároky na množství generovaného HTML u varianty, která předgenerovává statické stránky. K zobrazování výsledků by se mohlo využít HTML (dynamicky generované Perlem). Buď by se předgenerovalo do řady provázaných souborů, nebo by se použilo ve spojení s webovým serverem jako CGI. Výhodou by byla možnost rozklikávání různých alternativ, snadné přecházení na jiné typy dotazů atd. Nevýhody: obtížné zobrazování stromů (snad by šlo propojit s Tredem a jeho exportem do SVG), dále potenciálně pomalá odezva CGI verze (možná by šlo propojit s SQL serverem jako u PerlTQ, ale to už by nebylo součástí projektu v Dublinu) resp. nároky na množství generovaného HTML u varianty, která předgenerovává statické stránky.
 +
 +Asi bychom tomu projektu mohli vytvořit někde nějaké stránky přístupné i pro potenciální účastníky, a taky SVN repozitář, takže co třeba na svn.ms.mff.cuni.cz? Případně to zařadit do našeho statmt repozitáře, ale tam zas asi nechceme pustit kdejakého cizince.
  
 ===== Název ===== ===== Název =====
Line 16: Line 20:
  
 ADDICTER ADDICTER
-Automatic Detection and Display of Common Translation ERrors+Automatic Detection and DIsplay of Common Translation ERrors
  
 nebo taky (to se mi líbí víc, i když to zvyšuje vazbu na Mosese a Joshuu; ale zase je to poušť, kde rostou Joshua Trees): nebo taky (to se mi líbí víc, i když to zvyšuje vazbu na Mosese a Joshuu; ale zase je to poušť, kde rostou Joshua Trees):
Line 56: Line 60:
       * psát se zprava doleva (v rámci slova zajistí operační systém, ale uspořádání uzlů v rámci věty je na nás)       * psát se zprava doleva (v rámci slova zajistí operační systém, ale uspořádání uzlů v rámci věty je na nás)
  
 +====== Poznámky 2012 ======
 +
 +  * Ve shrnutí chyb umožnit zobrazení obou (všech) alignmentů v tabulce vedle sebe.
 +  * Nějak zrychlit prohledávání velkých indexů.
 +    * Dále rozdělit a hierarchizovat index?
 +    * Prořezat index, aby ke každému slovu zůstal alespoň jeden příklad, ale zbývající aby se zahodily?
 +    * Kešovat poslední nalezená slova? To by pomohlo zejména při procházení příkladů vět.
 +  * Nějak zařídit, aby Markovu klasifikátoru chyb nevadilo zarovnání, které není bijektivní.
 +    * Nebo alespoň odněkud vyštrachat Markův kód, který zarovnání znásilňuje, aby bijektivní bylo.
 +  * Moje vlastní implementace párování via-source pro test data browsing.
 +  * OOV rate, vyčlenit OOV jako samostatný druh chyby, který poznáme srovnáním testovacích dat s trénovacími (bez ohledu na alignment).
 +  * Rozšířit použití lemmat i na Word Explorer: ukázat všechny tvary lemmatu, alignment summary pro lemmata, hledání příkladů pro celé lemma dohromady.
 +  * Do webové aplikace přidat srovnávadlo výstupů dvou systémů (Martin Popel, David Mareček a Loïc Barrault).

[ Back to the navigation ] [ Back to the content ]