Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:mojave [2009/12/15 18:00] zeman |
user:zeman:mojave [2013/01/23 09:52] (current) zeman Poznámky 2012. |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Návrh projektu na MT Marathon Dublin 2010 ====== | ====== Návrh projektu na MT Marathon Dublin 2010 ====== | ||
+ | |||
+ | Ondřej objevil formulář, kde je potřeba návrh projektu zaregistrovat do půlnoci 10.1.2010: http:// | ||
Nástroj pro automatické vyhledávání určitých typů chyb strojového překladu a jejich pohodlné zobrazení. Měl by být užitečný zejména pro lidi, kteří neovládají jeden z jazyků, mezi kterými se překládá. Vyhledávání a vizualizace ale bude užitečná pro všechny. Primárně předpokládáme testování s Mosesem a Joshuou, ale mělo by to být modulární, | Nástroj pro automatické vyhledávání určitých typů chyb strojového překladu a jejich pohodlné zobrazení. Měl by být užitečný zejména pro lidi, kteří neovládají jeden z jazyků, mezi kterými se překládá. Vyhledávání a vizualizace ale bude užitečná pro všechny. Primárně předpokládáme testování s Mosesem a Joshuou, ale mělo by to být modulární, | ||
Line 11: | Line 13: | ||
K zobrazování výsledků by se mohlo využít HTML (dynamicky generované Perlem). Buď by se předgenerovalo do řady provázaných souborů, nebo by se použilo ve spojení s webovým serverem jako CGI. Výhodou by byla možnost rozklikávání různých alternativ, snadné přecházení na jiné typy dotazů atd. Nevýhody: obtížné zobrazování stromů (snad by šlo propojit s Tredem a jeho exportem do SVG), dále potenciálně pomalá odezva CGI verze (možná by šlo propojit s SQL serverem jako u PerlTQ, ale to už by nebylo součástí projektu v Dublinu) resp. nároky na množství generovaného HTML u varianty, která předgenerovává statické stránky. | K zobrazování výsledků by se mohlo využít HTML (dynamicky generované Perlem). Buď by se předgenerovalo do řady provázaných souborů, nebo by se použilo ve spojení s webovým serverem jako CGI. Výhodou by byla možnost rozklikávání různých alternativ, snadné přecházení na jiné typy dotazů atd. Nevýhody: obtížné zobrazování stromů (snad by šlo propojit s Tredem a jeho exportem do SVG), dále potenciálně pomalá odezva CGI verze (možná by šlo propojit s SQL serverem jako u PerlTQ, ale to už by nebylo součástí projektu v Dublinu) resp. nároky na množství generovaného HTML u varianty, která předgenerovává statické stránky. | ||
+ | Asi bychom tomu projektu mohli vytvořit někde nějaké stránky přístupné i pro potenciální účastníky, | ||
===== Název ===== | ===== Název ===== | ||
Line 57: | Line 60: | ||
* psát se zprava doleva (v rámci slova zajistí operační systém, ale uspořádání uzlů v rámci věty je na nás) | * psát se zprava doleva (v rámci slova zajistí operační systém, ale uspořádání uzlů v rámci věty je na nás) | ||
+ | ====== Poznámky 2012 ====== | ||
+ | |||
+ | * Ve shrnutí chyb umožnit zobrazení obou (všech) alignmentů v tabulce vedle sebe. | ||
+ | * Nějak zrychlit prohledávání velkých indexů. | ||
+ | * Dále rozdělit a hierarchizovat index? | ||
+ | * Prořezat index, aby ke každému slovu zůstal alespoň jeden příklad, ale zbývající aby se zahodily? | ||
+ | * Kešovat poslední nalezená slova? To by pomohlo zejména při procházení příkladů vět. | ||
+ | * Nějak zařídit, aby Markovu klasifikátoru chyb nevadilo zarovnání, | ||
+ | * Nebo alespoň odněkud vyštrachat Markův kód, který zarovnání znásilňuje, | ||
+ | * Moje vlastní implementace párování via-source pro test data browsing. | ||
+ | * OOV rate, vyčlenit OOV jako samostatný druh chyby, který poznáme srovnáním testovacích dat s trénovacími (bez ohledu na alignment). | ||
+ | * Rozšířit použití lemmat i na Word Explorer: ukázat všechny tvary lemmatu, alignment summary pro lemmata, hledání příkladů pro celé lemma dohromady. | ||
+ | * Do webové aplikace přidat srovnávadlo výstupů dvou systémů (Martin Popel, David Mareček a Loïc Barrault). |