[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:ukoly:moses [2009/10/08 12:26]
zeman Odevzdat data a frázovou tabulku.
user:zeman:ukoly:moses [2013/10/08 08:15] (current)
zeman quest
Line 16: Line 16:
 Poté dostanete k dispozici paralelní korpus pro jiný jazykový pár. Vaším úkolem bude aplikovat Mosese na tato data, vyhodnotit úspěšnost (BLEU skóre) a analyzovat chyby překladače. Poté dostanete k dispozici paralelní korpus pro jiný jazykový pár. Vaším úkolem bude aplikovat Mosese na tato data, vyhodnotit úspěšnost (BLEU skóre) a analyzovat chyby překladače.
  
-Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, na které při pokusech narazíte, ať už se týkají technických aspektů práce s parserem, zajímavostí v datech, se kterými jste pracovali, nebo námětů, jak zlepšit úspěšnost parseru.+Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, na které při pokusech narazíte, ať už se týkají technických aspektů práce s překladačem, zajímavostí v datech, se kterými jste pracovali, nebo námětů, jak zlepšit úspěšnost překladače.
  
 Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - přestože o samotném Mosesovi tohle říct nelze. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží. Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - přestože o samotném Mosesovi tohle říct nelze. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží.
Line 37: Line 37:
 ===== Data ===== ===== Data =====
  
-Tato sekce se ipravuje.+Máte k dispozici paralelní korpus rozdělený na trénovací, vývojovou a testovací část. Každá část obsahuje dva zagzipované soubory označené ISO kódem jazyka (např. en.gz obsahuje angličtinu). Sobě odpovídající soubory jsou už zarovnané po větách, mají stejný počet řádků, co řádek, to segment. Texty jsou tokenizované a kódované v UTF-8. 
 + 
 +Pozor, s jedním paralelním korpusem lze trénovat dva směry ekladu, podle toho, který jazyk použijete jako zdrojový a který jako cílový. Věnujte proto pozornost vašemu osobnímu zadání (i když samozřejmě můžete vyzkoušet oba směry, máte-li na to čas a chuť). 
 + 
 +Paralelní data si stáhněte zde: 
 + 
 +  * [[http://ufal.mff.cuni.cz/~zeman/vyuka/ukoly/data/moses/en-hi.zip|Angličtina – hindština]]
  
 ===== Další informace ===== ===== Další informace =====
  
-Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://ufal.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).+Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).
  
 Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci. Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.
  

[ Back to the navigation ] [ Back to the content ]