[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/02/09 21:10]
zeman Doběhlo de-en v7.
user:zeman:wmt [2012/02/27 12:28]
zeman Aktualizace aktuálních úkolů.
Line 8: Line 8:
 ===== Aktuální úkoly ===== ===== Aktuální úkoly =====
  
-  * V Emanovi zařídit, abych počítal BLEU skóre esně stejným způsobem jako Ondra.+  * Rozpracované: es-en a fr-en v7 a UN. Značkování Gigawordu. Chcíplý giga.fr-en a news.2007.de. 
 +  * Stáhnout a otestovat nová testovací data (WMT 2012). 
 +  * Všechny přípravy korpusů a zarovnání zopakovat i pod Emanem. Naučit se registrovat korpusy Corpmanem. 
 +  * Připravit data pro cs-de, cs-es a cs-fr (news-commentary+europarl.v7). 
 +  * Prohnat všechna data Morfessorem a vyhodnotit eklad s ním.
   * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10).   * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10).
-  * Otestovat jiná vývojová data (k dispozici je newstest 2008, 2009 a 2010, nebo všechny dohromady). 
-  * Otestovat morfematickou segmentaci (ale musí se doimplementovat závěrečné slepování). 
-  * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty (v7). 
   * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, gigawordy pro jazykové modely atd.   * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, gigawordy pro jazykové modely atd.
   * Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná).   * Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná).

[ Back to the navigation ] [ Back to the content ]