Differences

This shows you the differences between two versions of the page.

--- user:zeman:wmt [2012/02/04 18:24]
zeman Jiná dev data?
+++ user:zeman:wmt [2012/02/27 14:21]
zeman Doběhlo fr-en v7.
@@ Line 8: / Line 8: @@
 ===== Aktuální úkoly =====
+  * Rozpracované: es-en a fr-en v7 a UN. Značkování Gigawordu. Chcíplý giga.fr-en a news.2007.de.
+  * Stáhnout a otestovat nová testovací data (WMT 2012).
+  * Všechny přípravy korpusů a zarovnání zopakovat i pod Emanem. Naučit se registrovat korpusy Corpmanem.
+  * Připravit data pro cs-de, cs-es a cs-fr (news-commentary+europarl.v7).
+  * Prohnat všechna data Morfessorem a vyhodnotit překlad s ním.
   * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10).
-  * Otestovat jiná vývojová data (k dispozici je newstest 2008, 2009 a 2010, nebo všechny dohromady).
-  * Otestovat morfematickou segmentaci (ale musí se doimplementovat závěrečné slepování).
-  * Dotáhnout do konce pokusy s uvozovkami (v6b), včetně testovacích dat.
-  * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty (v7).
   * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, gigawordy pro jazykové modely atd.
   * Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná).
@@ Line 78: / Line 79: @@
 nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log &
 nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log &
-nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</code>
+nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &
+for y in 2008 2009 2010 2011 ; do
+  for l in cs de en es fr ; do
+    nohup nice make CORPUS=newstest$y-v6b LANGUAGE=$l >& make-newstest$y-$l.log &
+  done
+done</code>
 No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. "fren" a "enfr") těsně po sobě, se spuštěním druhého směru by to chtělo počkat kvůli zámkům a vzájemnému nepřetahování se o práci, až než u prvního směru doběhne fáze "prepare".
@@ Line 101: / Line 107: @@
 Pokusy s&nbsp;uvozovkami začaly na jaře 2011. Tehdy jsem upravil pouze trénovací data (Europarl a News-Commentary) pro všechny čtyři jazykové páry. K&nbsp;poslední úpravě došlo 21.4.2011. Vracím se k&nbsp;tomu 16.1.2012. Nejdříve pouštím všechny tehdejší pokusy znova, potom přidám i úpravu vývojových a testovacích dat.
-Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): ''$SRC$TGT-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011'', v&nbsp;tabulce uvedeno jako "v6". Varianta, ve které byly uvozovky upraveny pouze v&nbsp;trénovacích datech (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011''), je označena "v6b-tr". Varianta, ve které úpravou uvozovek prošla i vývojová a testovací data (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b''), je označena "v6b".
+Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): ''$SRC$TGT-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011'', v&nbsp;tabulce uvedeno jako "v6". Varianta, ve které byly uvozovky upraveny pouze v&nbsp;trénovacích datech (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011''), je označena "v6b-tr". Varianta, ve které úpravou uvozovek prošla i vývojová a testovací data (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b''), je označena "v6b". Varianta "v7": nová trénovací data (verze 7 News Commentary a Europarlu pro WMT 2012) už jsou defaultně s&nbsp;upravenými uvozovkami; vývojová a testovací data jsou v tomto případě shodná s&nbsp;v6b.
-^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^
+^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^
-| en-cs | 0.1191 | 0.1246 | |
+| en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 |
-| cs-en | 0.1692 | 0.1792 | |
+| cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 |
-| en-de | 0.1337 | 0.1274 | |
+| en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 |
-| de-en | 0.1885 | 0.1859 | |
+| de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 |
-| en-es | 0.2573 | 0.2531 | |
+| en-es | 0.2573 | 0.2531 | 0.2627 | |
-| es-en | 0.2446 | 0.2375 | |
+| es-en | 0.2446 | 0.2375 | 0.2497 | 0.2562 |
-| en-fr | 0.2591 | 0.2619 | |
+| en-fr | 0.2591 | 0.2619 | 0.2526 | |
-| fr-en | 0.2243 | 0.2285 | |
+| fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 |
 ===== Pokusy s Emanem =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences