Differences

This shows you the differences between two versions of the page.

--- user:zeman:wmt [2012/02/04 18:23]
zeman Aktuální úkoly.
+++ user:zeman:wmt [2013/04/15 09:47]
zeman Gigafren.
@@ Line 1: / Line 1: @@
-====== Danovy pokusy s Joshuou na WMT 2012 ======
+====== Danovy pokusy na WMT 2013, Sofija ======
 http://matrix.statmt.org/
-http://www.statmt.org/wmt12/translation-task.html
+http://www.statmt.org/wmt13/translation-task.html
-http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua
 <code>/net/work/people/zeman/wmt</code>
 ===== Aktuální úkoly =====
+  * Znova označkovat anglický Gigaword, tentokrát Featuramou.
+  * Pokračovat v práci na gigafren. Překladový model je natrénovaný, je potřeba vyrobit kroky model, mert, translate a evaluator.
+  * Dokončit pokusy s korpusy un.es-en a un.fr-en. Běží merty, pak translate a evaluator. Pak kombinace un s jinými korpusy (newseuro a newsall).
+  * Zkontrolovat data pro rok 2013.
+    * Nejsou náhodou letos nové verze korpusů newseuro a newsall?
+      * Europarl je stejný jako loni, tedy verze 7.
+      * U News Commentary to není jisté, spíš asi budou nové.
+      * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou.
+      * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý).
+      * Nové by mělo být i newsall, protože přibyl rok 2012.
+    * Používám správné verze Gigawordů?
+    * O ruštině nemluvě...
+  * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu?
+  * Giga.fr-en: Stále ještě se vyrábí překladový model. Pokud se ale stihne vyrobit, musím z něj vyždímat nějaké výsledky.
+  * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví.
+  * Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z&nbsp;článku na WMT?
+    * Jazykové modely gigaword/czeng + newseuro + newsall
+    * Velká paralelní data un, gigafren, czeng
+  * Pokusit se napodobit Ondrův nejlepší výsledek.
+    * Použít stejná data jako on nebo lepší (to znamená přinejmenším celý Czeng a velká jednojazyčná data; Ondra ale prý vynechal Europarl, ten já vynechat nechci).
+    * Natrénovat stejné modely jako on. Přinejmenším mi zatím chybí lexical reordering model. Ondra navíc prováděl ještě nějaké čachry se značkami (jazykový model na morfologických značkách).
+  * Srovnat supervised truecasing, který používám teď, s něčím méně sofistikovaným. Nezmenšovat první písmeno slova uprostřed věty jen proto, že moje lematizace nezná dané slovo jako vlastní jméno (např. "doktor Chaloupka" by se neměl změnit na "doktor chaloupka").
+  * Prohnat všechna data Morfessorem a vyhodnotit překlad s ním.
   * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10).
-  * Otestovat morfematickou segmentaci (ale musí se doimplementovat závěrečné slepování).
-  * Dotáhnout do konce pokusy s uvozovkami (v6b), včetně testovacích dat.
-  * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty (v7).
   * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, gigawordy pro jazykové modely atd.
   * Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná).
@@ Line 77: / Line 96: @@
 nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log &
 nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log &
-nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</code>
+nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &
+for y in 2008 2009 2010 2011 ; do
+  for l in cs de en es fr ; do
+    nohup nice make CORPUS=newstest$y-v6b LANGUAGE=$l >& make-newstest$y-$l.log &
+  done
+done</code>
 No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. "fren" a "enfr") těsně po sobě, se spuštěním druhého směru by to chtělo počkat kvůli zámkům a vzájemnému nepřetahování se o práci, až než u prvního směru doběhne fáze "prepare".
@@ Line 100: / Line 124: @@
 Pokusy s&nbsp;uvozovkami začaly na jaře 2011. Tehdy jsem upravil pouze trénovací data (Europarl a News-Commentary) pro všechny čtyři jazykové páry. K&nbsp;poslední úpravě došlo 21.4.2011. Vracím se k&nbsp;tomu 16.1.2012. Nejdříve pouštím všechny tehdejší pokusy znova, potom přidám i úpravu vývojových a testovacích dat.
-Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): ''$SRC$TGT-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011'', v&nbsp;tabulce uvedeno jako "v6". Varianta, ve které byly uvozovky upraveny pouze v&nbsp;trénovacích datech (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011''), je označena "v6b-tr". Varianta, ve které úpravou uvozovek prošla i vývojová a testovací data (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b''), je označena "v6b".
+Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): ''$SRC$TGT-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011'', v&nbsp;tabulce uvedeno jako "v6". Varianta, ve které byly uvozovky upraveny pouze v&nbsp;trénovacích datech (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011''), je označena "v6b-tr". Varianta, ve které úpravou uvozovek prošla i vývojová a testovací data (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b''), je označena "v6b". Varianta "v7": nová trénovací data (verze 7 News Commentary a Europarlu pro WMT 2012) už jsou defaultně s&nbsp;upravenými uvozovkami; vývojová a testovací data jsou v tomto případě shodná s&nbsp;v6b. Verze wmt12 se od v7 liší tím, že netestujeme na newstest2011, ale newstest2012.
-^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^
+**Šest přídavných jazykových párů: čeština s němčinou, španělštinou a francouzštinou.** Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v&nbsp;dotyčných jazycích v&nbsp;páru s&nbsp;angličtinou. Ve všech případech jsem dostal kolem 690 tisíc párů vět.
-| en-cs | 0.1191 | 0.1246 | |
-| cs-en | 0.1692 | 0.1792 | |
+Sloupec Moses je první odpovídající pokus s&nbsp;Mosesem, už nad wmt12 (dev wmt10) a s&nbsp;jednojazyčným sjednocením news-europarl pro jazykový model.
-| en-de | 0.1337 | 0.1274 | |
-| de-en | 0.1885 | 0.1859 | |
+^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ wmt12 ^ Moses ^ +NewsAll ^ +Gigaword ^ Czeng ^
-| en-es | 0.2573 | 0.2531 | |
+| en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | 0.1161 | 11.96±0.50 |
-| es-en | 0.2446 | 0.2375 | |
+| cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | 0.1661 | 17.96±0.50 | 0.2022 | | 0.2225 |
-| en-fr | 0.2591 | 0.2619 | |
+| en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | 0.1359 | 14.26±0.52 |
-| fr-en | 0.2243 | 0.2285 | |
+| de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | 0.1880 | 18.77±0.53 |
+| en-es | 0.2573 | 0.2531 | 0.2627 | 0.2756 | 0.2757 | 27.78±0.65 |
+| es-en | 0.2446 | 0.2375 | 0.2497 | 0.2562 | 0.2699 | **22.19±0.58** |
+| en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 | 0.2572 | 25.99±0.63 |
+| fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 | 0.2391 | 24.59±0.68 |
+| cs-de |        |        |        |        | 0.1304 | 13.65±0.54 | 0.1529 |
+| de-cs |        |        |        |        | 0.1186 | 12.12±0.52 |
+| cs-es |        |        |        |        | 0.1848 | 19.52±0.52 | 0.2214 | 0.2243 |
+| es-cs |        |        |        |        | 0.1220 | 12.81±0.54 |
+| cs-fr |        |        |        |        | 0.1822 | 19.53±0.55 | 0.2169 |
+| fr-cs |        |        |        |        | 0.1175 | 12.53±0.57 |
 ===== Pokusy s Emanem =====
@@ Line 156: / Line 190: @@
 (Ondřej měl s Mosesem asi 0.1230.)
 Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre.
-===== Čeština s němčinou, španělštinou a francouzštinou =====
-Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v&nbsp;dotyčných jazycích v&nbsp;páru s&nbsp;angličtinou.
-Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, a to jak překladový, tak jazykový model. U testu WMT 2010 se jako základní uvádí BLEU skóre, které mi spočítal Joshua, v závorce pak skóre, které mi spočítali organizátoři, lowercase / truecase. Hodnoty se někdy výrazně liší, zřejmě kvůli odlišné tokenizaci.
-| **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** |
-| decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 |
-| escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 |
-| frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 |

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences