[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/02/28 11:19]
zeman Aktualizace úkolů: data pro páry s češtinou jsou hotová.
user:zeman:wmt [2012/02/28 13:10]
zeman První výsledky na testovacích datech 2012.
Line 109: Line 109:
 Pokusy s uvozovkami začaly na jaře 2011. Tehdy jsem upravil pouze trénovací data (Europarl a News-Commentary) pro všechny čtyři jazykové páry. K poslední úpravě došlo 21.4.2011. Vracím se k tomu 16.1.2012. Nejdříve pouštím všechny tehdejší pokusy znova, potom přidám i úpravu vývojových a testovacích dat. Pokusy s uvozovkami začaly na jaře 2011. Tehdy jsem upravil pouze trénovací data (Europarl a News-Commentary) pro všechny čtyři jazykové páry. K poslední úpravě došlo 21.4.2011. Vracím se k tomu 16.1.2012. Nejdříve pouštím všechny tehdejší pokusy znova, potom přidám i úpravu vývojových a testovacích dat.
  
-Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): ''$SRC$TGT-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011'', v tabulce uvedeno jako "v6". Varianta, ve které byly uvozovky upraveny pouze v trénovacích datech (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011''), je označena "v6b-tr". Varianta, ve které úpravou uvozovek prošla i vývojová a testovací data (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b''), je označena "v6b". Varianta "v7": nová trénovací data (verze 7 News Commentary a Europarlu pro WMT 2012) už jsou defaultně s upravenými uvozovkami; vývojová a testovací data jsou v tomto případě shodná s v6b.+Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): ''$SRC$TGT-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011'', v tabulce uvedeno jako "v6". Varianta, ve které byly uvozovky upraveny pouze v trénovacích datech (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011''), je označena "v6b-tr". Varianta, ve které úpravou uvozovek prošla i vývojová a testovací data (''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b''), je označena "v6b". Varianta "v7": nová trénovací data (verze 7 News Commentary a Europarlu pro WMT 2012) už jsou defaultně s upravenými uvozovkami; vývojová a testovací data jsou v tomto případě shodná s v6b. Verze wmt12 se od v7 liší tím, že netestujeme na newstest2011, ale newstest2012.
  
-^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ +^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ wmt12 
-| en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | +| en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | 0.1161 
-| cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | +| cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | 0.1661 
-| en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | +| en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | 0.1359 
-| de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | +| de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | 0.1880 
-| en-es | 0.2573 | 0.2531 | 0.2627 | 0.2756 | +| en-es | 0.2573 | 0.2531 | 0.2627 | 0.2756 
-| es-en | 0.2446 | 0.2375 | 0.2497 | 0.2562 | +| es-en | 0.2446 | 0.2375 | 0.2497 | 0.2562 
-| en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 | +| en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 
-| fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 |+| fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 | 0.2391 |
  
 ===== Pokusy s Emanem ===== ===== Pokusy s Emanem =====

[ Back to the navigation ] [ Back to the content ]