[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:wmt [2010/08/30 09:41]
zeman Pokus obo-base2 už nemá smysl schovávat.
user:zeman:wmt [2012/01/19 08:40]
zeman Eman odstěhován.
Line 1: Line 1:
-====== Danovy pokusy s Joshuou na WMT 2010 ======+====== Danovy pokusy s Joshuou na WMT 2012 ======
  
 http://matrix.statmt.org/ http://matrix.statmt.org/
-http://www.statmt.org/wmt10/translation-task.html+http://www.statmt.org/wmt11/translation-task.html
 http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua
 <code>/net/work/people/zeman/wmt</code> <code>/net/work/people/zeman/wmt</code>
Line 8: Line 8:
 ===== Aktuální úkoly ===== ===== Aktuální úkoly =====
  
-  * Převést všechny pokusy pod Joshuu 1.3.+  * Udělat pořádek v záznamech. 
 +  * Najít a oživit loňské pokusy s interpunkcí, zejména s uvozovkami. 
 +  * Převést všechny pokusy pod aktuální verzi Joshuy. 
 +  * Konečně převést Joshuu pod Emana.
   * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština).   * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština).
   * Dotáhnout do konce obo-max.   * Dotáhnout do konce obo-max.
   * Při klonování experimentu se musí kopírovat mert/decoder-config.txt.ZMERT.final a změnit v něm cesty! Pozor, mohla se změnit i cesta ke glue gramatice, pokud se změnila cesta k Joshuovi.   * Při klonování experimentu se musí kopírovat mert/decoder-config.txt.ZMERT.final a změnit v něm cesty! Pozor, mohla se změnit i cesta ke glue gramatice, pokud se změnila cesta k Joshuovi.
-  * Upravit test.plaby před počítáním BLEU skóre odstraňoval přípony "_OOV". Otázka jezda nemá totéž dělat i mert.pl (resp. zda se to odstraňování nemá zabudovat do parcoderu.pl). +  * Pro všechny jazykové páry používat všechna dostupná datatedy i Europarlneomezovat se na News CommentaryTo mjznamenáže musím pro všechny páry získat nové baseliny.
-  * Vyrobit end-to-end skriptabych mohl pouštět pokusy s menšími nároky na babysitting.+
  
 ===== Data ===== ===== Data =====
Line 39: Line 41:
  
 ===== Náročnost ===== ===== Náročnost =====
- 
-==== obo-base3 ==== 
- 
-Klon obo-base2. Používám Ondřejův hotový šestigramový model a pouštím rovnou MERT. 
  
 ==== obo-max ==== ==== obo-max ====
Line 101: Line 99:
 | encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm5 | 0.1286 | 0.1179 | | Jako předchozí, ale LM je pentagram. | 29.8.2010 | | encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm5 | 0.1286 | 0.1179 | | Jako předchozí, ale LM je pentagram. | 29.8.2010 |
 | encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm6 | 0.1299 | 0.1176 | | Jako předchozí, ale LM je hexagram. | 29.8.2010 | | encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm6 | 0.1299 | 0.1176 | | Jako předchozí, ale LM je hexagram. | 29.8.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm3 | 0.1399 | 0.1346 | | Velký paralelní korpus (Czeng+Emea). | 6.9.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm4 | 0.1425 | 0.1372 | | Jako předchozí, ale LM je tetragram. | 6.9.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm5 | 0.1437 | 0.1368 | | Jako předchozí, ale LM je pentagram. | 6.9.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm6 | 0.1435 | 0.1368 | | Jako předchozí, ale LM je hexagram. | 7.9.2010 |
 +
 +===== Pokusy s uvozovkami =====
 +
 +Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být "v6b" (verze 6b) všech korpusů, na nich se měly všechny pokusy pustit znova. Asi.
 +
 +''$STATMT/scripts/specchar.pl''
 +a co historie loňských commitů?
 +
 +Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en).
 +
 +===== Infrastruktura a zarovnání =====
 +
 +Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční.
 +
 +===== Inventura 16.1.2012 =====
 +
 +16.1.2012 21:12: Pouštím znova pokus ''encs-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011''. Zřejmě to neobsahuje opravené uvozovky (v6b), ale potřebuju zjistit, zda se to vůbec rozběhne.
 +

[ Back to the navigation ] [ Back to the content ]