[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:wmt [2010/08/29 18:01]
zeman Výsledek.
user:zeman:wmt [2012/01/19 21:33]
zeman Pokusy s uvozovkami.
Line 1: Line 1:
-====== Danovy pokusy s Joshuou na WMT 2010 ======+====== Danovy pokusy s Joshuou na WMT 2012 ======
  
 http://matrix.statmt.org/ http://matrix.statmt.org/
-http://www.statmt.org/wmt10/translation-task.html+http://www.statmt.org/wmt11/translation-task.html
 http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua http://svn.ms.mff.cuni.cz/projects/statmt/wiki/enhi/joshua
 <code>/net/work/people/zeman/wmt</code> <code>/net/work/people/zeman/wmt</code>
Line 8: Line 8:
 ===== Aktuální úkoly ===== ===== Aktuální úkoly =====
  
-  * Převést všechny pokusy pod Joshuu 1.3.+  * Udělat pořádek v záznamech. 
 +  * Najít a oživit loňské pokusy s interpunkcí, zejména s uvozovkami. 
 +  * Převést všechny pokusy pod aktuální verzi Joshuy. 
 +  * Konečně převést Joshuu pod Emana.
   * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština).   * Převést všechny pokusy na nové zacházení s velkými písmeny (viz Ondřej a čeština).
   * Dotáhnout do konce obo-max.   * Dotáhnout do konce obo-max.
   * Při klonování experimentu se musí kopírovat mert/decoder-config.txt.ZMERT.final a změnit v něm cesty! Pozor, mohla se změnit i cesta ke glue gramatice, pokud se změnila cesta k Joshuovi.   * Při klonování experimentu se musí kopírovat mert/decoder-config.txt.ZMERT.final a změnit v něm cesty! Pozor, mohla se změnit i cesta ke glue gramatice, pokud se změnila cesta k Joshuovi.
-  * Upravit test.plaby před počítáním BLEU skóre odstraňoval přípony "_OOV". Otázka jezda nemá totéž dělat i mert.pl (resp. zda se to odstraňování nemá zabudovat do parcoderu.pl). +  * Pro všechny jazykové páry používat všechna dostupná datatedy i Europarlneomezovat se na News CommentaryTo mjznamenáže musím pro všechny páry získat nové baseliny.
-  * Vyrobit end-to-end skriptabych mohl pouštět pokusy s menšími nároky na babysitting.+
  
 ===== Data ===== ===== Data =====
Line 39: Line 41:
  
 ===== Náročnost ===== ===== Náročnost =====
- 
-==== obo-base1 ==== 
- 
-První pokus s Ondřejovými daty 3.3.2010, ale jen trigramový jazykový model. Proběhlo celkem bez potíží. 
- 
-==== obo-base2 ==== 
- 
-Snažím se vyrobit větší jazykové modely. Zatím (5.3.2010 dopoledne) doběhl čtyřgram, běží pentagram. 
- 
-Trénování 4gramového jazykového modelu trvalo půl hodiny a spotřebovalo něco mezi 10 a 15 GB. Trénování pentagramu trvalo asi 40 minut a spotřebovalo něco přes 18 GB. Hexagram trval hodinu a spotřeboval nejméně 23 GB (to byl poslední údaj, který jsem viděl, než jsem odešel). 
- 
-==== obo-base3 ==== 
- 
-Klon obo-base2. Používám Ondřejův hotový šestigramový model a pouštím rovnou MERT. 
  
 ==== obo-max ==== ==== obo-max ====
Line 108: Line 96:
 | encs:tmtrain-czeng092ne-lmtrain-czeng092ne-lm3 | 0.1053 | 0.0962 | | Ondrovo párování na lematech, trigram LM pouze z&nbsp;cílové strany paralelního korpusu. | 29.8.2010 | | encs:tmtrain-czeng092ne-lmtrain-czeng092ne-lm3 | 0.1053 | 0.0962 | | Ondrovo párování na lematech, trigram LM pouze z&nbsp;cílové strany paralelního korpusu. | 29.8.2010 |
 | encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm3 | 0.1266 | 0.1150 | | Jako předchozí, ale LM trigram na ''wmt10mono2''. | 29.8.2010 | | encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm3 | 0.1266 | 0.1150 | | Jako předchozí, ale LM trigram na ''wmt10mono2''. | 29.8.2010 |
 +| encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm4 | 0.1278 | 0.1198 | | Jako předchozí, ale LM je tetragram. | 29.8.2010 |
 +| encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm5 | 0.1286 | 0.1179 | | Jako předchozí, ale LM je pentagram. | 29.8.2010 |
 +| encs:tmtrain-czeng092ne-lmtrain-wmt10mono2-lm6 | 0.1299 | 0.1176 | | Jako předchozí, ale LM je hexagram. | 29.8.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm3 | 0.1399 | 0.1346 | | Velký paralelní korpus (Czeng+Emea). | 6.9.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm4 | 0.1425 | 0.1372 | | Jako předchozí, ale LM je tetragram. | 6.9.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm5 | 0.1437 | 0.1368 | | Jako předchozí, ale LM je pentagram. | 6.9.2010 |
 +| encs:tmtrain-czengemea-lmtrain-wmt10mono2-lm6 | 0.1435 | 0.1368 | | Jako předchozí, ale LM je hexagram. | 7.9.2010 |
 +
 +===== Pokusy s uvozovkami =====
 +
 +Na začátku léta 2011 jsem se pokoušel poloautomaticky opravit a sjednotit uvozovky ve všech jazycích WMT 2011. Myslím, že to nebylo dodělané, a momentálně to nemůžu najít. Šlo o úpravu trénovacích korpusů. Výsledkem měla být "v6b" (verze 6b) všech korpusů, na nich se měly všechny pokusy pustit znova. Asi.
 +
 +''$STATMT/scripts/specchar.pl''
 +a co historie loňských commitů?
 +
 +Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en).
 +
 +===== Infrastruktura a zarovnání =====
 +
 +Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční.
 +
 +===== Inventura 16.1.2012 =====
 +
 +16.1.2012 21:12: Pouštím znova pokus ''encs-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011''. Zřejmě to neobsahuje opravené uvozovky (v6b), ale potřebuju zjistit, zda se to vůbec rozběhne.
 +
 +Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): ''$SRC$TGT-stc-allcstem4-tmnews+parl-lmnews+parl-lm6-test2011''
 +
 +^ Jazyky ^ BLEU ^
 +| en-cs | 0.1191 |
 +| cs-en | 0.1692 |
 +| en-de | 0.1337 |
 +| de-en | 0.1885 |
 +| en-es | 0.2573 |
 +| es-en | 0.2446 |
 +| en-fr | |
 +| fr-en | 0.2243 |
 +
 +Od jara mám vytvořené také pokusy s korpusy, ve kterých jsou upravené uvozovky (verze 6b), takže je teď taky pustím. Je to spíš na oprášení starého kódu, ale bude se to muset pustit ještě jednou, protože momentálně se uvozovky opravují pouze v trénovacích datech, ale ne ve vývojových a testovacích. (Opravu testovacích dat bych si mohl ospravedlnit např. budoucím hodnocením lidmi. A nebo alespoň normalizovat testovací data tím brutálnějším skriptem od Philippa.)
 +
 +''$SRC$TGT-stc-allemma-tmv6b-lmv6b-lm6-test2011''

[ Back to the navigation ] [ Back to the content ]