Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/01/29 22:33] zeman Záznam o tom, jak se v datech upravují uvozovky. |
user:zeman:wmt [2012/02/03 18:15] zeman Poznámky o Ondrových datech a o pokusech s Emanem. |
||
---|---|---|---|
Line 10: | Line 10: | ||
* Udělat pořádek v záznamech. | * Udělat pořádek v záznamech. | ||
* Najít a oživit loňské pokusy s interpunkcí, | * Najít a oživit loňské pokusy s interpunkcí, | ||
+ | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty. | ||
* Převést všechny pokusy pod aktuální verzi Joshuy. | * Převést všechny pokusy pod aktuální verzi Joshuy. | ||
* Konečně převést Joshuu pod Emana. | * Konečně převést Joshuu pod Emana. | ||
Line 107: | Line 108: | ||
es-en: dříve 0.2452, nyní 0.2428 | es-en: dříve 0.2452, nyní 0.2428 | ||
en-es: dříve 0.2590, nyní 0.2542 | en-es: dříve 0.2590, nyní 0.2542 | ||
- | |||
===== Inventura 16.1.2012 ===== | ===== Inventura 16.1.2012 ===== | ||
Line 140: | Line 140: | ||
| en-es | 0.2542 | 0.2542 | 0.2531 | | | en-es | 0.2542 | 0.2542 | 0.2531 | | ||
| es-en | 0.2428 | FAILED | 0.2375 | | | es-en | 0.2428 | FAILED | 0.2375 | | ||
- | | en-fr | 0.2586 | 0.2628 | | | + | | en-fr | 0.2586 | 0.2628 | 0.2619 |
- | | fr-en | 0.2294 | 0.2294 | | | + | | fr-en | 0.2294 | 0.2294 | 0.2285 |
+ | |||
+ | ===== Pokusy s Emanem ===== | ||
+ | |||
+ | Tohle jsou data, která Ondřej použil pro svůj „malý pokus“: | ||
+ | SRCAUG=enNmT1+stc | ||
+ | TGTAUG=csNmT1+stc | ||
+ | ALILABEL=enNmT1-lemma-csNmT1-lemma | ||
+ | DEV: wmt10 | ||
+ | TEST: wmt11 | ||
+ | |||
+ | Kopie příslušných korpusů jsou na mém hřišti v těchto krocích (ukázáno rovnou na inicializaci kroku dandata): | ||
+ | |||
+ | < | ||
+ | |||
+ | SRC=en TGT=cs IMPORTCORPUS=yes TRALS=s.corpus.60681730.20120201-2157 TRALT=s.corpus.892024c6.20120201-2157 TRTMS=s.corpus.402e5219.20120201-2302 TRTMT=s.corpus.d8e0b2d7.20120201-2157 TRLMT=s.corpus.d8e0b2d7.20120201-2157 DEVS=s.corpus.e46c791e.20120201-2159 DEVT=s.corpus.c3230ea2.20120201-2201 TESTS=s.corpus.7b9dc07b.20120201-2205 TESTT=s.corpus.d0ef157e.20120201-2208 eman init dandata | ||
+ | s.dandata.1d1f8734.20120203-1125 | ||
+ | |||
+ | wmt10/ | ||
+ | wmt10/ | ||
+ | wmt11/ | ||
+ | wmt11/ | ||
+ | |||
+ | Korpusy pro alignment: | ||
+ | s.corpus.60681730.20120201-2157 | ||
+ | s.corpus.892024c6.20120201-2157 | ||
+ | |||
+ | GIZASTEP=s.mosesgiza.8a492679.20120202-1628 DATASTEP=s.dandata.1d1f8734.20120203-1125 ALISYM=gdfa eman init danalign | ||
+ | s.danalign.9fb3696a.20120203-1128 | ||
+ | JOSHUASTEP=s.joshua.2723ccd9.20120131-1031 ALIGNSTEP=s.danalign.9fb3696a.20120203-1128 eman init binarize --start --mem 31g | ||
+ | s.binarize.4576151d.20120203-1524 | ||
+ | BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=dev eman init extract --start | ||
+ | s.extract.95792bfb.20120203-1528 | ||
+ | BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=test eman init extract --start | ||
+ | s.extract.01f5693c.20120203-1528 | ||
+ | SRILMSTEP=s.srilm.e99247ad.20120201-0921 DATASTEP=s.dandata.1d1f8734.20120203-1125 ORDER=5 eman init danlm --start | ||
+ | s.danlm.06d337e0.20120203-1600 | ||
+ | LMSTEP=s.danlm.06d337e0.20120203-1600 EXTRACTSTEP=s.extract.95792bfb.20120203-1528 eman init zmert --start | ||
+ | s.zmert.884b636b.20120203-1602 | ||
+ | MERTSTEP=s.zmert.884b636b.20120203-1602 EXTRACTSTEP=s.extract.01f5693c.20120203-1528 eman init daneval --start | ||
+ | s.daneval.96709ff9.20120203-1603</ | ||
+ | |||
+ | Výsledek Danova pokusu s Ondřejovými malými daty: | ||
+ | BLEU = 0.1185 | ||
+ | (Ondřej měl s Mosesem asi 0.1230.) | ||
+ | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||