[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/01/29 22:33]
zeman Záznam o tom, jak se v datech upravují uvozovky.
user:zeman:wmt [2012/02/03 18:15]
zeman Poznámky o Ondrových datech a o pokusech s Emanem.
Line 10: Line 10:
   * Udělat pořádek v záznamech.   * Udělat pořádek v záznamech.
   * Najít a oživit loňské pokusy s interpunkcí, zejména s uvozovkami.   * Najít a oživit loňské pokusy s interpunkcí, zejména s uvozovkami.
 +  * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty.
   * Převést všechny pokusy pod aktuální verzi Joshuy.   * Převést všechny pokusy pod aktuální verzi Joshuy.
   * Konečně převést Joshuu pod Emana.   * Konečně převést Joshuu pod Emana.
Line 107: Line 108:
 es-en: dříve 0.2452, nyní 0.2428 es-en: dříve 0.2452, nyní 0.2428
 en-es: dříve 0.2590, nyní 0.2542 en-es: dříve 0.2590, nyní 0.2542
- 
  
 ===== Inventura 16.1.2012 ===== ===== Inventura 16.1.2012 =====
Line 140: Line 140:
 | en-es | 0.2542 | 0.2542 | 0.2531 | | en-es | 0.2542 | 0.2542 | 0.2531 |
 | es-en | 0.2428 | FAILED | 0.2375 | | es-en | 0.2428 | FAILED | 0.2375 |
-| en-fr | 0.2586 | 0.2628 | | +| en-fr | 0.2586 | 0.2628 | 0.2619 
-| fr-en | 0.2294 | 0.2294 | |+| fr-en | 0.2294 | 0.2294 | 0.2285 | 
 + 
 +===== Pokusy s Emanem ===== 
 + 
 +Tohle jsou data, která Ondřej použil pro svůj „malý pokus“: 
 +SRCAUG=enNmT1+stc 
 +TGTAUG=csNmT1+stc 
 +ALILABEL=enNmT1-lemma-csNmT1-lemma 
 +DEV: wmt10 
 +TEST: wmt11 
 + 
 +Kopie příslušných korpusů jsou na mém hřišti v těchto krocích (ukázáno rovnou na inicializaci kroku dandata): 
 + 
 +<code>/home/zeman/projekty/statmt/playground/corpman --wait wmt10/csNmT1+stc 
 + 
 +SRC=en TGT=cs IMPORTCORPUS=yes TRALS=s.corpus.60681730.20120201-2157 TRALT=s.corpus.892024c6.20120201-2157 TRTMS=s.corpus.402e5219.20120201-2302 TRTMT=s.corpus.d8e0b2d7.20120201-2157 TRLMT=s.corpus.d8e0b2d7.20120201-2157 DEVS=s.corpus.e46c791e.20120201-2159 DEVT=s.corpus.c3230ea2.20120201-2201 TESTS=s.corpus.7b9dc07b.20120201-2205 TESTT=s.corpus.d0ef157e.20120201-2208 eman init dandata 
 +s.dandata.1d1f8734.20120203-1125 
 + 
 +wmt10/enNmT1+stc = s.corpus.e46c791e.20120201-2159 
 +wmt10/csNmT1+stc = s.corpus.c3230ea2.20120201-2201 
 +wmt11/enNmT1+stc = s.corpus.7b9dc07b.20120201-2205 
 +wmt11/csNmT1+stc = s.corpus.d0ef157e.20120201-2208 
 + 
 +Korpusy pro alignment: 
 +s.corpus.60681730.20120201-2157 
 +s.corpus.892024c6.20120201-2157 
 + 
 +GIZASTEP=s.mosesgiza.8a492679.20120202-1628 DATASTEP=s.dandata.1d1f8734.20120203-1125 ALISYM=gdfa eman init danalign 
 +s.danalign.9fb3696a.20120203-1128 
 +JOSHUASTEP=s.joshua.2723ccd9.20120131-1031 ALIGNSTEP=s.danalign.9fb3696a.20120203-1128 eman init binarize --start --mem 31g 
 +s.binarize.4576151d.20120203-1524 
 +BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=dev eman init extract --start 
 +s.extract.95792bfb.20120203-1528 
 +BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=test eman init extract --start 
 +s.extract.01f5693c.20120203-1528 
 +SRILMSTEP=s.srilm.e99247ad.20120201-0921 DATASTEP=s.dandata.1d1f8734.20120203-1125 ORDER=5 eman init danlm --start 
 +s.danlm.06d337e0.20120203-1600 
 +LMSTEP=s.danlm.06d337e0.20120203-1600 EXTRACTSTEP=s.extract.95792bfb.20120203-1528 eman init zmert --start 
 +s.zmert.884b636b.20120203-1602 
 +MERTSTEP=s.zmert.884b636b.20120203-1602 EXTRACTSTEP=s.extract.01f5693c.20120203-1528 eman init daneval --start 
 +s.daneval.96709ff9.20120203-1603</code> 
 + 
 +Výsledek Danova pokusu s Ondřejovými malými daty: 
 +BLEU = 0.1185 
 +(Ondřej měl s Mosesem asi 0.1230.) 
 +Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre.
  

[ Back to the navigation ] [ Back to the content ]