[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/02/02 10:05]
zeman fr-en s uvozovkami.
user:zeman:wmt [2012/02/03 18:15]
zeman Poznámky o Ondrových datech a o pokusech s Emanem.
Line 108: Line 108:
 es-en: dříve 0.2452, nyní 0.2428 es-en: dříve 0.2452, nyní 0.2428
 en-es: dříve 0.2590, nyní 0.2542 en-es: dříve 0.2590, nyní 0.2542
- 
  
 ===== Inventura 16.1.2012 ===== ===== Inventura 16.1.2012 =====
Line 143: Line 142:
 | en-fr | 0.2586 | 0.2628 | 0.2619 | | en-fr | 0.2586 | 0.2628 | 0.2619 |
 | fr-en | 0.2294 | 0.2294 | 0.2285 | | fr-en | 0.2294 | 0.2294 | 0.2285 |
 +
 +===== Pokusy s Emanem =====
 +
 +Tohle jsou data, která Ondřej použil pro svůj „malý pokus“:
 +SRCAUG=enNmT1+stc
 +TGTAUG=csNmT1+stc
 +ALILABEL=enNmT1-lemma-csNmT1-lemma
 +DEV: wmt10
 +TEST: wmt11
 +
 +Kopie příslušných korpusů jsou na mém hřišti v těchto krocích (ukázáno rovnou na inicializaci kroku dandata):
 +
 +<code>/home/zeman/projekty/statmt/playground/corpman --wait wmt10/csNmT1+stc
 +
 +SRC=en TGT=cs IMPORTCORPUS=yes TRALS=s.corpus.60681730.20120201-2157 TRALT=s.corpus.892024c6.20120201-2157 TRTMS=s.corpus.402e5219.20120201-2302 TRTMT=s.corpus.d8e0b2d7.20120201-2157 TRLMT=s.corpus.d8e0b2d7.20120201-2157 DEVS=s.corpus.e46c791e.20120201-2159 DEVT=s.corpus.c3230ea2.20120201-2201 TESTS=s.corpus.7b9dc07b.20120201-2205 TESTT=s.corpus.d0ef157e.20120201-2208 eman init dandata
 +s.dandata.1d1f8734.20120203-1125
 +
 +wmt10/enNmT1+stc = s.corpus.e46c791e.20120201-2159
 +wmt10/csNmT1+stc = s.corpus.c3230ea2.20120201-2201
 +wmt11/enNmT1+stc = s.corpus.7b9dc07b.20120201-2205
 +wmt11/csNmT1+stc = s.corpus.d0ef157e.20120201-2208
 +
 +Korpusy pro alignment:
 +s.corpus.60681730.20120201-2157
 +s.corpus.892024c6.20120201-2157
 +
 +GIZASTEP=s.mosesgiza.8a492679.20120202-1628 DATASTEP=s.dandata.1d1f8734.20120203-1125 ALISYM=gdfa eman init danalign
 +s.danalign.9fb3696a.20120203-1128
 +JOSHUASTEP=s.joshua.2723ccd9.20120131-1031 ALIGNSTEP=s.danalign.9fb3696a.20120203-1128 eman init binarize --start --mem 31g
 +s.binarize.4576151d.20120203-1524
 +BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=dev eman init extract --start
 +s.extract.95792bfb.20120203-1528
 +BINARIZESTEP=s.binarize.4576151d.20120203-1524 FOR=test eman init extract --start
 +s.extract.01f5693c.20120203-1528
 +SRILMSTEP=s.srilm.e99247ad.20120201-0921 DATASTEP=s.dandata.1d1f8734.20120203-1125 ORDER=5 eman init danlm --start
 +s.danlm.06d337e0.20120203-1600
 +LMSTEP=s.danlm.06d337e0.20120203-1600 EXTRACTSTEP=s.extract.95792bfb.20120203-1528 eman init zmert --start
 +s.zmert.884b636b.20120203-1602
 +MERTSTEP=s.zmert.884b636b.20120203-1602 EXTRACTSTEP=s.extract.01f5693c.20120203-1528 eman init daneval --start
 +s.daneval.96709ff9.20120203-1603</code>
 +
 +Výsledek Danova pokusu s Ondřejovými malými daty:
 +BLEU = 0.1185
 +(Ondřej měl s Mosesem asi 0.1230.)
 +Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre.
  

[ Back to the navigation ] [ Back to the content ]