[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2012/02/04 16:34]
zeman Úklid.
user:zeman:wmt [2012/02/04 16:53]
zeman Uvozovky i na testovací data.
Line 98: Line 98:
 vim scripts/setexp.pl vim scripts/setexp.pl
 $ac_tmtrain     = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';</code> $ac_tmtrain     = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';</code>
 +
 +Dotažení do konce: i vývojová a testovací data musí být ve verzi v6b. Můžeme přeskočit alignment a trénování jazykového modelu, ale musíme pustit ''prepare.pl'', abychom získali upravená data!
 +
 +<code bash>$STATMT/joshua-scripts/clonex.pl encs-stc-allemma-tmv6b-lmv6b-lm6-test2011 encs-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b
 +cd encs-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b
 +$STATMT/joshua-scripts/resetex_scripts.pl
 +vim scripts/setexp.pl
 +$ac_dev         = 'newstest2008-v6b';
 +$ac_test        = 'newstest2011-v6b';
 +(qsub.pl) scripts/prepare.pl
 +nohup nice $STATMT/joshua-scripts/joshua.pl extract > & joshua.log &</code>
  
 Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). Výsledky: Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011. Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011. Vylaďovací ani testovací data zatím nijak upravována nebyla. Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem. Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). Výsledky: Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011. Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011. Vylaďovací ani testovací data zatím nijak upravována nebyla. Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem.

[ Back to the navigation ] [ Back to the content ]