Both sides previous revision
Previous revision
|
Next revision
Both sides next revision
|
user:zeman:wmt [2012/02/04 16:34] zeman Úklid. |
user:zeman:wmt [2012/02/04 16:53] zeman Uvozovky i na testovací data. |
vim scripts/setexp.pl | vim scripts/setexp.pl |
$ac_tmtrain = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';</code> | $ac_tmtrain = 'news-commentary-v6b.fr-en+europarl-v6b.fr-en';</code> |
| |
| Dotažení do konce: i vývojová a testovací data musí být ve verzi v6b. Můžeme přeskočit alignment a trénování jazykového modelu, ale musíme pustit ''prepare.pl'', abychom získali upravená data! |
| |
| <code bash>$STATMT/joshua-scripts/clonex.pl encs-stc-allemma-tmv6b-lmv6b-lm6-test2011 encs-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b |
| cd encs-stc-allemma-tmv6b-lmv6b-lm6-test2011v6b |
| $STATMT/joshua-scripts/resetex_scripts.pl |
| vim scripts/setexp.pl |
| $ac_dev = 'newstest2008-v6b'; |
| $ac_test = 'newstest2011-v6b'; |
| (qsub.pl) scripts/prepare.pl |
| nohup nice $STATMT/joshua-scripts/joshua.pl extract > & joshua.log &</code> |
| |
Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). Výsledky: Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011. Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011. Vylaďovací ani testovací data zatím nijak upravována nebyla. Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem. | Podle časových značek u korpusů v ''augmented_corpora'' se zdá, že poslední "v6b" jsem vytvořil 21.4.2011. Vypadá to, že mám news-commentary+europarl ve verzi v6b pro všechny čtyři jazykové páry (cs-en, de-en, es-en, fr-en). Výsledky: Skóre "dříve" znamená před úpravou trénovacích dat, tedy -stc-allemma-tmnews+parl-lmnews+parl-lm6-test2011. Skóre "nyní" znamená po úpravě trénovacích dat, tedy -stc-allemma-tmv6b-lmv6b-lm6-test2011. Vylaďovací ani testovací data zatím nijak upravována nebyla. Jejich úpravu bychom ale měli taky otestovat, protože např. teď obsahují samé ASCII uvozovky, které jsou pro Joshuu neznámým tokenem. |