|
|
user:zeman:priprava-paralelniho-korpusu [2009/06/03 18:46] zeman vytvořeno |
user:zeman:priprava-paralelniho-korpusu [2009/06/03 18:52] (current) zeman Vývojová a testovací data zpracovat stejně jako trénovací. |
| |
<code>setenv MOSES /net/work/people/zeman/moses | <code>setenv MOSES /net/work/people/zeman/moses |
cd /net/work/people/zeman/hindstina/data | cd /net/work/people/zeman/hindstina/corpus |
cp $DATA/para/hi/icon/train.tok train.tok.hi | cp $DATA/para/hi/icon/train.tok train.tok.hi |
cp $DATA/para/en/icon/train.tok train.tok.en | cp $DATA/para/en/icon/train.tok train.tok.en |
$MOSES/tools/scripts/lowercase.perl < train.tok.en > train.lowercased.en | $MOSES/tools/scripts/lowercase.perl < train.tok.en > train.lowercased.en |
$MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code> | $MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code> |
| |
| <code>setenv MOSES /net/work/people/zeman/moses |
| cd /net/work/people/zeman/hindstina/corpus |
| cp $DATA/para/hi/icon/dev.tok dev.tok.hi |
| cp $DATA/para/en/icon/dev.tok dev.tok.en |
| $MOSES/tools/scripts/lowercase.perl < dev.tok.en > dev.lowercased.en |
| $MOSES/tools/scripts/lowercase.perl < dev.tok.hi > dev.lowercased.hi</code> |
| |
| <code>setenv MOSES /net/work/people/zeman/moses |
| cd /net/work/people/zeman/hindstina/corpus |
| cp $DATA/para/hi/icon/test.tok test.tok.hi |
| cp $DATA/para/en/icon/test.tok test.tok.en |
| $MOSES/tools/scripts/lowercase.perl < test.tok.en > test.lowercased.en |
| $MOSES/tools/scripts/lowercase.perl < test.tok.hi > test.lowercased.hi</code> |
| |
Zvláštní. Diff se tváří, že hindská data se lowercasingem opravdu změnila, a změněných řádků není málo. Většinou obsahují latinské písmeno "Z". Co je to za šum? Z 50000 vět je asi 2000 takových rozdílů. | Zvláštní. Diff se tváří, že hindská data se lowercasingem opravdu změnila, a změněných řádků není málo. Většinou obsahují latinské písmeno "Z". Co je to za šum? Z 50000 vět je asi 2000 takových rozdílů. |