[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
user:zeman:priprava-paralelniho-korpusu [2009/06/03 18:46]
zeman vytvořeno
user:zeman:priprava-paralelniho-korpusu [2009/06/03 18:52] (current)
zeman Vývojová a testovací data zpracovat stejně jako trénovací.
Line 19: Line 19:
  
 <code>setenv MOSES /net/work/people/zeman/moses <code>setenv MOSES /net/work/people/zeman/moses
-cd /net/work/people/zeman/hindstina/data+cd /net/work/people/zeman/hindstina/corpus
 cp $DATA/para/hi/icon/train.tok train.tok.hi cp $DATA/para/hi/icon/train.tok train.tok.hi
 cp $DATA/para/en/icon/train.tok train.tok.en cp $DATA/para/en/icon/train.tok train.tok.en
 $MOSES/tools/scripts/lowercase.perl < train.tok.en > train.lowercased.en $MOSES/tools/scripts/lowercase.perl < train.tok.en > train.lowercased.en
 $MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code> $MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code>
 +
 +<code>setenv MOSES /net/work/people/zeman/moses
 +cd /net/work/people/zeman/hindstina/corpus
 +cp $DATA/para/hi/icon/dev.tok dev.tok.hi
 +cp $DATA/para/en/icon/dev.tok dev.tok.en
 +$MOSES/tools/scripts/lowercase.perl < dev.tok.en > dev.lowercased.en
 +$MOSES/tools/scripts/lowercase.perl < dev.tok.hi > dev.lowercased.hi</code>
 +
 +<code>setenv MOSES /net/work/people/zeman/moses
 +cd /net/work/people/zeman/hindstina/corpus
 +cp $DATA/para/hi/icon/test.tok test.tok.hi
 +cp $DATA/para/en/icon/test.tok test.tok.en
 +$MOSES/tools/scripts/lowercase.perl < test.tok.en > test.lowercased.en
 +$MOSES/tools/scripts/lowercase.perl < test.tok.hi > test.lowercased.hi</code>
  
 Zvláštní. Diff se tváří, že hindská data se lowercasingem opravdu změnila, a změněných řádků není málo. Většinou obsahují latinské písmeno "Z". Co je to za šum? Z 50000 vět je asi 2000 takových rozdílů. Zvláštní. Diff se tváří, že hindská data se lowercasingem opravdu změnila, a změněných řádků není málo. Většinou obsahují latinské písmeno "Z". Co je to za šum? Z 50000 vět je asi 2000 takových rozdílů.

[ Back to the navigation ] [ Back to the content ]