[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:giza [2009/06/02 11:34]
zeman Lowercasing.
user:zeman:giza [2009/06/02 11:37]
zeman Z.
Line 21: Line 21:
  
 Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru. Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru.
 +
 +
  
 ===== Příprava dat ===== ===== Příprava dat =====
Line 31: Line 33:
 Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), ale takhle si alespoň budeme jisti, že neuniknou případná anglická slova vložená v hindštině, a taky že se oba soubory budou jmenovat analogicky. A pozor, kdybychom hindská data neměli v UTF-8, ale v té jejich "WX" romanizaci, nesmíme lowercasing vůbec provádět, protože velká latinská písmena se tam používají pro úplně jiné znaky než odpovídající malá! Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), ale takhle si alespoň budeme jisti, že neuniknou případná anglická slova vložená v hindštině, a taky že se oba soubory budou jmenovat analogicky. A pozor, kdybychom hindská data neměli v UTF-8, ale v té jejich "WX" romanizaci, nesmíme lowercasing vůbec provádět, protože velká latinská písmena se tam používají pro úplně jiné znaky než odpovídající malá!
  
-<code>cd /net/work/people/zeman/hindstina/data+<code>setenv MOSES /net/work/people/zeman/moses 
 +cd /net/work/people/zeman/hindstina/data
 cp $DATA/para/hi/icon/train.tok train.tok.hi cp $DATA/para/hi/icon/train.tok train.tok.hi
 cp $DATA/para/en/icon/train.tok train.tok.en cp $DATA/para/en/icon/train.tok train.tok.en
Line 37: Line 40:
 $MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code> $MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code>
  
 +Zvláštní. Diff se tváří, že hindská data se lowercasingem opravdu změnila, a změněných řádků není málo. Většinou obsahují latinské písmeno "Z". Co je to za šum?

[ Back to the navigation ] [ Back to the content ]