[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:giza [2009/06/02 11:34]
zeman Lowercasing.
user:zeman:giza [2009/06/02 11:35]
zeman $MOSES
Line 21: Line 21:
  
 Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru. Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru.
 +
  
 ===== Příprava dat ===== ===== Příprava dat =====
Line 31: Line 32:
 Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), ale takhle si alespoň budeme jisti, že neuniknou případná anglická slova vložená v hindštině, a taky že se oba soubory budou jmenovat analogicky. A pozor, kdybychom hindská data neměli v UTF-8, ale v té jejich "WX" romanizaci, nesmíme lowercasing vůbec provádět, protože velká latinská písmena se tam používají pro úplně jiné znaky než odpovídající malá! Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), ale takhle si alespoň budeme jisti, že neuniknou případná anglická slova vložená v hindštině, a taky že se oba soubory budou jmenovat analogicky. A pozor, kdybychom hindská data neměli v UTF-8, ale v té jejich "WX" romanizaci, nesmíme lowercasing vůbec provádět, protože velká latinská písmena se tam používají pro úplně jiné znaky než odpovídající malá!
  
-<code>cd /net/work/people/zeman/hindstina/data+<code>setenv MOSES /net/work/people/zeman/moses 
 +cd /net/work/people/zeman/hindstina/data
 cp $DATA/para/hi/icon/train.tok train.tok.hi cp $DATA/para/hi/icon/train.tok train.tok.hi
 cp $DATA/para/en/icon/train.tok train.tok.en cp $DATA/para/en/icon/train.tok train.tok.en

[ Back to the navigation ] [ Back to the content ]