[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:giza [2009/06/02 11:01]
zeman vytvořeno
user:zeman:giza [2009/06/02 11:34]
zeman Lowercasing.
Line 12: Line 12:
 cd giza-pp cd giza-pp
 make</code> make</code>
 +
 +Po přeložení pravděpodobně nepotřebujeme nic víc než tři spustitelné binární soubory, které si můžeme zkopírovat na nějaké místo v cestě, kde máme nástroje.
 +
 +<code>setenv NASTROJE /home/zeman/nastroje/preklad
 +cp GIZA++-v2/GIZA++ $NASTROJE
 +cp GIZA++-v2/snt2cooc.out $NASTROJE
 +cp mkcls-v2/mkcls $NASTROJE</code>
 +
 +Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru.
 +
 +===== Příprava dat =====
 +
 +Pro přípravu dat potřebujeme některé skripty, které jsou přibalené např. k Mosesovi, nebo je můžeme nahradit svými vlastními:
 +  * Tokenizace trénovacích dat (zdrojový i cílový jazyk)
 +  * "Lowercasing", tedy nahrazení velkých písmen v textu malými
 +  * Odstranění dlouhých vět (např. delších než 40 tokenů). Není to nezbytné, a pokud máme málo dat, možná ani žádoucí, ale Gize trvá neúměrně dlouho, když má pracovat s dlouhými větami. Pozor, pokud je věta dlouhá jen v jednom z jazyků, musíme ji samozřejmě odstranit nebo ponechat v obou.
 +
 +Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), ale takhle si alespoň budeme jisti, že neuniknou případná anglická slova vložená v hindštině, a taky že se oba soubory budou jmenovat analogicky. A pozor, kdybychom hindská data neměli v UTF-8, ale v té jejich "WX" romanizaci, nesmíme lowercasing vůbec provádět, protože velká latinská písmena se tam používají pro úplně jiné znaky než odpovídající malá!
 +
 +<code>cd /net/work/people/zeman/hindstina/data
 +cp $DATA/para/hi/icon/train.tok train.tok.hi
 +cp $DATA/para/en/icon/train.tok train.tok.en
 +$MOSES/tools/scripts/lowercase.perl < train.tok.en > train.lowercased.en
 +$MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code>
  

[ Back to the navigation ] [ Back to the content ]