[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:giza [2009/06/02 11:08]
zeman Co potřebujeme po přeložení.
user:zeman:giza [2009/06/02 11:34]
zeman Lowercasing.
Line 19: Line 19:
 cp GIZA++-v2/snt2cooc.out $NASTROJE cp GIZA++-v2/snt2cooc.out $NASTROJE
 cp mkcls-v2/mkcls $NASTROJE</code> cp mkcls-v2/mkcls $NASTROJE</code>
 +
 +Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru.
 +
 +===== Příprava dat =====
 +
 +Pro přípravu dat potřebujeme některé skripty, které jsou přibalené např. k Mosesovi, nebo je můžeme nahradit svými vlastními:
 +  * Tokenizace trénovacích dat (zdrojový i cílový jazyk)
 +  * "Lowercasing", tedy nahrazení velkých písmen v textu malými
 +  * Odstranění dlouhých vět (např. delších než 40 tokenů). Není to nezbytné, a pokud máme málo dat, možná ani žádoucí, ale Gize trvá neúměrně dlouho, když má pracovat s dlouhými větami. Pozor, pokud je věta dlouhá jen v jednom z jazyků, musíme ji samozřejmě odstranit nebo ponechat v obou.
 +
 +Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), ale takhle si alespoň budeme jisti, že neuniknou případná anglická slova vložená v hindštině, a taky že se oba soubory budou jmenovat analogicky. A pozor, kdybychom hindská data neměli v UTF-8, ale v té jejich "WX" romanizaci, nesmíme lowercasing vůbec provádět, protože velká latinská písmena se tam používají pro úplně jiné znaky než odpovídající malá!
 +
 +<code>cd /net/work/people/zeman/hindstina/data
 +cp $DATA/para/hi/icon/train.tok train.tok.hi
 +cp $DATA/para/en/icon/train.tok train.tok.en
 +$MOSES/tools/scripts/lowercase.perl < train.tok.en > train.lowercased.en
 +$MOSES/tools/scripts/lowercase.perl < train.tok.hi > train.lowercased.hi</code>
 +

[ Back to the navigation ] [ Back to the content ]