Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:giza [2009/06/02 11:01] zeman vytvořeno |
user:zeman:giza [2009/06/02 11:34] zeman Lowercasing. |
||
---|---|---|---|
Line 12: | Line 12: | ||
cd giza-pp | cd giza-pp | ||
make</ | make</ | ||
+ | |||
+ | Po přeložení pravděpodobně nepotřebujeme nic víc než tři spustitelné binární soubory, které si můžeme zkopírovat na nějaké místo v cestě, kde máme nástroje. | ||
+ | |||
+ | < | ||
+ | cp GIZA++-v2/ | ||
+ | cp GIZA++-v2/ | ||
+ | cp mkcls-v2/ | ||
+ | |||
+ | Zdá se, že nástroje přeložené na 32bitové pracovní stanici s Ubuntu lze spustit i na clusteru. | ||
+ | |||
+ | ===== Příprava dat ===== | ||
+ | |||
+ | Pro přípravu dat potřebujeme některé skripty, které jsou přibalené např. k Mosesovi, nebo je můžeme nahradit svými vlastními: | ||
+ | * Tokenizace trénovacích dat (zdrojový i cílový jazyk) | ||
+ | * " | ||
+ | * Odstranění dlouhých vět (např. delších než 40 tokenů). Není to nezbytné, a pokud máme málo dat, možná ani žádoucí, ale Gize trvá neúměrně dlouho, když má pracovat s dlouhými větami. Pozor, pokud je věta dlouhá jen v jednom z jazyků, musíme ji samozřejmě odstranit nebo ponechat v obou. | ||
+ | |||
+ | Následující příklady jsou přímo z práce s hindštinou (TIDES). Převádění velkých písmen na malá by pravděpodobně stačilo provést pro angličtinu (hindština velká a malá písmena nerozlišuje), | ||
+ | |||
+ | < | ||
+ | cp $DATA/ | ||
+ | cp $DATA/ | ||
+ | $MOSES/ | ||
+ | $MOSES/ | ||