Differences

This shows you the differences between two versions of the page.

--- user:zeman:moses [2008/12/15 17:15]
zeman Zkopírován korpus EILMT.
+++ user:zeman:moses [2008/12/15 21:08]
zeman Co bylo dřív, augment, nebo align?
@@ Line 46: / Line 46: @@
 Nějaké podsložky už tam jsou. Vytvářím novou ''enhi-dan'' a kopíruju do ní Ondrovy příklady souborů .gz a .info. Tím jsem získal kopii anglicko-hindského korpusu EILMT (7000 vět). Korpus je tokenizovaný a spárovaný po větách.
+**Před dalšími operacemi raději přepínám z tcsh do bashe, který používá Ondra.**
 <code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.:
@@ Line 59: / Line 61: @@
 (Vystup viz napr. /a/merkur1/bojar/moses_icon08/augmented_corpora/icon-eilmt/lcstem4-lcstem4.gz)
-Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.
+Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz
+mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</code>
-Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:
+Cíl ''align'' v příslušném Makefilu nevolá Hunalign, ale Gizu, takže už zřejmě nejde o párování vět, ale tokenů. O Hunalignu (párování vět) se tiše předpokládá, že jsme si ho pustili už dříve sami, nebo že jsme si párování vět zařídili nějak jinak. Viz Ondrova poznámka: paralelní korpusy, které jsme sem nakopírovali, už musí mít na obou stranách stejný počet řádek (= segmentů = vět).
+Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k ''~/diplomka'', čímž se ale má na mysli zřejmě ''/home/bojar/diplomka''. Taky se tam předpokládá existence příkazu ''qsubmit'', což je jednak Ondrova obálka na ''qsub'', kterou normální lidi nemají v cestě (velmi pravděpodobně je to tohle: ''~bojar/tools/shell/qsubmit''), jednak musíme ''make align'' volat z počítače, ze kterého lze odeslat výpočet na cluster (tedy z ''lrc'').
+<code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:
 cd augmented_corpora
 ./augment.pl icon-eilmt/hi+form+lcstem4
-Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy!
+Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni.
+Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci,
+ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy!
+To byla priprava. :-)</code>
-To byla priprava. :-)
+Tak nevím, ale skoro se mi zdá, že se augment má pouštět před alignem, a ne až po něm.
+===== Pouštění pokusů =====
-Samotne pokusy pak pripravuji a spoustim takto:
+<code bash>Samotne pokusy pak pripravuji a spoustim takto:
 cd playground

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences