[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:moses [2008/12/15 16:51]
zeman Nadpisy.
user:zeman:moses [2008/12/15 21:08]
zeman Co bylo dřív, augment, nebo align?
Line 24: Line 24:
  
 <code bash># vyrobi to podadresar workspace.DATUM-CAS, <code bash># vyrobi to podadresar workspace.DATUM-CAS,
-# nastav cesty v playground/Makefile</code>+# nastav cesty v moses_playground/Makefile</code> 
 + 
 +Nastavuju cesty ''PWD'' a ''WS'' na začátku Makefilu. ''PWD'' vede na právě vytvořený ''moses_playground'', ''WS'' je název právě vytvořeného pracovního prostoru ''workspace.20081215-1642''
  
 ===== Příprava korpusů ===== ===== Příprava korpusů =====
Line 30: Line 33:
 <code bash># priprav korpusy: <code bash># priprav korpusy:
  
-cd playground/augmented_corpora+cd moses_playground/augmented_corpora
  
 # co (paralelni) korpus, to adresar # co (paralelni) korpus, to adresar
Line 40: Line 43:
 mujkorpus/en.info mujkorpus/en.info
  
-Priklad viz /home/bojar/diplomka/granty/euromatrix/moses_icon08/augmented_corpora/icon-eilmt+Priklad viz /home/bojar/diplomka/granty/euromatrix/moses_icon08/augmented_corpora/icon-eilmt</code>
  
-Pak nechas vyrobit alignment, bud rucne, nebo napr.:+Nějaké podsložky už tam jsou. Vytvářím novou ''enhi-dan'' a kopíruju do ní Ondrovy příklady souborů .gz a .info. Tím jsem získal kopii anglicko-hindského korpusu EILMT (7000 vět). Korpus je tokenizovaný a spárovaný po větách. 
 + 
 +**Před dalšími operacemi raději přepínám z tcsh do bashe, který používá Ondra.** 
 + 
 +<code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.:
  
 cd augmented_corpora cd augmented_corpora
Line 54: Line 61:
 (Vystup viz napr. /a/merkur1/bojar/moses_icon08/augmented_corpora/icon-eilmt/lcstem4-lcstem4.gz) (Vystup viz napr. /a/merkur1/bojar/moses_icon08/augmented_corpora/icon-eilmt/lcstem4-lcstem4.gz)
  
-Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.+Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz 
 +mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</code>
  
-Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:+Cíl ''align'' v příslušném Makefilu nevolá Hunalign, ale Gizu, takže už zřejmě nejde o párování vět, ale tokenů. O Hunalignu (párování vět) se tiše předpokládá, že jsme si ho pustili už dříve sami, nebo že jsme si párování vět zařídili nějak jinak. Viz Ondrova poznámka: paralelní korpusy, které jsme sem nakopírovali, už musí mít na obou stranách stejný počet řádek (= segmentů = vět). 
 + 
 +Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k ''~/diplomka'', čímž se ale má na mysli zřejmě ''/home/bojar/diplomka''. Taky se tam předpokládá existence příkazu ''qsubmit'', což je jednak Ondrova obálka na ''qsub'', kterou normální lidi nemají v cestě (velmi pravděpodobně je to tohle: ''~bojar/tools/shell/qsubmit''), jednak musíme ''make align'' volat z počítače, ze kterého lze odeslat výpočet na cluster (tedy z ''lrc''). 
 + 
 +<code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:
  
 cd augmented_corpora cd augmented_corpora
 ./augment.pl icon-eilmt/hi+form+lcstem4 ./augment.pl icon-eilmt/hi+form+lcstem4
  
-Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy!+Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. 
 +Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, 
 +ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy! 
 + 
 +To byla priprava. :-)</code>
  
-To byla priprava:-)+Tak nevím, ale skoro se mi zdá, že se augment má pouštět před alignem, a ne až po něm.
  
 +===== Pouštění pokusů =====
  
-Samotne pokusy pak pripravuji a spoustim takto:+<code bash>Samotne pokusy pak pripravuji a spoustim takto:
  
 cd playground cd playground

[ Back to the navigation ] [ Back to the content ]