[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:moses [2008/12/15 15:41]
zeman vytvořeno
user:zeman:moses [2008/12/15 17:31]
zeman Párování.
Line 1: Line 1:
 ====== Ondrův návod, jak pouštět Mosese ====== ====== Ondrův návod, jak pouštět Mosese ======
  
-<code bash>svn co https://svn.ms.mff.cuni.cz/svn/treedecode/moses_playground+===== Instalace =====
  
 +<code bash>svn co https://svn.ms.mff.cuni.cz/svn/treedecode/moses_playground</code>
  
-# stahni si srilm, treba takto:+Poznámka Dan: mám to v ''/net/work/people/zeman/moses''
 + 
 +<code bash># stahni si srilm, treba takto:
 cd moses_playground/src cd moses_playground/src
-ln -s /a/merkur1/bojar/moses_wmt09/src/srilm.tgz ./+ln -s /a/merkur1/bojar/moses_wmt09/src/srilm.tgz ./</code>
  
 +Je to tam.
  
-# ostatni komponenty jsou bud v svn nebo se stahnou+<code bash># ostatni komponenty jsou bud v svn nebo se stahnou
 # zkompiluj vse # zkompiluj vse
 cd moses_playground cd moses_playground
-make workspace +make workspace</code>
-# vyrobi to podadresar workspace.DATUM-CAS, +
-# nastav cesty v playground/Makefile+
  
-# priprav korpusy:+Pro jistotu pouštím na ''sol2'', aby měl make podobné 64bitové prostředí, jako bude mít Moses puštěný na clusteru. Zdá se, že to proběhlo bez potíží, řeklo to:
  
-cd playground/augmented_corpora+<code>## Don't forget to set your SCRIPTS_ROOTDIR with: 
 +   export SCRIPTS_ROOTDIR=/export/work/people/zeman/moses/moses_playground/workspace.20081215-1642/bin/scripts-20081215-1646</code> 
 + 
 +<code bash># vyrobi to podadresar workspace.DATUM-CAS, 
 +# nastav cesty v moses_playground/Makefile</code> 
 + 
 +Nastavuju cesty ''PWD'' a ''WS'' na začátku Makefilu. ''PWD'' vede na právě vytvořený ''moses_playground'', ''WS'' je název právě vytvořeného pracovního prostoru ''workspace.20081215-1642''
 + 
 + 
 +===== Příprava korpusů ===== 
 + 
 +<code bash># priprav korpusy: 
 + 
 +cd moses_playground/augmented_corpora
  
 # co (paralelni) korpus, to adresar # co (paralelni) korpus, to adresar
Line 28: Line 43:
 mujkorpus/en.info mujkorpus/en.info
  
-Priklad viz /home/bojar/diplomka/granty/euromatrix/moses_icon08/augmented_corpora/icon-eilmt+Priklad viz /home/bojar/diplomka/granty/euromatrix/moses_icon08/augmented_corpora/icon-eilmt</code>
  
-Pak nechas vyrobit alignment, bud rucne, nebo napr.:+Nějaké podsložky už tam jsou. Vytvářím novou ''enhi-dan'' a kopíruju do ní Ondrovy příklady souborů .gz a .info. Tím jsem získal kopii anglicko-hindského korpusu EILMT (7000 vět). Korpus je tokenizovaný a spárovaný po větách. 
 + 
 +**Před dalšími operacemi raději přepínám z tcsh do bashe, který používá Ondra.** 
 + 
 +<code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.:
  
 cd augmented_corpora cd augmented_corpora
Line 42: Line 61:
 (Vystup viz napr. /a/merkur1/bojar/moses_icon08/augmented_corpora/icon-eilmt/lcstem4-lcstem4.gz) (Vystup viz napr. /a/merkur1/bojar/moses_icon08/augmented_corpora/icon-eilmt/lcstem4-lcstem4.gz)
  
-Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.+Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/K/*.gz 
 +mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</code> 
 + 
 +Cíl ''align'' v příslušném Makefilu nevolá Hunalign, ale Gizu, takže už zřejmě nejde o párování vět, ale tokenů. Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k ''~/diplomka'', čímž se ale má na mysli zřejmě ''/home/bojar/diplomka''.
  
-Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:+<code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.:
  
 cd augmented_corpora cd augmented_corpora
 ./augment.pl icon-eilmt/hi+form+lcstem4 ./augment.pl icon-eilmt/hi+form+lcstem4
  
-Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy!+Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. 
 +Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, 
 +ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy!
  
-To byla priprava. :-)+To byla priprava. :-)</code>
  
 +===== Pouštění pokusů =====
  
-Samotne pokusy pak pripravuji a spoustim takto:+<code bash>Samotne pokusy pak pripravuji a spoustim takto:
  
 cd playground cd playground

[ Back to the navigation ] [ Back to the content ]