[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:moses [2008/12/15 23:15]
zeman Výroba jazykového modelu.
user:zeman:moses [2009/11/16 14:00] (current)
zeman Workspace.
Line 2: Line 2:
  
 ===== Instalace ===== ===== Instalace =====
 +
 +**Ptica: pozor, toto je navod na stary moses_playground, novy lezi na [[https://svn.ms.mff.cuni.cz/projects/statmt/]]**
  
 <code bash>svn co https://svn.ms.mff.cuni.cz/svn/treedecode/moses_playground</code> <code bash>svn co https://svn.ms.mff.cuni.cz/svn/treedecode/moses_playground</code>
Line 81: Line 83:
  
 Z tohohle to skoro vypadá, že se augment má pouštět před alignem, a ne až po něm. Z Makefilu je ale vidět, že se volání augmentu předává jako parametr alignu, který si ho zřejmě obsluhuje sám. Z tohohle to skoro vypadá, že se augment má pouštět před alignem, a ne až po něm. Z Makefilu je ale vidět, že se volání augmentu předává jako parametr alignu, který si ho zřejmě obsluhuje sám.
- 
  
 ===== Pouštění pokusů ===== ===== Pouštění pokusů =====
Line 140: Line 141:
 Nejspis se v tom ale nevyznas :-( Nejspis se v tom ale nevyznas :-(
 Dej mi vedet, kdybys zacal citit nejakou nadeji.</code> Dej mi vedet, kdybys zacal citit nejakou nadeji.</code>
 +
 +
  
 ===== Výroba jazykového modelu ===== ===== Výroba jazykového modelu =====
  
-Pokouším se použít výše popsaný Ondrův postup pro korpus ''enhi-dan''. Vynechávám Ondrův parametr ''wc10'' (shlukování na 10 slovních tříd; pro baseline výsledek ale nic takového nechci). Nevím, co znamená ''ORDER=10'', tak to zatím taky vyhazuju (Ondrův příklad nastavení viz výše).+Pokouším se použít výše popsaný Ondrův postup pro korpus ''enhi-dan''. Vynechávám Ondrův parametr ''wc10'' (shlukování na 10 slovních tříd; pro baseline výsledek ale nic takového nechci). Místo toho se zřejmě musí uvést ''form''. Nevím, co znamená ''ORDER=10'', ale když to vyhodím, make si stěžuje, že tam má být nastaven "lm order". Tím se myslí, kolika-gramový model se má vytvořit. 10 je tedy asi moc (sloužilo pro slovní třídy, ale pro celá slova bychom měli použít nižší číslo). Karthik použil pentagram.
  
 <code bash>CORP=enhi-dan \ <code bash>CORP=enhi-dan \
-CORPAUG=hi+wc10 \+CORPAUG=hi+form \ 
 +ORDER=5 \
 RUN=yes \ RUN=yes \
 make exp.lm.prepare</code> make exp.lm.prepare</code>
  
 +Neustále narážím na volání Ondrových nástrojů, které nemám v cestě (např. ''qsubmit'', ''makeargs'', ''mkdiruniq'', ''wiseln''). Pár jsem jich přepsal s plnou cestou, ale je toho moc. Tak si snad raději přidám do ''.bashrc'' rozšíření ''PATH'' o ''/home/bojar/tools/shell''. (Nestačí to nastavit ručně před pouštěním pokusů, protože výpočty se odesílají na cluster a tam běží nový bash s čistým prostředím.)
 +
 +Teď už se jazykový model vyrábí pěkně, ale vycházejí mi jiné (menší) počty n-gramů než Karthikovi. Takže by to chtělo dál pátrat, čím se od něj lišíme. Nejbližší další podezřelý je to kódování WX.
 +
 +===== Workspace =====
 +
 +Nemám teď čas prolejzat nahoře, jestli už to tam není napsané, ale rychle si potřebuju poznamenat další Ondřejova moudra :-)
 +
 +//Asi jsem Ti to nikdy nevysvetloval. 'workspace' je podadresare moses_playground, ktery obsahuje zkompilovane vsechny nastroje. Ten adresar vznikne prikazem 'make workspace'. Zamerne ale vznika pod nazvem workspace.DATUM, aby joch mohlo byt vic.
 +
 +Pri uspesnem konci 'make workspace' na zaver napise neco jako:
 + ... a vas novy workspace je workspace.2009-12-12-1212, poznamenejte
 +     si to do souboru 'workspace'
 +
 +Cili clovek udela:
 +
 +echo workspace.2009-12-12-1212 > workspace
 +
 +A playground/Makefile (a nove i playground/augmented_corpora/Makefile) se timto souborem ridi pri startu novych experimentu.
 +
 +O.// 

[ Back to the navigation ] [ Back to the content ]