[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:zeman:moses [2008/12/15 23:37]
zeman Ondrovy skripty.
user:zeman:moses [2009/08/12 10:20]
ptacek
Line 2: Line 2:
  
 ===== Instalace ===== ===== Instalace =====
 +
 +**Ptica: pozor, toto je navod na stary moses_playground, novy lezi na [[https://svn.ms.mff.cuni.cz/projects/statmt/]]**
  
 <code bash>svn co https://svn.ms.mff.cuni.cz/svn/treedecode/moses_playground</code> <code bash>svn co https://svn.ms.mff.cuni.cz/svn/treedecode/moses_playground</code>
Line 139: Line 141:
 Nejspis se v tom ale nevyznas :-( Nejspis se v tom ale nevyznas :-(
 Dej mi vedet, kdybys zacal citit nejakou nadeji.</code> Dej mi vedet, kdybys zacal citit nejakou nadeji.</code>
 +
 +
  
 ===== Výroba jazykového modelu ===== ===== Výroba jazykového modelu =====
  
-Pokouším se použít výše popsaný Ondrův postup pro korpus ''enhi-dan''. Vynechávám Ondrův parametr ''wc10'' (shlukování na 10 slovních tříd; pro baseline výsledek ale nic takového nechci). Místo toho se zřejmě musí uvést ''form''. Nevím, co znamená ''ORDER=10'', ale když to vyhodím, make si stěžuje, že tam má být nastaven "lm order".+Pokouším se použít výše popsaný Ondrův postup pro korpus ''enhi-dan''. Vynechávám Ondrův parametr ''wc10'' (shlukování na 10 slovních tříd; pro baseline výsledek ale nic takového nechci). Místo toho se zřejmě musí uvést ''form''. Nevím, co znamená ''ORDER=10'', ale když to vyhodím, make si stěžuje, že tam má být nastaven "lm order". Tím se myslí, kolika-gramový model se má vytvořit. 10 je tedy asi moc (sloužilo pro slovní třídy, ale pro celá slova bychom měli použít nižší číslo). Karthik použil pentagram.
  
 <code bash>CORP=enhi-dan \ <code bash>CORP=enhi-dan \
 CORPAUG=hi+form \ CORPAUG=hi+form \
-ORDER=10 \+ORDER=\
 RUN=yes \ RUN=yes \
 make exp.lm.prepare</code> make exp.lm.prepare</code>
  
 Neustále narážím na volání Ondrových nástrojů, které nemám v cestě (např. ''qsubmit'', ''makeargs'', ''mkdiruniq'', ''wiseln''). Pár jsem jich přepsal s plnou cestou, ale je toho moc. Tak si snad raději přidám do ''.bashrc'' rozšíření ''PATH'' o ''/home/bojar/tools/shell''. (Nestačí to nastavit ručně před pouštěním pokusů, protože výpočty se odesílají na cluster a tam běží nový bash s čistým prostředím.) Neustále narážím na volání Ondrových nástrojů, které nemám v cestě (např. ''qsubmit'', ''makeargs'', ''mkdiruniq'', ''wiseln''). Pár jsem jich přepsal s plnou cestou, ale je toho moc. Tak si snad raději přidám do ''.bashrc'' rozšíření ''PATH'' o ''/home/bojar/tools/shell''. (Nestačí to nastavit ručně před pouštěním pokusů, protože výpočty se odesílají na cluster a tam běží nový bash s čistým prostředím.)
 +
 +Teď už se jazykový model vyrábí pěkně, ale vycházejí mi jiné (menší) počty n-gramů než Karthikovi. Takže by to chtělo dál pátrat, čím se od něj lišíme. Nejbližší další podezřelý je to kódování WX.

[ Back to the navigation ] [ Back to the content ]