Differences

This shows you the differences between two versions of the page.

--- user:zeman:moses [2008/12/15 22:22]
zeman Bash.
+++ user:zeman:moses [2008/12/15 23:47]
zeman Jazykový model nějaký mám, ale Karthik má jiný.
@@ Line 86: / Line 86: @@
 <code bash>Samotne pokusy pak pripravuji a spoustim takto:
-cd playground
+cd moses_playground
 SRCCORP=icon-eilmt \
 SRCAUG=enR+lc \
@@ Line 113: / Line 113: @@
 Kdyz das RUN=yes, tak to i rovnou submitne.
-Princip tech seeds je, ze seed je bashovy skript, ktery neco obratem pripravi, a zejmena pripravi bashovy skript 'command', no a make exp..run jen ten command spusti.
+Princip tech seeds je, ze seed je bashovy skript, ktery neco obratem pripravi,
+a zejmena pripravi bashovy skript 'command', no a make exp..run jen ten command spusti.
+Cili kdyz se nejaky experiment nedari spustit (nebo dokoncit)
+vlezes do jeho adresare exp.NAZEV.TIMESTAMP, prostudujes ./command,
+treba si ho spustis rucne atp.
-Cili kdyz se nejaky experiment nedari spustit (nebo dokoncit) vlezes do jeho adresare exp.NAZEV.TIMESTAMP, prostudujes ./command, treba si ho spustis rucne atp.
+Snazim se o to, aby adresare experimentu obsahovaly uplne vsechny vstupy,
+proto hojne v priprave experimentu pouzivam /home/bojar/tools/shell/wiseln,
-Snazim se o to, aby adresare experimentu obsahovaly uplne vsechny vstupy, proto hojne v priprave experimentu pouzivam /home/bojar/tools/shell/wiseln, ktery podle situace dela bud symlink, hardlink, nebo i kopii, a taky tam pripise md5 sumu, abych mohl i zpetne hlidat, ze jsem neco spoustel na tom, na cem jsem to spoustet chtel.
+ktery podle situace dela bud symlink, hardlink, nebo i kopii, a taky tam
+pripise md5 sumu, abych mohl i zpetne hlidat, ze jsem neco spoustel na tom,
+na cem jsem to spoustet chtel.
 Postup pres experimenty je tento:
@@ Line 131: / Line 136: @@
 Take byvalo make exp.align.prepare, ale to je ted zastarale.
 Nejspis se v tom ale nevyznas :-(
-Dej mi vedet, kdybys zacal citit nejakou nadeji. </code>
+Dej mi vedet, kdybys zacal citit nejakou nadeji.</code>
+===== Výroba jazykového modelu =====
+Pokouším se použít výše popsaný Ondrův postup pro korpus ''enhi-dan''. Vynechávám Ondrův parametr ''wc10'' (shlukování na 10 slovních tříd; pro baseline výsledek ale nic takového nechci). Místo toho se zřejmě musí uvést ''form''. Nevím, co znamená ''ORDER=10'', ale když to vyhodím, make si stěžuje, že tam má být nastaven "lm order". Tím se myslí, kolika-gramový model se má vytvořit. 10 je tedy asi moc (sloužilo pro slovní třídy, ale pro celá slova bychom měli použít nižší číslo). Karthik použil pentagram.
+<code bash>CORP=enhi-dan \
+CORPAUG=hi+form \
+ORDER=5 \
+RUN=yes \
+make exp.lm.prepare</code>
+Neustále narážím na volání Ondrových nástrojů, které nemám v cestě (např. ''qsubmit'', ''makeargs'', ''mkdiruniq'', ''wiseln''). Pár jsem jich přepsal s plnou cestou, ale je toho moc. Tak si snad raději přidám do ''.bashrc'' rozšíření ''PATH'' o ''/home/bojar/tools/shell''. (Nestačí to nastavit ručně před pouštěním pokusů, protože výpočty se odesílají na cluster a tam běží nový bash s čistým prostředím.)
+Teď už se jazykový model vyrábí pěkně, ale vycházejí mi jiné (menší) počty n-gramů než Karthikovi. Takže by to chtělo dál pátrat, čím se od něj lišíme. Nejbližší další podezřelý je to kódování WX.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences