Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:moses [2008/12/15 16:51] zeman Nadpisy. |
user:zeman:moses [2009/11/16 14:00] (current) zeman Workspace. |
||
---|---|---|---|
Line 2: | Line 2: | ||
===== Instalace ===== | ===== Instalace ===== | ||
+ | |||
+ | **Ptica: pozor, toto je navod na stary moses_playground, | ||
<code bash>svn co https:// | <code bash>svn co https:// | ||
Line 24: | Line 26: | ||
<code bash># vyrobi to podadresar workspace.DATUM-CAS, | <code bash># vyrobi to podadresar workspace.DATUM-CAS, | ||
- | # nastav cesty v playground/ | + | # nastav cesty v moses_playground/ |
+ | |||
+ | Nastavuju cesty '' | ||
===== Příprava korpusů ===== | ===== Příprava korpusů ===== | ||
Line 30: | Line 34: | ||
<code bash># priprav korpusy: | <code bash># priprav korpusy: | ||
- | cd playground/ | + | cd moses_playground/ |
# co (paralelni) korpus, to adresar | # co (paralelni) korpus, to adresar | ||
Line 40: | Line 44: | ||
mujkorpus/ | mujkorpus/ | ||
- | Priklad viz / | + | Priklad viz / |
- | Pak nechas vyrobit alignment, bud rucne, nebo napr.: | + | Nějaké podsložky už tam jsou. Vytvářím novou '' |
+ | |||
+ | **Před dalšími operacemi raději přepínám z tcsh do bashe, který používá Ondra.** | ||
+ | |||
+ | <code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.: | ||
cd augmented_corpora | cd augmented_corpora | ||
Line 54: | Line 62: | ||
(Vystup viz napr. / | (Vystup viz napr. / | ||
- | Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/ | + | Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/ |
+ | mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</ | ||
- | Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.: | + | Cíl '' |
+ | |||
+ | Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k '' | ||
+ | |||
+ | Vyžaduje se také perlový modul '' | ||
+ | |||
+ | <code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.: | ||
cd augmented_corpora | cd augmented_corpora | ||
./ | ./ | ||
- | Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy! | + | Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. |
+ | Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, | ||
+ | ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy! | ||
- | To byla priprava. :-) | + | To byla priprava. :-)</ |
+ | Z tohohle to skoro vypadá, že se augment má pouštět před alignem, a ne až po něm. Z Makefilu je ale vidět, že se volání augmentu předává jako parametr alignu, který si ho zřejmě obsluhuje sám. | ||
- | Samotne pokusy pak pripravuji a spoustim takto: | + | ===== Pouštění pokusů ===== |
- | cd playground | + | <code bash> |
+ | |||
+ | cd moses_playground | ||
SRCCORP=icon-eilmt \ | SRCCORP=icon-eilmt \ | ||
SRCAUG=enR+lc \ | SRCAUG=enR+lc \ | ||
Line 95: | Line 115: | ||
Kdyz das RUN=yes, tak to i rovnou submitne. | Kdyz das RUN=yes, tak to i rovnou submitne. | ||
- | Princip tech seeds je, ze seed je bashovy skript, ktery neco obratem pripravi, a zejmena pripravi bashovy skript ' | + | Princip tech seeds je, ze seed je bashovy skript, ktery neco obratem pripravi, |
+ | a zejmena pripravi bashovy skript ' | ||
+ | Cili kdyz se nejaky experiment nedari spustit (nebo dokoncit) | ||
+ | vlezes do jeho adresare exp.NAZEV.TIMESTAMP, | ||
+ | treba si ho spustis rucne atp. | ||
- | Cili kdyz se nejaky experiment nedari spustit (nebo dokoncit) vlezes do jeho adresare exp.NAZEV.TIMESTAMP, | + | Snazim se o to, aby adresare experimentu obsahovaly uplne vsechny vstupy, |
- | + | proto hojne v priprave experimentu pouzivam / | |
- | Snazim se o to, aby adresare experimentu obsahovaly uplne vsechny vstupy, proto hojne v priprave experimentu pouzivam / | + | ktery podle situace dela bud symlink, hardlink, nebo i kopii, a taky tam |
+ | pripise md5 sumu, abych mohl i zpetne hlidat, ze jsem neco spoustel na tom, | ||
+ | na cem jsem to spoustet chtel. | ||
Postup pres experimenty je tento: | Postup pres experimenty je tento: | ||
Line 113: | Line 138: | ||
Take byvalo make exp.align.prepare, | Take byvalo make exp.align.prepare, | ||
- | |||
Nejspis se v tom ale nevyznas :-( | Nejspis se v tom ale nevyznas :-( | ||
- | Dej mi vedet, kdybys zacal citit nejakou nadeji. </ | + | Dej mi vedet, kdybys zacal citit nejakou nadeji.</ |
+ | |||
+ | |||
+ | |||
+ | ===== Výroba jazykového modelu ===== | ||
+ | |||
+ | Pokouším se použít výše popsaný Ondrův postup pro korpus '' | ||
+ | |||
+ | <code bash> | ||
+ | CORPAUG=hi+form \ | ||
+ | ORDER=5 \ | ||
+ | RUN=yes \ | ||
+ | make exp.lm.prepare</ | ||
+ | |||
+ | Neustále narážím na volání Ondrových nástrojů, které nemám v cestě (např. '' | ||
+ | |||
+ | Teď už se jazykový model vyrábí pěkně, ale vycházejí mi jiné (menší) počty n-gramů než Karthikovi. Takže by to chtělo dál pátrat, čím se od něj lišíme. Nejbližší další podezřelý je to kódování WX. | ||
+ | |||
+ | ===== Workspace ===== | ||
+ | |||
+ | Nemám teď čas prolejzat nahoře, jestli už to tam není napsané, ale rychle si potřebuju poznamenat další Ondřejova moudra :-) | ||
+ | |||
+ | //Asi jsem Ti to nikdy nevysvetloval. ' | ||
+ | |||
+ | Pri uspesnem konci 'make workspace' | ||
+ | ... a vas novy workspace je workspace.2009-12-12-1212, | ||
+ | si to do souboru ' | ||
+ | |||
+ | Cili clovek udela: | ||
+ | |||
+ | echo workspace.2009-12-12-1212 > workspace | ||
+ | |||
+ | A playground/ | ||
+ | |||
+ | O.// |