Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:moses [2008/12/15 17:22] zeman Úprava. |
user:zeman:moses [2009/11/16 14:00] (current) zeman Workspace. |
||
---|---|---|---|
Line 2: | Line 2: | ||
===== Instalace ===== | ===== Instalace ===== | ||
+ | |||
+ | **Ptica: pozor, toto je navod na stary moses_playground, | ||
<code bash>svn co https:// | <code bash>svn co https:// | ||
Line 27: | Line 29: | ||
Nastavuju cesty '' | Nastavuju cesty '' | ||
- | |||
- | |||
===== Příprava korpusů ===== | ===== Příprava korpusů ===== | ||
Line 47: | Line 47: | ||
Nějaké podsložky už tam jsou. Vytvářím novou '' | Nějaké podsložky už tam jsou. Vytvářím novou '' | ||
+ | |||
+ | **Před dalšími operacemi raději přepínám z tcsh do bashe, který používá Ondra.** | ||
<code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.: | <code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.: | ||
Line 61: | Line 63: | ||
Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/ | Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/ | ||
- | mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce. | + | mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</ |
- | Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.: | + | Cíl '' |
+ | |||
+ | Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k '' | ||
+ | |||
+ | Vyžaduje se také perlový modul '' | ||
+ | |||
+ | <code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.: | ||
cd augmented_corpora | cd augmented_corpora | ||
Line 73: | Line 81: | ||
To byla priprava. : | To byla priprava. : | ||
+ | |||
+ | Z tohohle to skoro vypadá, že se augment má pouštět před alignem, a ne až po něm. Z Makefilu je ale vidět, že se volání augmentu předává jako parametr alignu, který si ho zřejmě obsluhuje sám. | ||
===== Pouštění pokusů ===== | ===== Pouštění pokusů ===== | ||
Line 78: | Line 88: | ||
<code bash> | <code bash> | ||
- | cd playground | + | cd moses_playground |
SRCCORP=icon-eilmt \ | SRCCORP=icon-eilmt \ | ||
SRCAUG=enR+lc \ | SRCAUG=enR+lc \ | ||
Line 105: | Line 115: | ||
Kdyz das RUN=yes, tak to i rovnou submitne. | Kdyz das RUN=yes, tak to i rovnou submitne. | ||
- | Princip tech seeds je, ze seed je bashovy skript, ktery neco obratem pripravi, a zejmena pripravi bashovy skript ' | + | Princip tech seeds je, ze seed je bashovy skript, ktery neco obratem pripravi, |
+ | a zejmena pripravi bashovy skript ' | ||
+ | Cili kdyz se nejaky experiment nedari spustit (nebo dokoncit) | ||
+ | vlezes do jeho adresare exp.NAZEV.TIMESTAMP, | ||
+ | treba si ho spustis rucne atp. | ||
- | Cili kdyz se nejaky experiment nedari spustit (nebo dokoncit) vlezes do jeho adresare exp.NAZEV.TIMESTAMP, | + | Snazim se o to, aby adresare experimentu obsahovaly uplne vsechny vstupy, |
- | + | proto hojne v priprave experimentu pouzivam / | |
- | Snazim se o to, aby adresare experimentu obsahovaly uplne vsechny vstupy, proto hojne v priprave experimentu pouzivam / | + | ktery podle situace dela bud symlink, hardlink, nebo i kopii, a taky tam |
+ | pripise md5 sumu, abych mohl i zpetne hlidat, ze jsem neco spoustel na tom, | ||
+ | na cem jsem to spoustet chtel. | ||
Postup pres experimenty je tento: | Postup pres experimenty je tento: | ||
Line 123: | Line 138: | ||
Take byvalo make exp.align.prepare, | Take byvalo make exp.align.prepare, | ||
- | |||
Nejspis se v tom ale nevyznas :-( | Nejspis se v tom ale nevyznas :-( | ||
- | Dej mi vedet, kdybys zacal citit nejakou nadeji. </ | + | Dej mi vedet, kdybys zacal citit nejakou nadeji.</ |
+ | |||
+ | |||
+ | |||
+ | ===== Výroba jazykového modelu ===== | ||
+ | |||
+ | Pokouším se použít výše popsaný Ondrův postup pro korpus '' | ||
+ | |||
+ | <code bash> | ||
+ | CORPAUG=hi+form \ | ||
+ | ORDER=5 \ | ||
+ | RUN=yes \ | ||
+ | make exp.lm.prepare</ | ||
+ | |||
+ | Neustále narážím na volání Ondrových nástrojů, které nemám v cestě (např. '' | ||
+ | |||
+ | Teď už se jazykový model vyrábí pěkně, ale vycházejí mi jiné (menší) počty n-gramů než Karthikovi. Takže by to chtělo dál pátrat, čím se od něj lišíme. Nejbližší další podezřelý je to kódování WX. | ||
+ | |||
+ | ===== Workspace ===== | ||
+ | |||
+ | Nemám teď čas prolejzat nahoře, jestli už to tam není napsané, ale rychle si potřebuju poznamenat další Ondřejova moudra :-) | ||
+ | |||
+ | //Asi jsem Ti to nikdy nevysvetloval. ' | ||
+ | |||
+ | Pri uspesnem konci 'make workspace' | ||
+ | ... a vas novy workspace je workspace.2009-12-12-1212, | ||
+ | si to do souboru ' | ||
+ | |||
+ | Cili clovek udela: | ||
+ | |||
+ | echo workspace.2009-12-12-1212 > workspace | ||
+ | |||
+ | A playground/ | ||
+ | |||
+ | O.// |