Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:moses [2008/12/15 15:41] zeman vytvořeno |
user:zeman:moses [2008/12/15 21:08] zeman Co bylo dřív, augment, nebo align? |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Ondrův návod, jak pouštět Mosese ====== | ====== Ondrův návod, jak pouštět Mosese ====== | ||
- | <code bash>svn co https:// | + | ===== Instalace ===== |
+ | <code bash>svn co https:// | ||
- | # stahni si srilm, treba takto: | + | Poznámka Dan: mám to v ''/ |
+ | |||
+ | <code bash># stahni si srilm, treba takto: | ||
cd moses_playground/ | cd moses_playground/ | ||
- | ln -s / | + | ln -s / |
+ | Je to tam. | ||
- | # ostatni komponenty jsou bud v svn nebo se stahnou | + | <code bash># ostatni komponenty jsou bud v svn nebo se stahnou |
# zkompiluj vse | # zkompiluj vse | ||
cd moses_playground | cd moses_playground | ||
- | make workspace | + | make workspace</code> |
- | # vyrobi to podadresar workspace.DATUM-CAS, | + | |
- | # nastav cesty v playground/Makefile | + | |
- | # priprav korpusy: | + | Pro jistotu pouštím na '' |
- | cd playground/ | + | < |
+ | | ||
+ | |||
+ | <code bash># vyrobi to podadresar workspace.DATUM-CAS, | ||
+ | # nastav cesty v moses_playground/ | ||
+ | |||
+ | Nastavuju cesty '' | ||
+ | |||
+ | |||
+ | ===== Příprava korpusů ===== | ||
+ | |||
+ | <code bash># priprav korpusy: | ||
+ | |||
+ | cd moses_playground/ | ||
# co (paralelni) korpus, to adresar | # co (paralelni) korpus, to adresar | ||
Line 28: | Line 43: | ||
mujkorpus/ | mujkorpus/ | ||
- | Priklad viz / | + | Priklad viz / |
- | Pak nechas vyrobit alignment, bud rucne, nebo napr.: | + | Nějaké podsložky už tam jsou. Vytvářím novou '' |
+ | |||
+ | **Před dalšími operacemi raději přepínám z tcsh do bashe, který používá Ondra.** | ||
+ | |||
+ | <code bash>Pak nechas vyrobit alignment, bud rucne, nebo napr.: | ||
cd augmented_corpora | cd augmented_corpora | ||
Line 42: | Line 61: | ||
(Vystup viz napr. / | (Vystup viz napr. / | ||
- | Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/ | + | Princip je ten, ze pro kazdy korpus K maji vsechny soubory augmented_corpora/ |
+ | mit stejny pocet radek. Mohou mit ruzny pocet tokenu na radce.</ | ||
- | Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.: | + | Cíl '' |
+ | |||
+ | Pozor, tady už některé věci vyžadují úpravy, např. se tam přistupuje k '' | ||
+ | |||
+ | <code bash>Pak je skript augment.pl, ktery podle navodu z daneho korpusu vyreze potrebne faktory, napr.: | ||
cd augmented_corpora | cd augmented_corpora | ||
./ | ./ | ||
- | Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy! | + | Pozor: v soucasne dobe stale jeste nefunguji zamky v augment.pl a NFS je debilni. |
+ | Muze se tedy stat, ze kdyz ma augment vyrobit nejakou novou kombinaci, | ||
+ | ktera se sklada z take vyrabenych soucastek, tak se vyrobi neuplne gzipy! | ||
+ | |||
+ | To byla priprava. : | ||
- | To byla priprava. :-) | + | Tak nevím, ale skoro se mi zdá, že se augment má pouštět před alignem, a ne až po něm. |
+ | ===== Pouštění pokusů ===== | ||
- | Samotne pokusy pak pripravuji a spoustim takto: | + | <code bash>Samotne pokusy pak pripravuji a spoustim takto: |
cd playground | cd playground |