Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/01/18 17:06] zeman Sestavování experimentu. |
user:zeman:wmt [2012/01/19 08:40] zeman Eman odstěhován. |
||
---|---|---|---|
Line 121: | Line 121: | ||
16.1.2012 21:12: Pouštím znova pokus '' | 16.1.2012 21:12: Pouštím znova pokus '' | ||
- | ===== Eman ===== | ||
- | |||
- | Ondrův e-mail z& | ||
- | |||
- | musim se pochlubit, ze (az na jeste par much) mam ukazku pouziti emana pro preklad i pro ty, kdo to jeste vubec nezkouseli: | ||
- | |||
- | <code bash>svn co https:// | ||
- | cd statmt/ | ||
- | # podivejte se na README | ||
- | export PATH=$PATH: | ||
- | eman init binaries | ||
- | # to jen proto, abyste mohla potvrdit certifikat sourceforge | ||
- | # a pak uz podle readme spustit mikropokus | ||
- | SKIP_IRSTLM=yes eman clone --start < eman.samples/ | ||
- | |||
- | Prikaz: | ||
- | |||
- | eman --man | ||
- | |||
- | ukaze manualovou stranku | ||
- | |||
- | ==== Zakládání nových kroků ==== | ||
- | |||
- | Jako příklad viz eman.seeds/ | ||
- | * BINARIES: odkaz na krok, ve kterém byly zkompilovány externí nástroje, např. SRILM. Spustitelné binární soubory leží zřejmě přímo ve složce tohoto kroku jako výstupní soubor. | ||
- | * CORP: zkrácený název trénovacího korpusu. I jednotlivým korpusům odpovídají kroky, které vyrábějí či zpřístupňují dotyčné datové soubory. Na to slouží mj. nový skript '' | ||
- | * CORPAUG: faktory dotyčného korpusu, které se mají použít pro trénování. | ||
- | * ORDER: řád modelu (např. 3 pro trigram). | ||
- | Volitelně lze nastavit i další vstupní proměnné. | ||
- | |||
- | Konstruktor (skript '' | ||
- | |||
- | Dále vytvoří soubor '' | ||
- | |||
- | Dále vytvoří soubor '' | ||
- | |||
- | Teprve v přípravném režimu se také vyrobí hlavní skript '' | ||
- | |||
- | ==== Sestavování experimentu jako posloupnosti kroků ==== | ||
- | |||
- | Pokusit se alespoň zpočátku využít existující kroky pro alignment, jazkový model apod. a nekonvertovat ty svoje. Vytvořit nějakou šablonu '' | ||
- | * binarizace korpusu a alignmentu | ||
- | * extrakce gramatiky pro vývojová i testovací data (jeden, nebo dva různé kroky?); analogicky ke kroku '' | ||
- | * volání dekodéru Joshuy ('' | ||
- | * asi i nějaká úprava mertu, byť současný eman už samozřejmě obsahuje konfiguraci mertu pro Mosese |