Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/01/18 19:50] zeman Korpusové kroky. |
user:zeman:wmt [2012/01/19 21:33] zeman Pokusy s uvozovkami. |
||
---|---|---|---|
Line 121: | Line 121: | ||
16.1.2012 21:12: Pouštím znova pokus '' | 16.1.2012 21:12: Pouštím znova pokus '' | ||
- | ===== Eman ===== | + | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' |
- | Ondrův e-mail z& | + | ^ Jazyky ^ BLEU ^ |
+ | | en-cs | 0.1191 | | ||
+ | | cs-en | 0.1692 | | ||
+ | | en-de | 0.1337 | | ||
+ | | de-en | 0.1885 | | ||
+ | | en-es | 0.2573 | | ||
+ | | es-en | 0.2446 | | ||
+ | | en-fr | | | ||
+ | | fr-en | 0.2243 | | ||
- | musim se pochlubit, ze (az na jeste par much) mam ukazku pouziti emana pro preklad i pro ty, kdo to jeste vubec nezkouseli: | + | Od jara mám vytvořené také pokusy s korpusy, ve kterých jsou upravené uvozovky |
- | <code bash>svn co https:// | + | '' |
- | cd statmt/ | + | |
- | # podivejte se na README | + | |
- | export PATH=$PATH:$(pwd)/ | + | |
- | eman init binaries | + | |
- | # to jen proto, abyste mohla potvrdit certifikat sourceforge | + | |
- | # a pak uz podle readme spustit mikropokus | + | |
- | SKIP_IRSTLM=yes eman clone --start < eman.samples/ | + | |
- | + | ||
- | Prikaz: | + | |
- | + | ||
- | eman --man | + | |
- | + | ||
- | ukaze manualovou stranku | + | |
- | + | ||
- | ==== Zakládání nových kroků ==== | + | |
- | + | ||
- | Jako příklad viz eman.seeds/ | + | |
- | * BINARIES: odkaz na krok, ve kterém byly zkompilovány externí nástroje, např. SRILM. Spustitelné binární soubory leží zřejmě přímo ve složce tohoto kroku jako výstupní soubor. | + | |
- | * CORP: zkrácený název trénovacího korpusu. I jednotlivým korpusům odpovídají kroky, které vyrábějí či zpřístupňují dotyčné datové soubory. Na to slouží mj. nový skript '' | + | |
- | * CORPAUG: faktory dotyčného korpusu, které se mají použít pro trénování. | + | |
- | * ORDER: řád modelu (např. 3 pro trigram). | + | |
- | Volitelně lze nastavit i další vstupní proměnné. | + | |
- | + | ||
- | Konstruktor (skript '' | + | |
- | + | ||
- | Dále vytvoří soubor '' | + | |
- | + | ||
- | Dále vytvoří soubor '' | + | |
- | + | ||
- | Teprve v přípravném režimu se také vyrobí hlavní skript '' | + | |
- | + | ||
- | ==== Korpusové kroky ==== | + | |
- | + | ||
- | Některé kroky připravují části korpusů, které jsou pro experiment potřeba. Takový krok asi typicky bude přímo zasvěcen přípravě korpusu, ale není ani vyloučeno, že korpus bude vedlejším produktem jiné činnosti. Každopádně pokud je výsledkem nebo jedním z výsledků kroku korpus, je vhodné ve složce daného kroku založit soubor '' | + | |
- | + | ||
- | ==== Sestavování experimentu jako posloupnosti kroků ==== | + | |
- | + | ||
- | Pokusit se alespoň zpočátku využít existující kroky pro alignment, jazkový model apod. a nekonvertovat ty svoje. Vytvořit nějakou šablonu '' | + | |
- | * binarizace korpusu a alignmentu | + | |
- | * extrakce gramatiky pro vývojová i testovací data (jeden, nebo dva různé kroky?); analogicky ke kroku '' | + | |
- | * volání dekodéru Joshuy ('' | + | |
- | * asi i nějaká úprava mertu, byť současný eman už samozřejmě obsahuje konfiguraci mertu pro Mosese | + |