Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/01/18 17:06] zeman Sestavování experimentu. |
user:zeman:wmt [2012/01/25 22:49] zeman obo-max |
||
---|---|---|---|
Line 16: | Line 16: | ||
* Při klonování experimentu se musí kopírovat mert/ | * Při klonování experimentu se musí kopírovat mert/ | ||
* Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím pro všechny páry získat nové baseliny. | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím pro všechny páry získat nové baseliny. | ||
+ | |||
+ | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ||
+ | |||
+ | Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? | ||
+ | |||
+ | ===== Staré záznamy ===== | ||
+ | |||
+ | obo-max: testuje na wmt102.test09, | ||
+ | obo-max3: testuje na wmt102.test10, | ||
+ | Oba používají Joshuu 1.3. | ||
+ | Oba používají Ondřejova velká data (7 miliónů párů vět z Czengu 0.92 na trénování, | ||
+ | |||
+ | 22.1.2012 '' | ||
+ | |||
+ | Nový výsledek 25.1.2012: '' | ||
+ | Nový výsledek 25.1.2012: '' | ||
+ | |||
+ | Výhledově chci přejmenovat '' | ||
===== Data ===== | ===== Data ===== | ||
Line 81: | Line 99: | ||
| fren-clean | 0.1873 | 0.2008 | | | 21.3.2010 | | | fren-clean | 0.1873 | 0.2008 | | | 21.3.2010 | | ||
| fren-josh13 | 0.1861 | 0.2036 | | | 9.3.2010 | | | fren-josh13 | 0.1861 | 0.2036 | | | 9.3.2010 | | ||
- | |||
- | Po přechodu z Joshuy 1.1 na 1.3 u téměř všech pokusů pokleslo BLEU skóre. Je to sice malý pokles a pravděpodobně není statisticky významný, ale stejně mě to zaráží. Srovnání u češtiny ukázalo, že se liší extrahovaná gramatika. V konfiguraci se už teď nezadává, že maximální délka fráze má být 5. Hraje to nějakou roli? | ||
- | |||
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
- | | obo-base1 (encs) | 0.1084 | 0.0990 | | | 3.3.2010 | | ||
- | | obo-base3 (encs) | 0.1064 | 0.0990 | | Na rozdíl od obo-base1 použit šestigramový jazykový model místo třígramového. Výsledek je velmi podezřelý (velmi podezřele podobný tomu třígramovému), | ||
- | | obo-base3 (encs) | 0.1103 | 0.1012 | | Opravný pokus, tentokrát už dekodér snad ví, že máme šestigram. | 5.3.2010 | | ||
- | | obo-max(-final) (encs) | 0.1344 | 0.1300 | 0.1357 (13.4/12.6) | Ondrův maximální paralelní korpus a třígramový jazykový model. | 7.3.2010 | | ||
- | | obo-max3 (encs) | 0.1387 | | 0.1402 | Ondrův maximální paralelní korpus a šestigramový jazykový model. | 8.3.2010 | | ||
- | |||
- | Na konci srpna 2010 oživuju pokusy s& | ||
- | |||
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
- | | encs: | ||
- | | encs: | ||
- | | encs: | ||
- | | encs: | ||
- | | encs: | ||
- | | encs: | ||
- | | encs: | ||
- | | encs: | ||
- | | encs: | ||
===== Pokusy s uvozovkami ===== | ===== Pokusy s uvozovkami ===== | ||
Line 112: | Line 108: | ||
Podle časových značek u korpusů v '' | Podle časových značek u korpusů v '' | ||
- | |||
- | ===== Infrastruktura a zarovnání ===== | ||
- | |||
- | Kromě toho jsem někdy v roce 2011 zkoušel předělat Joshuovy skripty, které pouštěly Gizu, aby mohly obě půlky běžet paralelně. Obávám se, že to zůstalo rozvrtané a nefunkční. | ||
===== Inventura 16.1.2012 ===== | ===== Inventura 16.1.2012 ===== | ||
Line 121: | Line 113: | ||
16.1.2012 21:12: Pouštím znova pokus '' | 16.1.2012 21:12: Pouštím znova pokus '' | ||
- | ===== Eman ===== | + | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' |
- | + | ||
- | Ondrův e-mail z& | + | |
- | + | ||
- | musim se pochlubit, ze (az na jeste par much) mam ukazku pouziti emana pro preklad i pro ty, kdo to jeste vubec nezkouseli: | + | |
- | + | ||
- | <code bash>svn co https:// | + | |
- | cd statmt/ | + | |
- | # podivejte se na README | + | |
- | export PATH=$PATH:$(pwd)/ | + | |
- | eman init binaries | + | |
- | # to jen proto, abyste mohla potvrdit certifikat sourceforge | + | |
- | # a pak uz podle readme spustit mikropokus | + | |
- | SKIP_IRSTLM=yes eman clone --start < eman.samples/ | + | |
- | + | ||
- | Prikaz: | + | |
- | + | ||
- | eman --man | + | |
- | + | ||
- | ukaze manualovou stranku | + | |
- | + | ||
- | ==== Zakládání nových kroků ==== | + | |
- | Jako příklad viz eman.seeds/lm. Toto je šablona na všechny kroky, které vytvářejí jazykové modely. Povinně vyžaduje nastavit tyto vstupní proměnné: | + | ^ Jazyky ^ BLEU ^ |
- | * BINARIES: odkaz na krok, ve kterém byly zkompilovány externí nástroje, např. SRILM. Spustitelné binární soubory leží zřejmě přímo ve složce tohoto kroku jako výstupní soubor. | + | | en-cs | 0.1191 | |
- | * CORP: zkrácený název trénovacího korpusu. I jednotlivým korpusům odpovídají kroky, které vyrábějí či zpřístupňují dotyčné datové soubory. Na to slouží mj. nový skript '' | + | | cs-en | 0.1692 | |
- | * CORPAUG: faktory dotyčného korpusu, které se mají použít pro trénování. | + | | en-de | 0.1337 | |
- | * ORDER: řád modelu (např. 3 pro trigram). | + | | de-en | 0.1885 | |
- | Volitelně lze nastavit i další vstupní proměnné. | + | | en-es | 0.2573 | |
+ | | es-en | 0.2446 | | ||
+ | | en-fr | 0.2591 | | ||
+ | | fr-en | 0.2243 | | ||
- | Konstruktor (skript '' | + | Od jara mám vytvořené také pokusy s korpusy, ve kterých jsou upravené uvozovky |
- | Dále vytvoří soubor | + | '' |
- | Dále vytvoří soubor '' | + | První výsledky jsou zatím bez záruky, protože v průběhu Gizy jsem narazil |
- | Teprve | + | 24.1.2012 už mám i skoro všechny kontrolní výsledky druhého běhu, ale mezitím jsem zjistil chybu v počítání alignmentu, takže pouštím potřetí (zatím šest pokusů pro češtinu, němčinu a španělštinu, |
- | ==== Sestavování experimentu jako posloupnosti kroků ==== | + | ^ Jazyky ^ BLEU ^ Kontrolní běh ^ Třetí běh ^ |
+ | | en-cs | FAILED | 0.1267 | 0.1246 | | ||
+ | | cs-en | 0.1748 | 0.1748 | 0.1792 | | ||
+ | | en-de | 0.1268 | 0.1268 | 0.1274 | | ||
+ | | de-en | 0.1869 | 0.1869 | 0.1859 | | ||
+ | | en-es | 0.2542 | 0.2542 | | | ||
+ | | es-en | 0.2428 | FAILED | 0.2375 | | ||
+ | | en-fr | 0.2586 | 0.2628 | | | ||
+ | | fr-en | 0.2294 | 0.2294 | | | ||
- | Pokusit se alespoň zpočátku využít existující kroky pro alignment, jazkový model apod. a nekonvertovat ty svoje. Vytvořit nějakou šablonu '' | ||
- | * binarizace korpusu a alignmentu | ||
- | * extrakce gramatiky pro vývojová i testovací data (jeden, nebo dva různé kroky?); analogicky ke kroku '' | ||
- | * volání dekodéru Joshuy ('' | ||
- | * asi i nějaká úprava mertu, byť současný eman už samozřejmě obsahuje konfiguraci mertu pro Mosese |