Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2012/02/04 18:16] zeman Čeština s němčinou, španělštinou a francouzštinou. |
user:zeman:wmt [2013/03/19 17:43] zeman |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Danovy pokusy | + | ====== Danovy pokusy na WMT 2013, Sofija |
http:// | http:// | ||
- | http:// | + | http:// |
- | http:// | + | |
< | < | ||
+ | |||
+ | ===== 19.3.2013 ===== | ||
+ | |||
+ | Dočasné poznámky o překladu | ||
+ | |||
+ | Kdysi havaroval s.mert.f2a85415.20130126-2300 (cs-en na Czengu). Havaroval někde uvnitř dekódování, | ||
+ | Jinak ještě mám ve stavu FAILED kroky translate a evaluator, které na něm závisí. | ||
+ | Kromě toho FAILED: | ||
+ | s.tag anglického Gigawordu. Víme, musíme zcela vyměnit tagger. | ||
+ | s.tm na gigafren oběma směry. Zjistit proč. | ||
+ | A to je momentálně všechno. | ||
+ | Řada jiných pokusů v lednu doběhla, takže je možná na čase osvěžit si paměť puštěním sklizně. | ||
+ | |||
+ | Sklizeň zatím zahrnuje spoustu pokusů, které se prováděly na korpusech připravených starým způsobem. To by chtělo nahradit a staré kroky s korpusy postupně vyřadit. | ||
+ | Pro některé jazykové páry zatím nemám ani jeden výsledek nad novými daty: | ||
+ | de-en | ||
+ | en-cs | ||
+ | en-de | ||
+ | en-es | ||
+ | en-fr | ||
+ | es-cs | ||
+ | es-en | ||
+ | fr-cs | ||
+ | fr-en | ||
+ | Takže to v podstatě chybí od určitého místa až do konce :-( | ||
+ | Opravdu, asi někdy havaroval danmake.pl a už nikdy jsem ho nedotlačil do cíle. Kroky s.model pro korpus newseuro existují pro všechny páry z češtiny ven a pro de-cs, dál už pro nic. Takže to je asi to první, co bych měl teď rozchodit, klidně bez Gigawordů, ale aspoň nějak. | ||
+ | |||
+ | Teď jsem pustil danmake.pl -t model -f od de-en. Některé kroky se inicializovaly, | ||
+ | U těch nespuštěných je problém v tom, že danmake jim našel jazykový model OUTDATED un korpusu. Správně by danmake měl poznat, že tento krok je mimo hru, a hledat jiný. Příslušný krok jsem teď úplně smazal, ale bude se to muset celé pustit znova (pro modely, které využívají korpus un). | ||
+ | |||
+ | Inited: s.model.5a6227c2.20130319-1704 | ||
+ | Executing: eval $(cat eman.vars) EMAN_READONLY=yes ./eman.seed >&2 | ||
+ | Step s.model.5a6227c2.20130319-1704 prepared. | ||
+ | Executing: ( qsub -C '' | ||
+ | Step s.model.5a6227c2.20130319-1704 submitted as job 7086079 | ||
+ | Cached: | ||
+ | Cached: | ||
+ | Cached: | ||
+ | Cached: | ||
+ | [19.3.2013 17:04:38] Executing: ( eman select t model v TMS=s.tm.039cb3b2.20120806-1258 v LMS=" | ||
+ | [19.3.2013 17:04:41] Executing: GRIDFLAGS=" | ||
+ | Executing: INIT_ONLY=yes | ||
+ | Inited: s.mert.d3fcee87.20130319-1704 | ||
+ | Executing: eval $(cat eman.vars) EMAN_READONLY=yes ./eman.seed >&2 | ||
+ | Checking tuning corp size | ||
+ | Step s.mert.d3fcee87.20130319-1704 prepared. | ||
+ | Executing: ( qsub -C '' | ||
+ | Step s.mert.d3fcee87.20130319-1704 submitted as job 7086081 | ||
+ | Cached: | ||
+ | Cached: | ||
+ | Cached: | ||
+ | Cached: | ||
+ | Cached: | ||
+ | [19.3.2013 17:04:48] Executing: ( eman select t mert v MODELSTEP=s.model.5a6227c2.20130319-1704 ) > safeticks.500/ | ||
+ | No mert step found for v MODELSTEP=s.model.5a6227c2.20130319-1704 at ./ | ||
+ | |||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Udělat pořádek v záznamech. | + | * Data pro rok 2013 budou zveřejněna |
- | * Najít a oživit | + | * Nějak tu chybí pořádná tabulka |
- | * Zopakovat tytéž pokusy, ale nad letos distribuovanými daty. | + | * Jazykové modely gigaword/ |
- | * Převést | + | * Velká paralelní data un, gigafren, czeng |
- | * Konečně převést Joshuu pod Emana. | + | * Rozpracované: |
- | * Převést | + | * Ještě by to chtělo zopakovat celý proces se značkováním korpusů OSN. Nejdřív se ale pokusím nechat alespoň jednou doběhnout současnou verzi. Původní korpus se nechtěl nechat označkovat a zdá se, že problém by mohl být v tom, že některé věty jsou příliš dlouhé. Pustil jsem tedy nejdřív |
- | * Dotáhnout do konce obo-max. | + | * Pokusit se napodobit Ondrův nejlepší výsledek. |
- | * Při klonování experimentu | + | * Použít stejná data jako on nebo lepší |
- | * Pro všechny jazykové páry používat všechna dostupná data, tedy i Europarl, neomezovat se na News Commentary. To mj. znamená, že musím | + | * Natrénovat stejné modely jako on. Přinejmenším mi zatím chybí lexical reordering model. Ondra navíc prováděl ještě nějaké čachry |
+ | * Srovnat supervised truecasing, který používám teď, s něčím méně sofistikovaným. Nezmenšovat první písmeno slova uprostřed | ||
+ | * Prohnat všechna data Morfessorem a vyhodnotit překlad s ním. | ||
+ | * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit | ||
+ | * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, | ||
+ | * Převést | ||
===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ||
Line 80: | Line 140: | ||
nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | nohup nice make CORPUS=europarl-v6b.fr-en LANGUAGE=en >& make-euro-fren-en.log & | ||
nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=fr >& make-news-fren-fr.log & | ||
- | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log &</ | + | nohup nice make CORPUS=news-commentary-v6b.fr-en LANGUAGE=en >& make-news-fren-en.log & |
+ | for y in 2008 2009 2010 2011 ; do | ||
+ | for l in cs de en es fr ; do | ||
+ | nohup nice make CORPUS=newstest$y-v6b LANGUAGE=$l >& make-newstest$y-$l.log & | ||
+ | done | ||
+ | done</ | ||
No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " | No a nyní již můžeme naklonovat nové pokusy. I když můžeme naklonovat oba směry (např. " | ||
Line 103: | Line 168: | ||
Pokusy s& | Pokusy s& | ||
- | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' | + | Nový průběh všech osmi starých pokusů (supervised truecasing, žádná normalizace uvozovek, nové je na nich paralelní počítání alignmentu, ale výsledek by měl být identický – nekontroloval jsem): '' |
- | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ | + | **Šest přídavných jazykových párů: čeština s němčinou, španělštinou a francouzštinou.** Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v& |
- | | en-cs | 0.1191 | 0.1246 | | | + | |
- | | cs-en | 0.1692 | 0.1792 | | | + | Sloupec Moses je první odpovídající pokus s& |
- | | en-de | 0.1337 | 0.1274 | | | + | |
- | | de-en | 0.1885 | 0.1859 | | | + | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ wmt12 ^ Moses ^ +NewsAll ^ +Gigaword ^ Czeng ^ |
- | | en-es | 0.2573 | 0.2531 | | | + | | en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | 0.1161 | 11.96±0.50 |
- | | es-en | 0.2446 | 0.2375 | | | + | | cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | 0.1661 | 17.96±0.50 | 0.2022 | | 0.2225 |
- | | en-fr | 0.2591 | 0.2619 | | | + | | en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | 0.1359 | 14.26±0.52 |
- | | fr-en | 0.2243 | 0.2285 | | | + | | de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | 0.1880 | 18.77±0.53 |
+ | | en-es | 0.2573 | 0.2531 | 0.2627 | 0.2756 | 0.2757 | 27.78±0.65 | ||
+ | | es-en | 0.2446 | 0.2375 | 0.2497 | 0.2562 | 0.2699 | **22.19±0.58** | ||
+ | | en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 | 0.2572 | 25.99±0.63 | ||
+ | | fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 | 0.2391 | 24.59±0.68 | | ||
+ | | cs-de | | | | | 0.1304 | 13.65±0.54 | 0.1529 | | ||
+ | | de-cs | | | | | 0.1186 | 12.12±0.52 | | ||
+ | | cs-es | | | | | 0.1848 | 19.52±0.52 | 0.2214 | 0.2243 | | ||
+ | | es-cs | | | | | 0.1220 | 12.81±0.54 | | ||
+ | | cs-fr | | | | | 0.1822 | 19.53±0.55 | 0.2169 | | ||
+ | | fr-cs | | | | | 0.1175 | 12.53±0.57 | ||
===== Pokusy s Emanem ===== | ===== Pokusy s Emanem ===== | ||
Line 159: | Line 234: | ||
(Ondřej měl s Mosesem asi 0.1230.) | (Ondřej měl s Mosesem asi 0.1230.) | ||
Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||
- | |||
- | ===== Čeština s němčinou, španělštinou a francouzštinou ===== | ||
- | |||
- | Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v& | ||
- | |||
- | Není-li řečeno jinak, váhy se ladí na newstest2008 a testuje se na newstest2009. Trénuje se zatím na news-commentary, | ||
- | |||
- | | **Pokus** | **Dev WMT08** | **Test WMT09** | **Test WMT10** | **Poznámka** | **Datum** | | ||
- | | decs-josh13 | 0.0935 | 0.0886 | | | 15.3.2010 | | ||
- | | escs-josh13 | 0.0922 | 0.0872 | | | 15.3.2010 | | ||
- | | frcs-josh13 | 0.0885 | 0.0818 | | Zřetelně menší trénovací data než pro encs, decs a escs. | 15.3.2010 | | ||