[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2013/03/19 17:43]
zeman
user:zeman:wmt [2013/03/21 13:40]
zeman Aktualizace.
Line 4: Line 4:
 http://www.statmt.org/wmt13/translation-task.html http://www.statmt.org/wmt13/translation-task.html
 <code>/net/work/people/zeman/wmt</code> <code>/net/work/people/zeman/wmt</code>
- 
-===== 19.3.2013 ===== 
- 
-Dočasné poznámky o překladu 
- 
-Kdysi havaroval s.mert.f2a85415.20130126-2300 (cs-en na Czengu). Havaroval někde uvnitř dekódování, nevím proč přesně. Zkusím ho teď prostě pustit znova. 
-Jinak ještě mám ve stavu FAILED kroky translate a evaluator, které na něm závisí. 
-Kromě toho FAILED: 
-s.tag anglického Gigawordu. Víme, musíme zcela vyměnit tagger. 
-s.tm na gigafren oběma směry. Zjistit proč. 
-A to je momentálně všechno. 
-Řada jiných pokusů v lednu doběhla, takže je možná na čase osvěžit si paměť puštěním sklizně. 
- 
-Sklizeň zatím zahrnuje spoustu pokusů, které se prováděly na korpusech připravených starým způsobem. To by chtělo nahradit a staré kroky s korpusy postupně vyřadit. 
-Pro některé jazykové páry zatím nemám ani jeden výsledek nad novými daty: 
-de-en 
-en-cs 
-en-de 
-en-es 
-en-fr 
-es-cs 
-es-en 
-fr-cs 
-fr-en 
-Takže to v podstatě chybí od určitého místa až do konce :-( 
-Opravdu, asi někdy havaroval danmake.pl a už nikdy jsem ho nedotlačil do cíle. Kroky s.model pro korpus newseuro existují pro všechny páry z češtiny ven a pro de-cs, dál už pro nic. Takže to je asi to první, co bych měl teď rozchodit, klidně bez Gigawordů, ale aspoň nějak. 
- 
-Teď jsem pustil danmake.pl -t model -f od de-en. Některé kroky se inicializovaly, ale nespustily. Celý danmake pak spadl v průběhu spouštění en-fr, zřejmě newseuro (část logu viz níže). Další páry se nespustily vůbec. 
-U těch nespuštěných je problém v tom, že danmake jim našel jazykový model OUTDATED un korpusu. Správně by danmake měl poznat, že tento krok je mimo hru, a hledat jiný. Příslušný krok jsem teď úplně smazal, ale bude se to muset celé pustit znova (pro modely, které využívají korpus un). 
- 
-Inited: s.model.5a6227c2.20130319-1704 
-Executing: eval $(cat eman.vars) EMAN_READONLY=yes ./eman.seed >&2 
-Step s.model.5a6227c2.20130319-1704 prepared. 
-Executing: ( qsub -C ''  -N odel.5a6227c2 -o log.o\$JOB_ID -hard -j y -cwd -S /bin/bash -p -100 -hard -l mf=30g -hard -l h_vmem=30g ./eman.command 2>&1 ) >> log 
-Step s.model.5a6227c2.20130319-1704 submitted as job 7086079 
-Cached:    ( eman select t tm v SRCCORP=newseuro.fr-en v SRCAUG=en+stc v TGTAUG=fr+stc ) => s.tm.039cb3b2.20120806-1258 
-Cached:    ( eman select t lm v CORP=newseuro v CORPAUG=fr+stc ) => s.lm.fd06b8ba.20121020-1355 
-Cached:    ( eman select t lm v CORP=newsall v CORPAUG=fr+stc ) => s.lm.95058f4e.20121020-1627 
-Cached:    ( eman select t lm v CORP=gigaword v CORPAUG=fr+stc ) => s.lm.07856d34.20130124-0331 
-[19.3.2013 17:04:38] Executing: ( eman select t model v TMS=s.tm.039cb3b2.20120806-1258 v LMS="0:s.lm.fd06b8ba.20121020-1355:::0:s.lm.95058f4e.20121020-1627:::0:s.lm.07856d34.20130124-0331" ) > safeticks.500/stdout.txt 
-[19.3.2013 17:04:41] Executing: GRIDFLAGS="-p -99 -hard -l mf=15g -l act_mem_free=15g -l h_vmem=15g" MODELSTEP=s.model.5a6227c2.20130319-1704 DEVCORP=wmt10v6b eman init mert --start --mem 30g 
-Executing: INIT_ONLY=yes  EMAN_READONLY=yes ./eman.seed >&2 
-Inited: s.mert.d3fcee87.20130319-1704 
-Executing: eval $(cat eman.vars) EMAN_READONLY=yes ./eman.seed >&2 
-Checking tuning corp size 
-Step s.mert.d3fcee87.20130319-1704 prepared. 
-Executing: ( qsub -C ''  -N mert.d3fcee87 -o log.o\$JOB_ID -hard -j y -cwd -S /bin/bash -p -100 -hard -l mf=30g -hard -l h_vmem=30g ./eman.command 2>&1 ) >> log 
-Step s.mert.d3fcee87.20130319-1704 submitted as job 7086081 
-Cached:    ( eman select t tm v SRCCORP=newseuro.fr-en v SRCAUG=en+stc v TGTAUG=fr+stc ) => s.tm.039cb3b2.20120806-1258 
-Cached:    ( eman select t lm v CORP=newseuro v CORPAUG=fr+stc ) => s.lm.fd06b8ba.20121020-1355 
-Cached:    ( eman select t lm v CORP=newsall v CORPAUG=fr+stc ) => s.lm.95058f4e.20121020-1627 
-Cached:    ( eman select t lm v CORP=gigaword v CORPAUG=fr+stc ) => s.lm.07856d34.20130124-0331 
-Cached:    ( eman select t model v TMS=s.tm.039cb3b2.20120806-1258 v LMS="0:s.lm.fd06b8ba.20121020-1355:::0:s.lm.95058f4e.20121020-1627:::0:s.lm.07856d34.20130124-0331" ) => s.model.5a6227c2.20130319-1704 
-[19.3.2013 17:04:48] Executing: ( eman select t mert v MODELSTEP=s.model.5a6227c2.20130319-1704 ) > safeticks.500/stdout.txt 
-No mert step found for v MODELSTEP=s.model.5a6227c2.20130319-1704 at ./danmake.pl line 764. 
- 
  
 ===== Aktuální úkoly ===== ===== Aktuální úkoly =====
  
-  * Data pro rok 2013 budou zveřejněna v lednu!+  * Dořešit s Ondřejem, proč mu vadí to mazání nepořádku po předchozích neúspěšných pokusech v eman.seeds/eman.command. V nejhorším případě to nějak budu muset zdvojit alespoň v danmake.pl. 
 +  * Znova označkovat anglický Gigaword, tentokrát Featuramou. 
 +  * Dokončit pokusy s korpusy un.es-en a un.fr-en. Běží merty, pak translate a evaluator. Pak kombinace un s jinými korpusy (newseuro a newsall). 
 +  * Zkontrolovat data pro rok 2013
 +    * Nejsou náhodou letos nové verze korpusů newseuro a newsall? 
 +    * Používám správné verze Gigawordů? 
 +    * O ruštině nemluvě... 
 +  * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? 
 +  * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví.
   * Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z&nbsp;článku na WMT?   * Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z&nbsp;článku na WMT?
     * Jazykové modely gigaword/czeng + newseuro + newsall     * Jazykové modely gigaword/czeng + newseuro + newsall

[ Back to the navigation ] [ Back to the content ]