Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2013/03/19 17:43] zeman |
user:zeman:wmt [2013/03/21 14:20] zeman Nová data. |
||
---|---|---|---|
Line 4: | Line 4: | ||
http:// | http:// | ||
< | < | ||
- | |||
- | ===== 19.3.2013 ===== | ||
- | |||
- | Dočasné poznámky o překladu | ||
- | |||
- | Kdysi havaroval s.mert.f2a85415.20130126-2300 (cs-en na Czengu). Havaroval někde uvnitř dekódování, | ||
- | Jinak ještě mám ve stavu FAILED kroky translate a evaluator, které na něm závisí. | ||
- | Kromě toho FAILED: | ||
- | s.tag anglického Gigawordu. Víme, musíme zcela vyměnit tagger. | ||
- | s.tm na gigafren oběma směry. Zjistit proč. | ||
- | A to je momentálně všechno. | ||
- | Řada jiných pokusů v lednu doběhla, takže je možná na čase osvěžit si paměť puštěním sklizně. | ||
- | |||
- | Sklizeň zatím zahrnuje spoustu pokusů, které se prováděly na korpusech připravených starým způsobem. To by chtělo nahradit a staré kroky s korpusy postupně vyřadit. | ||
- | Pro některé jazykové páry zatím nemám ani jeden výsledek nad novými daty: | ||
- | de-en | ||
- | en-cs | ||
- | en-de | ||
- | en-es | ||
- | en-fr | ||
- | es-cs | ||
- | es-en | ||
- | fr-cs | ||
- | fr-en | ||
- | Takže to v podstatě chybí od určitého místa až do konce :-( | ||
- | Opravdu, asi někdy havaroval danmake.pl a už nikdy jsem ho nedotlačil do cíle. Kroky s.model pro korpus newseuro existují pro všechny páry z češtiny ven a pro de-cs, dál už pro nic. Takže to je asi to první, co bych měl teď rozchodit, klidně bez Gigawordů, ale aspoň nějak. | ||
- | |||
- | Teď jsem pustil danmake.pl -t model -f od de-en. Některé kroky se inicializovaly, | ||
- | U těch nespuštěných je problém v tom, že danmake jim našel jazykový model OUTDATED un korpusu. Správně by danmake měl poznat, že tento krok je mimo hru, a hledat jiný. Příslušný krok jsem teď úplně smazal, ale bude se to muset celé pustit znova (pro modely, které využívají korpus un). | ||
- | |||
- | Inited: s.model.5a6227c2.20130319-1704 | ||
- | Executing: eval $(cat eman.vars) EMAN_READONLY=yes ./eman.seed >&2 | ||
- | Step s.model.5a6227c2.20130319-1704 prepared. | ||
- | Executing: ( qsub -C '' | ||
- | Step s.model.5a6227c2.20130319-1704 submitted as job 7086079 | ||
- | Cached: | ||
- | Cached: | ||
- | Cached: | ||
- | Cached: | ||
- | [19.3.2013 17:04:38] Executing: ( eman select t model v TMS=s.tm.039cb3b2.20120806-1258 v LMS=" | ||
- | [19.3.2013 17:04:41] Executing: GRIDFLAGS=" | ||
- | Executing: INIT_ONLY=yes | ||
- | Inited: s.mert.d3fcee87.20130319-1704 | ||
- | Executing: eval $(cat eman.vars) EMAN_READONLY=yes ./eman.seed >&2 | ||
- | Checking tuning corp size | ||
- | Step s.mert.d3fcee87.20130319-1704 prepared. | ||
- | Executing: ( qsub -C '' | ||
- | Step s.mert.d3fcee87.20130319-1704 submitted as job 7086081 | ||
- | Cached: | ||
- | Cached: | ||
- | Cached: | ||
- | Cached: | ||
- | Cached: | ||
- | [19.3.2013 17:04:48] Executing: ( eman select t mert v MODELSTEP=s.model.5a6227c2.20130319-1704 ) > safeticks.500/ | ||
- | No mert step found for v MODELSTEP=s.model.5a6227c2.20130319-1704 at ./ | ||
- | |||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Data pro rok 2013 budou zveřejněna v lednu! | + | * Dořešit s Ondřejem, proč mu vadí to mazání nepořádku po předchozích neúspěšných pokusech v eman.seeds/ |
+ | * Znova označkovat anglický Gigaword, tentokrát Featuramou. | ||
+ | * Dokončit pokusy s korpusy un.es-en a un.fr-en. Běží merty, pak translate a evaluator. Pak kombinace un s jinými korpusy (newseuro a newsall). | ||
+ | * Zkontrolovat data pro rok 2013. | ||
+ | * Nejsou náhodou letos nové verze korpusů newseuro a newsall? | ||
+ | * Europarl je stejný jako loni, tedy verze 7. | ||
+ | * U News Commentary to není jisté, spíš asi budou nové. | ||
+ | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. | ||
+ | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). | ||
+ | * Používám správné verze Gigawordů? | ||
+ | * O ruštině nemluvě... | ||
+ | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | ||
+ | * danmake.pl | ||
* Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z& | * Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z& | ||
* Jazykové modely gigaword/ | * Jazykové modely gigaword/ |