[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2013/04/29 12:30]
zeman Zbývající pokusy s anglickým Gigawordem.
user:zeman:wmt [2013/04/30 09:09]
zeman Aktualizace úkolů.
Line 7: Line 7:
 ===== Aktuální úkoly ===== ===== Aktuální úkoly =====
  
-  * Dohnat pokusy s anglickým Gigawordem. 
-    * Pouštím 4 merty se starým newseuro: cs-en, de-en, es-en a fr-en. 
-    * Všechny překlady do angličtiny zopakovat s Gigawordem. 
-  * Pokračovat v práci na gigafren. Překladový model je natrénovaný, je potřeba vyrobit kroky model, mert, translate a evaluator. 
-    * Běží 4 obří merty... 
-    * Pro oba směry (en-fr a fr-en) chci překlad s Gigawordem i bez něj, tj. TM:gigafren, LM:gigafren + newsall [+ gigaword]. 
-    * Pak chci ještě totéž, ale překladový model je kombinovaný s newseuro, případně i s un (ale un to asi moc nevylepší a bude to nezvladatelně veliké). 
-  * Dokončit pokusy s korpusy un.es-en a un.fr-en. 
-    * Běží merty... 
-    * Vyrobit kombinovaný překladový model (newseuro+un). Ten byl na minulém hřišti úspěšný. 
-    * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. 
   * Nová data pro rok 2013.   * Nová data pro rok 2013.
-    * Běží výroba news8all/en+stc... Kromě toho běží align+tm ještě nad několika news8euro... +    * Opravují se 3 jazykové modely nad news8all a dobíhá poslední tm nad news8euro (en-fr)..
-    * Vyrobit jazykové modely nad news8all (nad news8euro už by měly být hotové). +    * Vyrobit modely. Ale pozor, s novými DEV a TEST daty, viz níže!
-    * Vyrobit modely. Ale pozor, s novými DEV daty, viz níže!+
     * Vývojová a testovací data:     * Vývojová a testovací data:
       * Kvůli ruštině musím pro nové pokusy (nad news8) přepnout DEV z 2010 na 2012.       * Kvůli ruštině musím pro nové pokusy (nad news8) přepnout DEV z 2010 na 2012.
-      * TEST 2013 mají vydat dnes, 29.4.2013.+      * Od pondělního odpoledne 29.4.2013 všechny nové pokusy testovat na wmt2013.
     * Inventura trénovacích dat:     * Inventura trénovacích dat:
       * Europarl je stejný jako loni, tedy verze 7.       * Europarl je stejný jako loni, tedy verze 7.
Line 32: Line 20:
       * Gigawordy používám správné (ověřeno): en 5, es 3, fr 3.       * Gigawordy používám správné (ověřeno): en 5, es 3, fr 3.
       * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). Ten zatím nepoužívám a do termínu už to nestihnu.       * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). Ten zatím nepoužívám a do termínu už to nestihnu.
 +  * Dohnat pokusy s anglickým Gigawordem.
 +    * Pouštím 4 merty se starým newseuro: cs-en, de-en, es-en a fr-en.
 +    * Všechny překlady do angličtiny zopakovat s Gigawordem.
 +  * Pokračovat v práci na gigafren. Překladový model je natrénovaný, je potřeba vyrobit kroky model, mert, translate a evaluator.
 +    * Běží 4 obří merty...
 +    * Pro oba směry (en-fr a fr-en) chci překlad s Gigawordem i bez něj, tj. TM:gigafren, LM:gigafren + newsall [+ gigaword].
 +    * Pak chci ještě totéž, ale překladový model je kombinovaný s newseuro, případně i s un (ale un to asi moc nevylepší a bude to nezvladatelně veliké).
 +  * Dokončit pokusy s korpusy un.es-en a un.fr-en v kombinaci s newseuro (bez něj to vůbec nemá smysl).
 +    * Běží merty...
   * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu?   * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu?
   * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví.   * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví.

[ Back to the navigation ] [ Back to the content ]