[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:wmt [2013/04/29 11:04]
zeman Gigafrenu už taky běží mert.
user:zeman:wmt [2013/04/29 11:19]
zeman Inventura dat.
Line 17: Line 17:
     * Vyrobit kombinovaný překladový model (newseuro+un). Ten byl na minulém hřišti úspěšný.     * Vyrobit kombinovaný překladový model (newseuro+un). Ten byl na minulém hřišti úspěšný.
     * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator.     * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator.
-  * Zkontrolovat data pro rok 2013. +  * Nová data pro rok 2013. 
-    * Nejsou náhodou letos nové verze korpusů newseuro newsall?+    * Běží výroba news8all/en+stc... Kromě toho běží align+tm ještě nad několika news8euro... 
 +    * Vyrobit jazykové modely nad news8all (nad news8euro už by měly být hotové). 
 +    * Vyrobit modely. Ale pozor, s novými DEV daty, viz níže! 
 +    * Vývojová testovací data: 
 +      * Kvůli ruštině musím pro nové pokusy (nad news8) přepnout DEV z 2010 na 2012. 
 +      * TEST 2013 mají vydat dnes, 29.4.2013. 
 +    * Inventura trénovacích dat:
       * Europarl je stejný jako loni, tedy verze 7.       * Europarl je stejný jako loni, tedy verze 7.
-      * News Commentary to není jistéspíš asi budou nové+      * News Commentary jsou nové a trochu většínavíc s ruštinou, verze 8
-      * Nové by mělo být i newsall, protože přibyl rok 2012. +      * Newsall je nové, protože přibyl rok 2012 a ruština
-    Navíc je úplně nový korpus Common Crawl (prý je ale špinavý)+      Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. Totéž gigafren
-    * Gigawordy používám správné (ověřeno): en 5, es 3, fr 3. +      * Gigawordy používám správné (ověřeno): en 5, es 3, fr 3. 
-    Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. +      Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). Ten zatím nepoužívám a do termínu už to nestihnu.
-    * Vůbec nemám nachystaná ruská data!+
   * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu?   * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu?
   * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví.   * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví.

[ Back to the navigation ] [ Back to the content ]