Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:wmt [2013/04/29 12:30] zeman Zbývající pokusy s anglickým Gigawordem. |
user:zeman:wmt [2013/06/11 18:46] (current) zeman Appraise. |
||
---|---|---|---|
Line 3: | Line 3: | ||
http:// | http:// | ||
http:// | http:// | ||
+ | http:// | ||
< | < | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Dohnat pokusy s anglickým Gigawordem. | + | * Binarizace |
- | * Pouštím 4 merty se starým newseuro: cs-en, de-en, es-en a fr-en. | + | * Proč mi letos vyšly tak špatně jazykové páry s češtinou bez angličtiny? |
- | * Všechny překlady do angličtiny zopakovat s Gigawordem. | + | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall |
- | * Pokračovat v práci na gigafren. Překladový | + | |
- | * Běží 4 obří merty... | + | |
- | * Pro oba směry (en-fr a fr-en) chci překlad s Gigawordem | + | |
- | * Pak chci ještě totéž, ale překladový model je kombinovaný s newseuro, případně i s un (ale un to asi moc nevylepší | + | |
- | * Dokončit pokusy s korpusy un.es-en a un.fr-en. | + | |
- | * Běží merty... | + | |
- | * Vyrobit kombinovaný překladový model (newseuro+un). Ten byl na minulém hřišti úspěšný. | + | |
- | * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. | + | |
- | * Nová data pro rok 2013. | + | |
- | * Běží výroba news8all/ | + | |
- | * Vyrobit jazykové modely nad news8all (nad news8euro už by měly být hotové). | + | |
- | * Vyrobit modely. Ale pozor, s novými DEV daty, viz níže! | + | |
- | * Vývojová a testovací data: | + | |
- | * Kvůli ruštině musím pro nové pokusy (nad news8) přepnout DEV z 2010 na 2012. | + | |
- | * TEST 2013 mají vydat dnes, 29.4.2013. | + | |
- | * Inventura | + | |
- | * Europarl je stejný jako loni, tedy verze 7. | + | |
- | * News Commentary jsou nové a trochu větší, navíc s ruštinou, verze 8. | + | |
- | * Newsall je nové, protože přibyl rok 2012 a ruština. | + | |
- | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. Totéž gigafren. | + | |
- | * Gigawordy používám správné (ověřeno): | + | |
- | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). Ten zatím nepoužívám a do termínu už to nestihnu. | + | |
- | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | + | |
* danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví. | * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví. | ||
* Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z& | * Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z& | ||
Line 45: | Line 23: | ||
* Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, | * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, | ||
* Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná). | * Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná). | ||
+ | * Dohnat pokusy s anglickým Gigawordem. | ||
+ | * Merty běží (1.5.2013), ale většina těchto modelů je příliš velkých (dekodérům nestačilo 120 GB paměti), takže se budou ještě dlouho přetahovat o '' | ||
+ | * Pokračovat v práci na gigafren. Překladový model je natrénovaný, | ||
+ | * Běží 4 obří merty... (přelom dubna a května 2013). Pokud nespadnou, budou se ještě řadu týdnů přetahovat o iridium, protože nikam jinam se nevejdou, ani jejich dekodéry ne. | ||
+ | * Nová data pro rok 2013. | ||
+ | * Modely s& | ||
+ | * Jsou tu nicméně data, která jsem zatím nepoužil vůbec (viz níže). Výhledově se podívat i na ně. Jde zejména korpus Common Crawl a přídavná ruská data (Yandex). | ||
+ | * Vývojová a testovací data: | ||
+ | * Kvůli ruštině musím pro nové pokusy (nad news8) přepnout DEV z 2010 na 2012. | ||
+ | * Od pondělního odpoledne 29.4.2013 všechny nové pokusy testovat na wmt2013. | ||
+ | * Inventura trénovacích dat: | ||
+ | * Europarl je stejný jako loni, tedy verze 7. | ||
+ | * News Commentary jsou nové a trochu větší, navíc s ruštinou, verze 8. | ||
+ | * Newsall je nové, protože přibyl rok 2012 a ruština. | ||
+ | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. Totéž gigafren. | ||
+ | * Gigawordy používám správné (ověřeno): | ||
+ | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). Ten zatím nepoužívám a do termínu už to nestihnu. | ||
===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== |