Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2013/04/16 11:26] zeman Upřesnění aktuálních úkolů. |
user:zeman:wmt [2013/04/29 11:19] zeman Inventura dat. |
||
---|---|---|---|
Line 8: | Line 8: | ||
* Dohnat pokusy s anglickým Gigawordem. | * Dohnat pokusy s anglickým Gigawordem. | ||
- | * Vyrábí se jazykový model z anglického Gigawordu (od 11:14 úterý 16.4.2013). | ||
* Všechny překlady do angličtiny zopakovat s Gigawordem. | * Všechny překlady do angličtiny zopakovat s Gigawordem. | ||
* Pokračovat v práci na gigafren. Překladový model je natrénovaný, | * Pokračovat v práci na gigafren. Překladový model je natrénovaný, | ||
- | * Počkat, až bude hotový jazykový model z anglického Gigawordu, abychom nemuseli zase něco jednorázově odkládat. | + | * Běží 4 obří merty... |
* Pro oba směry (en-fr a fr-en) chci překlad s Gigawordem i bez něj, tj. TM: | * Pro oba směry (en-fr a fr-en) chci překlad s Gigawordem i bez něj, tj. TM: | ||
* Pak chci ještě totéž, ale překladový model je kombinovaný s newseuro, případně i s un (ale un to asi moc nevylepší a bude to nezvladatelně veliké). | * Pak chci ještě totéž, ale překladový model je kombinovaný s newseuro, případně i s un (ale un to asi moc nevylepší a bude to nezvladatelně veliké). | ||
* Dokončit pokusy s korpusy un.es-en a un.fr-en. | * Dokončit pokusy s korpusy un.es-en a un.fr-en. | ||
+ | * Běží merty... | ||
* Vyrobit kombinovaný překladový model (newseuro+un). Ten byl na minulém hřišti úspěšný. | * Vyrobit kombinovaný překladový model (newseuro+un). Ten byl na minulém hřišti úspěšný. | ||
* Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. | * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. | ||
- | * Obdobně mi chybí výsledky | + | * Nová data pro rok 2013. |
- | * Slepit korpusy a alignmenty, vyrobit kombinovaný překladový model. | + | * Běží výroba news8all/en+stc... Kromě toho běží align+tm ještě nad několika news8euro... |
- | * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. | + | * Vyrobit jazykové modely nad news8all (nad news8euro už by měly být hotové). |
- | * Zkontrolovat | + | * Vyrobit modely. Ale pozor, s novými DEV daty, viz níže! |
- | * Nejsou náhodou letos nové verze korpusů newseuro a newsall? | + | * Vývojová a testovací |
+ | * Kvůli ruštině musím | ||
+ | * TEST 2013 mají vydat dnes, 29.4.2013. | ||
+ | * Inventura trénovacích dat: | ||
* Europarl je stejný jako loni, tedy verze 7. | * Europarl je stejný jako loni, tedy verze 7. | ||
- | * U News Commentary | + | * News Commentary |
- | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. | + | * Newsall je nové, protože přibyl rok 2012 a ruština. |
- | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). | + | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. Totéž gigafren. |
- | * Nové by mělo být i newsall, protože přibyl rok 2012. | + | * Gigawordy používám správné (ověřeno): |
- | * Používám | + | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). |
- | * O ruštině nemluvě... | + | |
* Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | ||
* danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví. | * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví. |