Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:zeman:wmt [2012/02/29 13:46] zeman Doběhlo de-cs. |
user:zeman:wmt [2013/06/11 18:46] (current) zeman Appraise. |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Danovy pokusy | + | ====== Danovy pokusy na WMT 2013, Sofija |
http:// | http:// | ||
- | http:// | + | http:// |
- | http://svn.ms.mff.cuni.cz/ | + | http://www.dfki.de/appraise/wmt13/ |
< | < | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Rozpracované: | + | * Binarizace |
- | * Ještě by to chtělo zopakovat celý proces se značkováním korpusů OSN. Nejdřív se ale pokusím nechat alespoň jednou doběhnout současnou verzi. Původní korpus se nechtěl nechat označkovat a zdá se, že problém by mohl být v tom, že některé věty jsou příliš dlouhé. Pustil jsem tedy nejdřív čištění (pouze věty délky 1 až 99 slov), ale kvůli nějaké chybě má označkovaný korpus stejně původní | + | * Proč mi letos vyšly tak špatně jazykové páry s češtinou bez angličtiny? Udělal jsem nějakou chybu při vyrábění průniku trénovacích dat? Jsou menší nebo špatně spárovaná? |
- | * Všechny přípravy korpusů a zarovnání zopakovat i pod Emanem. Naučit se registrovat korpusy Corpmanem. | + | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall (tj. starý, nevím jak je to s& |
- | * Připravit | + | * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak |
- | * Data už jsou připravena, všech 6 pokusů běží. | + | * Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z článku na WMT? |
+ | * Jazykové modely gigaword/ | ||
+ | * Velká paralelní data un, gigafren, czeng | ||
+ | * Pokusit | ||
+ | * Použít stejná data jako on nebo lepší (to znamená přinejmenším celý Czeng a velká jednojazyčná | ||
+ | * Natrénovat stejné modely jako on. Přinejmenším mi zatím chybí lexical reordering model. Ondra navíc prováděl ještě nějaké čachry se značkami (jazykový model na morfologických značkách). | ||
+ | * Srovnat supervised truecasing, který používám teď, s něčím méně sofistikovaným. Nezmenšovat první písmeno slova uprostřed věty jen proto, | ||
* Prohnat všechna data Morfessorem a vyhodnotit překlad s ním. | * Prohnat všechna data Morfessorem a vyhodnotit překlad s ním. | ||
* Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10). | * Otestovat vliv omezení délky fráze na 5 tokenů (zkusit i default a 10). | ||
* Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, | * Pro všechny jazykové páry používat všechna dostupná data. Například velký Czeng pro češtinu, velké korpusy UN pro francouzštinu a španělštinu, | ||
* Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná). | * Převést všechny pokusy pod aktuální verzi Joshuy (ale bacha, možná bude hodně jiná). | ||
+ | * Dohnat pokusy s anglickým Gigawordem. | ||
+ | * Merty běží (1.5.2013), ale většina těchto modelů je příliš velkých (dekodérům nestačilo 120 GB paměti), takže se budou ještě dlouho přetahovat o '' | ||
+ | * Pokračovat v práci na gigafren. Překladový model je natrénovaný, | ||
+ | * Běží 4 obří merty... (přelom dubna a května 2013). Pokud nespadnou, budou se ještě řadu týdnů přetahovat o iridium, protože nikam jinam se nevejdou, ani jejich dekodéry ne. | ||
+ | * Nová data pro rok 2013. | ||
+ | * Modely s& | ||
+ | * Jsou tu nicméně data, která jsem zatím nepoužil vůbec (viz níže). Výhledově se podívat i na ně. Jde zejména korpus Common Crawl a přídavná ruská data (Yandex). | ||
+ | * Vývojová a testovací data: | ||
+ | * Kvůli ruštině musím pro nové pokusy (nad news8) přepnout DEV z 2010 na 2012. | ||
+ | * Od pondělního odpoledne 29.4.2013 všechny nové pokusy testovat na wmt2013. | ||
+ | * Inventura trénovacích dat: | ||
+ | * Europarl je stejný jako loni, tedy verze 7. | ||
+ | * News Commentary jsou nové a trochu větší, navíc s ruštinou, verze 8. | ||
+ | * Newsall je nové, protože přibyl rok 2012 a ruština. | ||
+ | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. Totéž gigafren. | ||
+ | * Gigawordy používám správné (ověřeno): | ||
+ | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). Ten zatím nepoužívám a do termínu už to nestihnu. | ||
===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ===== Srovnávací testy mezi Joshuou 1.1 a 1.3: Je třeba otestovat nastavení maximální délky fráze 5 ===== | ||
Line 112: | Line 135: | ||
**Šest přídavných jazykových párů: čeština s němčinou, španělštinou a francouzštinou.** Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v& | **Šest přídavných jazykových párů: čeština s němčinou, španělštinou a francouzštinou.** Tyto jazykové páry nejsou součástí shared task. Organizátoři pro ně ani neposkytují trénovací data, ale ta je možné získat hledáním shodných vět v& | ||
- | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ wmt12 ^ | + | Sloupec Moses je první odpovídající pokus s& |
- | | en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | 0.1161 | | + | |
- | | cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | 0.1661 | | + | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ wmt12 ^ Moses ^ +NewsAll ^ +Gigaword ^ Czeng ^ |
- | | en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | 0.1359 | | + | | en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | 0.1161 |
- | | de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | 0.1880 | | + | | cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | 0.1661 |
- | | en-es | 0.2573 | 0.2531 | 0.2627 | 0.2756 | 0.2757 | | + | | en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | 0.1359 |
- | | es-en | 0.2446 | 0.2375 | 0.2497 | 0.2562 | 0.2699 | | + | | de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | 0.1880 |
- | | en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 | 0.2572 | | + | | en-es | 0.2573 | 0.2531 | 0.2627 | 0.2756 | 0.2757 |
- | | fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 | 0.2391 | | + | | es-en | 0.2446 | 0.2375 | 0.2497 | 0.2562 | 0.2699 |
- | | cs-de | | | | | 0.1304 | | + | | en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 | 0.2572 |
- | | de-cs | | | | | 0.1186 | | + | | fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 | 0.2391 |
- | | cs-es | | | | | 0.1848 | | + | | cs-de | | | | | 0.1304 |
- | | es-cs | | | | | 0.1220 | | + | | de-cs | | | | | 0.1186 |
- | | cs-fr | | | | | 0.1822 | | + | | cs-es | | | | | 0.1848 |
- | | fr-cs | | | | | 0.1175 | | + | | es-cs | | | | | 0.1220 |
+ | | cs-fr | | | | | 0.1822 | ||
+ | | fr-cs | | | | | 0.1175 | ||
===== Pokusy s Emanem ===== | ===== Pokusy s Emanem ===== | ||
Line 173: | Line 198: | ||
Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||
+ | ===== Jak zpracovat obří korpus Treexem, třeba označkovat Gigaword? ===== | ||
+ | |||
+ | Dosud jsem používal obyčejné treex -p, kde se přesměrovává standardní výstup do nějakého souboru. Pro velké korpusy, které se zpracovávají několik dní na půlce clusteru, tohle není ten nejvhodnější způsob. Vždy je pravděpodobné, | ||
+ | |||
+ | Martin preferuje jiný způsob. Tisíce vstupních souborů leží v nějaké adresářové struktuře, někdy i vícepatrové, | ||
+ | |||
+ | Martinův postup lze vykoukat z '' |