Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2013/01/15 11:24] zeman WMT 2013, Sofija. |
user:zeman:wmt [2013/04/16 11:26] zeman Upřesnění aktuálních úkolů. |
||
---|---|---|---|
Line 3: | Line 3: | ||
http:// | http:// | ||
http:// | http:// | ||
- | http:// | ||
< | < | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Data pro rok 2013 budou zveřejněna v lednu! | + | * Dohnat pokusy s anglickým Gigawordem. |
- | * Rozpracované: | + | * Vyrábí se jazykový model z anglického Gigawordu (od 11:14 úterý 16.4.2013). |
- | * Ještě by to chtělo zopakovat celý proces se značkováním korpusů OSN. Nejdřív se ale pokusím nechat alespoň jednou doběhnout současnou verzi. Původní korpus se nechtěl nechat označkovat a zdá se, že problém by mohl být v tom, že některé věty jsou příliš dlouhé. Pustil jsem tedy nejdřív čištění (pouze věty délky 1 až 99 slov), ale kvůli nějaké chybě má označkovaný | + | * Všechny překlady do angličtiny zopakovat s Gigawordem. |
+ | * Pokračovat v práci na gigafren. Překladový model je natrénovaný, | ||
+ | * Počkat, až bude hotový jazykový model z anglického | ||
+ | * Pro oba směry (en-fr a fr-en) chci překlad s Gigawordem i bez něj, tj. TM: | ||
+ | * Pak chci ještě totéž, ale překladový model je kombinovaný s newseuro, případně i s un (ale un to asi moc nevylepší a bude to nezvladatelně veliké). | ||
+ | * Dokončit pokusy s korpusy un.es-en | ||
+ | * Vyrobit kombinovaný | ||
+ | * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. | ||
+ | * Obdobně mi chybí výsledky pro kombinaci Czengu a newseuro | ||
+ | * Slepit korpusy | ||
+ | * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. | ||
+ | * Zkontrolovat data pro rok 2013. | ||
+ | * Nejsou náhodou letos nové verze korpusů newseuro a newsall? | ||
+ | * Europarl je stejný jako loni, tedy verze 7. | ||
+ | * U News Commentary to není jisté, spíš asi budou nové. | ||
+ | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. | ||
+ | * Navíc je úplně nový korpus | ||
+ | * Nové by mělo být i newsall, protože přibyl rok 2012. | ||
+ | * Používám správné verze Gigawordů? | ||
+ | * O ruštině nemluvě... | ||
+ | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | ||
+ | * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak | ||
+ | * Nějak tu chybí | ||
+ | * Jazykové modely gigaword/ | ||
+ | * Velká paralelní data un, gigafren, czeng | ||
* Pokusit se napodobit Ondrův nejlepší výsledek. | * Pokusit se napodobit Ondrův nejlepší výsledek. | ||
* Použít stejná data jako on nebo lepší (to znamená přinejmenším celý Czeng a velká jednojazyčná data; Ondra ale prý vynechal Europarl, ten já vynechat nechci). | * Použít stejná data jako on nebo lepší (to znamená přinejmenším celý Czeng a velká jednojazyčná data; Ondra ale prý vynechal Europarl, ten já vynechat nechci). | ||
* Natrénovat stejné modely jako on. Přinejmenším mi zatím chybí lexical reordering model. Ondra navíc prováděl ještě nějaké čachry se značkami (jazykový model na morfologických značkách). | * Natrénovat stejné modely jako on. Přinejmenším mi zatím chybí lexical reordering model. Ondra navíc prováděl ještě nějaké čachry se značkami (jazykový model na morfologických značkách). | ||
- | * Všechny přípravy korpusů a zarovnání zopakovat i pod Emanem. | ||
* Srovnat supervised truecasing, který používám teď, s něčím méně sofistikovaným. Nezmenšovat první písmeno slova uprostřed věty jen proto, že moje lematizace nezná dané slovo jako vlastní jméno (např. " | * Srovnat supervised truecasing, který používám teď, s něčím méně sofistikovaným. Nezmenšovat první písmeno slova uprostřed věty jen proto, že moje lematizace nezná dané slovo jako vlastní jméno (např. " | ||
* Prohnat všechna data Morfessorem a vyhodnotit překlad s ním. | * Prohnat všechna data Morfessorem a vyhodnotit překlad s ním. | ||
Line 117: | Line 139: | ||
Sloupec Moses je první odpovídající pokus s& | Sloupec Moses je první odpovídající pokus s& | ||
- | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ wmt12 ^ Moses ^ | + | ^ Jazyky ^ v6 ^ v6b-tr ^ v6b ^ v7 ^ wmt12 ^ Moses ^ +NewsAll ^ +Gigaword ^ Czeng ^ |
| en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | 0.1161 | 11.96±0.50 | | | en-cs | 0.1191 | 0.1246 | 0.1257 | 0.1299 | 0.1161 | 11.96±0.50 | | ||
- | | cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | 0.1661 | 17.96±0.50 | | + | | cs-en | 0.1692 | 0.1792 | 0.1801 | 0.1814 | 0.1661 | 17.96±0.50 |
| en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | 0.1359 | 14.26±0.52 | | | en-de | 0.1337 | 0.1274 | 0.1334 | 0.1350 | 0.1359 | 14.26±0.52 | | ||
| de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | 0.1880 | 18.77±0.53 | | | de-en | 0.1885 | 0.1859 | 0.1896 | 0.1915 | 0.1880 | 18.77±0.53 | | ||
Line 126: | Line 148: | ||
| en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 | 0.2572 | 25.99±0.63 | | | en-fr | 0.2591 | 0.2619 | 0.2526 | 0.2729 | 0.2572 | 25.99±0.63 | | ||
| fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 | 0.2391 | 24.59±0.68 | | | fr-en | 0.2243 | 0.2285 | 0.2384 | 0.2448 | 0.2391 | 24.59±0.68 | | ||
- | | cs-de | | | | | 0.1304 | 13.65±0.54 | | + | | cs-de | | | | | 0.1304 | 13.65±0.54 |
| de-cs | | | | | 0.1186 | 12.12±0.52 | | | de-cs | | | | | 0.1186 | 12.12±0.52 | | ||
- | | cs-es | | | | | 0.1848 | 19.52±0.52 | | + | | cs-es | | | | | 0.1848 | 19.52±0.52 |
| es-cs | | | | | 0.1220 | 12.81±0.54 | | | es-cs | | | | | 0.1220 | 12.81±0.54 | | ||
- | | cs-fr | | | | | 0.1822 | 19.53±0.55 | | + | | cs-fr | | | | | 0.1822 | 19.53±0.55 |
| fr-cs | | | | | 0.1175 | 12.53±0.57 | | | fr-cs | | | | | 0.1175 | 12.53±0.57 | | ||
Line 178: | Line 200: | ||
Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||
+ | ===== Jak zpracovat obří korpus Treexem, třeba označkovat Gigaword? ===== | ||
+ | |||
+ | Dosud jsem používal obyčejné treex -p, kde se přesměrovává standardní výstup do nějakého souboru. Pro velké korpusy, které se zpracovávají několik dní na půlce clusteru, tohle není ten nejvhodnější způsob. Vždy je pravděpodobné, | ||
+ | |||
+ | Martin preferuje jiný způsob. Tisíce vstupních souborů leží v nějaké adresářové struktuře, někdy i vícepatrové, | ||
+ | |||
+ | Martinův postup lze vykoukat z '' |