Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2013/03/21 14:24] zeman Aktualizace. |
user:zeman:wmt [2013/04/28 10:22] zeman Jazykový model nad anglickým Gigawordem je hotový. Vyrábí se francouzský jazykový model z gigafren. |
||
---|---|---|---|
Line 7: | Line 7: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Dořešit s Ondřejem, proč mu vadí to mazání nepořádku po předchozích neúspěšných pokusech v eman.seeds/eman.command. V nejhorším | + | * Dohnat pokusy s anglickým Gigawordem. |
- | * Znova označkovat anglický Gigaword, tentokrát Featuramou. | + | * Všechny překlady do angličtiny zopakovat |
- | * Dokončit pokusy s korpusy un.es-en a un.fr-en. | + | * Pokračovat v práci na gigafren. Překladový model je natrénovaný, je potřeba vyrobit kroky model, mert, translate a evaluator. |
+ | * Vyrábí se francouzský jazykový model z gigafren, anglický už je hotový. Potom budeme moci odstartovat modely. | ||
+ | * Pro oba směry (en-fr a fr-en) chci překlad s Gigawordem i bez něj, tj. TM: | ||
+ | * Pak chci ještě totéž, ale překladový model je kombinovaný s newseuro, případně i s un (ale un to asi moc nevylepší a bude to nezvladatelně veliké). | ||
+ | * Dokončit pokusy s korpusy un.es-en a un.fr-en. | ||
+ | * Vyrobit kombinovaný překladový model (newseuro+un). Ten byl na minulém hřišti úspěšný. | ||
+ | * Až bude také k dispozici jazykový model z anglického Gigawordu, pustit model, mert, translate a evaluator. | ||
* Zkontrolovat data pro rok 2013. | * Zkontrolovat data pro rok 2013. | ||
* Nejsou náhodou letos nové verze korpusů newseuro a newsall? | * Nejsou náhodou letos nové verze korpusů newseuro a newsall? | ||
* Europarl je stejný jako loni, tedy verze 7. | * Europarl je stejný jako loni, tedy verze 7. | ||
* U News Commentary to není jisté, spíš asi budou nové. | * U News Commentary to není jisté, spíš asi budou nové. | ||
- | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. | ||
- | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). | ||
* Nové by mělo být i newsall, protože přibyl rok 2012. | * Nové by mělo být i newsall, protože přibyl rok 2012. | ||
- | * Používám správné | + | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). |
- | * O ruštině nemluvě... | + | * Gigawordy používám správné |
+ | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. | ||
+ | * Vůbec nemám nachystaná ruská data! | ||
* Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | ||
- | * Giga.fr-en: Stále ještě se vyrábí překladový model. Pokud se ale stihne vyrobit, musím z něj vyždímat nějaké výsledky. | ||
* danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví. | * danmake.pl na rozdíl od emana nerozlišuje kroky, které jsou OUTDATED nebo FAILED. Když mu eman select pro nějakou sadu požadavků najde několik kroků, z nichž první je nějak vadný a druhý je DONE, danmake klidně použije ten první a pak se diví. | ||
* Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z& | * Nějak tu chybí pořádná tabulka loňských výsledků. To je mám opisovat z& | ||
Line 191: | Line 196: | ||
Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||
+ | ===== Jak zpracovat obří korpus Treexem, třeba označkovat Gigaword? ===== | ||
+ | |||
+ | Dosud jsem používal obyčejné treex -p, kde se přesměrovává standardní výstup do nějakého souboru. Pro velké korpusy, které se zpracovávají několik dní na půlce clusteru, tohle není ten nejvhodnější způsob. Vždy je pravděpodobné, | ||
+ | |||
+ | Martin preferuje jiný způsob. Tisíce vstupních souborů leží v nějaké adresářové struktuře, někdy i vícepatrové, | ||
+ | |||
+ | Martinův postup lze vykoukat z '' |