Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:wmt [2013/01/23 14:55] zeman |
user:zeman:wmt [2013/04/15 12:13] zeman Aktuální úkoly. |
||
---|---|---|---|
Line 7: | Line 7: | ||
===== Aktuální úkoly ===== | ===== Aktuální úkoly ===== | ||
- | * Data pro rok 2013 budou zveřejněna v lednu! | + | * Znova označkovat anglický Gigaword, tentokrát Featuramou. |
- | * Přejít na hřiště verzované v Gitu (já mám stále jen to v svn). | + | * Označkováno už je, dva dílčí dokumenty se musely značkovat dodatečně. Nyní (pondělí 15.4.2013) běží slévání výstupu. |
- | * Rozpracované: | + | * Vyrobit jazykový model z anglického Gigawordu (předtím se ještě bude sto let vyrábět faktor stc, tak bacha, zablokuje |
- | * Ještě | + | * Všechny překlady do angličtiny zopakovat s Gigawordem. |
+ | * Pokračovat v práci na gigafren. Překladový model je natrénovaný, | ||
+ | * Dokončit pokusy s korpusy un.es-en a un.fr-en. | ||
+ | * Pokusy s překladovým modelem pouze na UN doběhly | ||
+ | * Ještě | ||
+ | * Zkontrolovat data pro rok 2013. | ||
+ | * Nejsou náhodou letos nové verze korpusů newseuro | ||
+ | * Europarl je stejný jako loni, tedy verze 7. | ||
+ | * U News Commentary to není jisté, spíš asi budou nové. | ||
+ | * Korpus UN bude asi stejný, i když to na stránkách WMT výslovně nepíšou. | ||
+ | * Navíc je úplně nový korpus Common Crawl (prý je ale špinavý). | ||
+ | * Nové by mělo být i newsall, protože přibyl rok 2012. | ||
+ | * Používám správné verze Gigawordů? | ||
+ | * O ruštině nemluvě... | ||
+ | * Proč při překladu odkudkoliv do angličtiny to s jazykovým modelem na newsall dopadne malinko hůř než bez něj? Nemělo by to spíš dopadnout zřetelně líp? Co je s ním? Jak je velký? Jakou dostal váhu? Jak se po jeho přidání změnil výstup překladu? | ||
+ | * Giga.fr-en: Stále ještě se vyrábí překladový model. Pokud se ale stihne vyrobit, musím z něj vyždímat nějaké výsledky. | ||
+ | * danmake.pl | ||
+ | * Nějak tu chybí | ||
+ | * Jazykové modely gigaword/ | ||
+ | * Velká paralelní data un, gigafren, czeng | ||
* Pokusit se napodobit Ondrův nejlepší výsledek. | * Pokusit se napodobit Ondrův nejlepší výsledek. | ||
* Použít stejná data jako on nebo lepší (to znamená přinejmenším celý Czeng a velká jednojazyčná data; Ondra ale prý vynechal Europarl, ten já vynechat nechci). | * Použít stejná data jako on nebo lepší (to znamená přinejmenším celý Czeng a velká jednojazyčná data; Ondra ale prý vynechal Europarl, ten já vynechat nechci). | ||
Line 177: | Line 196: | ||
Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | Ještě je potřeba to testovat stejným skriptem jako Ondřej, abychom použili stejnou tokenizaci a taky abychom dostali rozptyl skóre. | ||
+ | ===== Jak zpracovat obří korpus Treexem, třeba označkovat Gigaword? ===== | ||
+ | |||
+ | Dosud jsem používal obyčejné treex -p, kde se přesměrovává standardní výstup do nějakého souboru. Pro velké korpusy, které se zpracovávají několik dní na půlce clusteru, tohle není ten nejvhodnější způsob. Vždy je pravděpodobné, | ||
+ | |||
+ | Martin preferuje jiný způsob. Tisíce vstupních souborů leží v nějaké adresářové struktuře, někdy i vícepatrové, | ||
+ | |||
+ | Martinův postup lze vykoukat z '' |