Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:treebanks [2014/04/24 17:28] zeman Škrtám hotové věci. |
user:zeman:treebanks [2014/05/22 15:29] zeman Arabština zůstane vadná. |
||
---|---|---|---|
Line 6: | Line 6: | ||
* Nahradit arabská data novými (Zdeněk je slíbil do začátku května) | * Nahradit arabská data novými (Zdeněk je slíbil do začátku května) | ||
+ | * Aktualizace 19. května: Zdeněk to nestihne. Znamená to, že v 99 % vět je alespoň jeden uzel, který nemá vyplněné lemma nebo značku nebo obojí. Nemám spočítané přímo procento všech uzlů, ale bude taky velmi vysoké. Rozhodně to není tak, že by v každé větě byl jen jeden uzel vadný. | ||
+ | * Bohužel teď nemáme moc možností, co s tím. Stará data z CoNLL 2007 byla mizerná, protože tam chyběly hodnoty is_member. K nim se vracet nechci. S novými daty nedokážu ve zbývajícím čase nic pořádného udělat, to bude urgentní TODO po vydání HamleDTa 2.0. Vynechat arabštinu taky nechci, je to jeden z těch volných jazyků a v článku jsme ho slíbili. Takže to prostě vydáme v tom stavu, ve kterém to je, nedá se nic dělat. | ||
* Přegenerovat Stanfordí část HamleDTa, případně ji nějak otestovat (Ruda a Honza?) | * Přegenerovat Stanfordí část HamleDTa, případně ji nějak otestovat (Ruda a Honza?) | ||
* Vymyslet lepší hierarchii složek na disku? | * Vymyslet lepší hierarchii složek na disku? | ||
- | * Do jazyků s cizími písmy doplnit transliteraci – budeme se o to snažit už v této verzi? | ||
- | * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik. | ||
* Přegenerovat HamleDT 2.0 free: | * Přegenerovat HamleDT 2.0 free: | ||
* Původní, pražská i stanfordská anotace | * Původní, pražská i stanfordská anotace | ||
Line 16: | Line 16: | ||
* Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa | * Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa | ||
* Aktualizovat web HamleDT | * Aktualizovat web HamleDT | ||
- | * Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje | + | * <del>Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje</ |
* Podrobně popsat, "How to Get It" | * Podrobně popsat, "How to Get It" | ||
* < | * < | ||
Line 32: | Line 32: | ||
* < | * < | ||
* Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu | * Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu | ||
- | * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa | ||
* Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no! | * Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no! | ||
* Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki | * Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki | ||
+ | |||
+ | Odloženo do příští verze HamleDTa: | ||
+ | |||
+ | * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa | ||
+ | * Do jazyků s cizími písmy doplnit transliteraci. | ||
+ | * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik. | ||
* Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa. | * Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa. | ||
* Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel) | * Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel) |