Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:treebanks [2014/04/22 16:36] zeman Treex::Web |
user:zeman:treebanks [2014/05/26 17:01] zeman |
||
---|---|---|---|
Line 5: | Line 5: | ||
**Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014!** V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat. | **Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014!** V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat. | ||
- | * Nahradit arabská data novými (Zdeněk je slíbil do začátku května) | + | * <del>Přegenerovat Stanfordí část HamleDTa.</ |
- | * Přegenerovat Stanfordí část HamleDTa, | + | * < |
- | * Vymyslet lepší hierarchii složek na disku? | + | * < |
- | * Do jazyků | + | * < |
- | * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit | + | * < |
- | * Přegenerovat | + | * < |
- | * Původní, pražská i stanfordská anotace | + | * < |
- | * Formáty Treex i CoNLL, | + | * < |
- | * Vyrobit patche pro non-Free treebanky, tj. CoNLL soubory | + | * Vygenerovat |
- | * Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, | + | * < |
- | * Aktualizovat web HamleDT | + | * < |
- | * Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje | + | * < |
- | * Podrobně popsat, "How to Get It" | + | * < |
- | * Skupina treebanků " | + | * < |
- | * Skupina treebanků " | + | * < |
- | * Skupina treebanků " | + | * Asi už zrušit webový |
- | * Návod k použití patchů | + | * < |
- | * Odkaz na návod na instalaci Treexu | + | * Aktualizovat |
- | * Přidat reference na naše články a jasně říct, "How to cite HamleDT" | + | * <del>Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje</ |
- | * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku) | + | * <del>Podrobně popsat, "How to Get It"</ |
- | * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají | + | * <del>Skupina treebanků " |
- | * Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco | + | * <del>Skupina treebanků " |
- | * Nový jazyk (slovenština) | + | * <del>Skupina treebanků " |
- | * Nová data (čeština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?), ještě něco? katalánština? | + | * <del>Odkaz na návod na instalaci Treexu</ |
- | * Stanfordské transformace | + | * < |
- | * Numerous bugfixes | + | * <del>Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco</ |
+ | * <del>Nový jazyk (slovenština); kromě toho estonština byla přeřazena do skupiny Free.</ | ||
+ | * <del>Nová data (čeština, hindština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?). Porovnat s prvním článkem!)</ | ||
+ | * <del>Stanfordské transformace</ | ||
+ | * <del>Numerous bugfixes</ | ||
* Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu | * Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu | ||
- | | + | |
- | * Nezapomenout inzerovat | + | * < |
+ | * Inzerovat na facebookové stránce ÚFALu | ||
* Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki | * Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki | ||
+ | |||
+ | Odloženo na dobu po vydání HamleDTa 2.0: | ||
+ | |||
+ | * Po LRECu 2014 doplnit referenci na nový článek a na webu z něj udělat ten hlavní "how to cite". | ||
+ | * K odkazům na články dodat také odkazy na PDF a BibTeX. | ||
+ | * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku) | ||
+ | * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají | ||
+ | * Vymyslet lepší hierarchii složek na disku? | ||
+ | * Rozšířit systém testů, aby pokrýval i stanfordskou mutaci HamleDTa. | ||
+ | * Zlepšit podporu práci s CoNLL patchi. Dodat skript, který to slepí s původními daty a případně nějak pomůže u treebanků, u kterých není jasné, jak se jmenují a jak jsou uspořádané soubory, ve kterých uživatel dostal originální verzi. | ||
+ | * Dotáhnout parsing HamleDTa 2.0 a popsat jeho výsledky na webu. | ||
+ | * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa | ||
+ | * Do jazyků s cizími písmy doplnit transliteraci. | ||
+ | * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik. | ||
* Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa. | * Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa. | ||
* Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel) | * Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel) | ||
+ | * Zařídit posílání e-mailů a automatické mazání výstupů, ve kterých nebyl zjištěn žádný rozdíl. Jinak se rychle zaplní disk, každou noc tam přibude několik gigabajtů. | ||
* Vytvořit webovou službu (např. scénář v rámci Treex:: | * Vytvořit webovou službu (např. scénář v rámci Treex:: | ||
+ | * Nahradit arabská data novými (Zdeněk je slíbil do začátku května) | ||
+ | * Aktualizace 19. května: Zdeněk to nestihne. Znamená to, že v 99 % vět je alespoň jeden uzel, který nemá vyplněné lemma nebo značku nebo obojí. Nemám spočítané přímo procento všech uzlů, ale bude taky velmi vysoké. Rozhodně to není tak, že by v každé větě byl jen jeden uzel vadný. | ||
+ | * Bohužel teď nemáme moc možností, co s tím. Stará data z CoNLL 2007 byla mizerná, protože tam chyběly hodnoty is_member. K nim se vracet nechci. S novými daty nedokážu ve zbývajícím čase nic pořádného udělat, to bude urgentní TODO po vydání HamleDTa 2.0. Vynechat arabštinu taky nechci, je to jeden z těch volných jazyků a v článku jsme ho slíbili. Takže to prostě vydáme v tom stavu, ve kterém to je, nedá se nic dělat. | ||
+ | * Konečné rozhodnutí pro HamleDT 2.0: vrátil jsem se k PADT r349, z ní jsem do HamleDTa zařadil jen ty věty, ve kterých všechny uzly měly vyplněný afun. Pro další verze HamleDTa musíme nejdříve dotáhnout do přijatelného stavu samotné PADT. | ||
====== Treebanks for Various Languages ====== | ====== Treebanks for Various Languages ====== |