Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:treebanks [2011/11/20 21:21] zeman Jednotlivé jazyky už musely být přesunuty na samostatné stránky. |
user:zeman:treebanks [2014/04/23 11:43] zeman Hindská data jsou také nová oproti HamleDT 1.0. |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== HamleDT 2.0 TO DO ====== | ||
+ | |||
+ | 22.4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, | ||
+ | |||
+ | **Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014!** V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat. | ||
+ | |||
+ | * Nahradit arabská data novými (Zdeněk je slíbil do začátku května) | ||
+ | * Přegenerovat Stanfordí část HamleDTa, případně ji nějak otestovat (Ruda a Honza?) | ||
+ | * Vymyslet lepší hierarchii složek na disku? | ||
+ | * Do jazyků s cizími písmy doplnit transliteraci – budeme se o to snažit už v této verzi? | ||
+ | * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik. | ||
+ | * Přegenerovat HamleDT 2.0 free: | ||
+ | * Původní, pražská i stanfordská anotace | ||
+ | * Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát | ||
+ | * Vyrobit patche pro non-Free treebanky, tj. CoNLL soubory s vyplněnými zadními sloupci plus jednoduchý skript, který to slepí s původními daty a cestou zkontroluje, | ||
+ | * Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa | ||
+ | * Aktualizovat web HamleDT | ||
+ | * Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje | ||
+ | * Podrobně popsat, "How to Get It" | ||
+ | * Skupina treebanků " | ||
+ | * Skupina treebanků " | ||
+ | * Skupina treebanků " | ||
+ | * Návod k použití patchů | ||
+ | * Odkaz na návod na instalaci Treexu | ||
+ | * Přidat reference na naše články a jasně říct, "How to cite HamleDT" | ||
+ | * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku) | ||
+ | * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají | ||
+ | * Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco | ||
+ | * Nový jazyk (slovenština) | ||
+ | * Nová data (čeština, hindština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?), ještě něco? katalánština? | ||
+ | * Stanfordské transformace | ||
+ | * Numerous bugfixes | ||
+ | * Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu | ||
+ | * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa | ||
+ | * Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no! | ||
+ | * Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki | ||
+ | * Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa. | ||
+ | * Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel) | ||
+ | * Vytvořit webovou službu (např. scénář v rámci Treex:: | ||
+ | |||
====== Treebanks for Various Languages ====== | ====== Treebanks for Various Languages ====== | ||
+ | http:// | ||
+ | |||
+ | * [[user: | ||
* [[user: | * [[user: | ||
- | * [[user: | + | * [[user: |
* [[user: | * [[user: | ||
+ | * [[user: | ||
* [[user: | * [[user: | ||
* [[user: | * [[user: | ||
* [[user: | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
* [[user: | * [[user: | ||
* [[user: | * [[user: | ||
- | * [[user: | + | * [[user: |
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | * [[user: | ||
+ | |||
+ | ===== To Process ===== | ||
+ | |||
+ | Ahoj, | ||
+ | stáhl jsem nový španělský závislostní korpus IULA (větší než AnCora) | ||
+ | / | ||
+ | |||
+ | License: | ||
+ | Web: http:// | ||
+ | Doc: http:// | ||
+ | Download: http:// | ||
+ | Parsing: | ||
+ | state-of-the-art LAS score is 94.7 using Mate-C | ||
+ | sentences | ||
+ | tokens | ||
+ | |||
+ | The sentences have been choosed from the IULA LSP corpus, automatically annotated with POS information and manually annotated with syntactical information using the DELPH-IN environment. The resulting syntactic analysis is automatically converted to dependencies and delivered using the CONLL format. | ||
+ | Martin |