[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:treebanks [2014/03/01 19:45]
zeman Slovak.
user:zeman:treebanks [2014/04/22 15:56]
zeman HamleDT TODO
Line 1: Line 1:
 +====== HamleDT 2.0 TO DO ======
 +
 +22.4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, ale to už se v této verzi nedá zvládnout. Máme tu další související úkoly a přinejmenším některé z nich mají podle mě teď vyšší prioritu:
 +
 +  * Nahradit arabská data novými (Zdeněk je slíbil do začátku května)
 +  * Přegenerovat Stanfordí část HamleDTa, případně ji nějak otestovat (Ruda a Honza?)
 +    * Vymyslet lepší hierarchii složek na disku?
 +  * Do jazyků s cizími písmy doplnit transliteraci – budeme se o to snažit už v této verzi?
 +    * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik.
 +  * Přegenerovat HamleDT 2.0 free:
 +    * Původní, pražská i stanfordská anotace
 +    * Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát
 +  * Vyrobit patche pro non-Free treebanky také vyrobit patche, tj. CoNLL soubory s vyplněnými zadními sloupci plus jednoduchý skript, který to slepí s původními daty a cestou zkontroluje, že ta původní data vypadají důvěryhodně
 +  * Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa
 +  * Aktualizovat web HamleDT
 +    * Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje
 +    * Podrobně popsat, "How to Get It"
 +      * Skupina treebanků "Free", které šíříme přímo my
 +      * Skupina treebanků "Easy", kde můžeme snadno odkázat na web, kde uživatel treebank získá
 +      * Skupina treebanků "Rest" (musí se někomu napsat a o data ho požádat, případně si je objednat za peníze)
 +      * Návod k použití patchů
 +      * Odkaz na návod na instalaci Treexu
 +    * Přidat reference na naše články a jasně říct, "How to cite HamleDT" (asi chceme, aby lidi citovali nejen LINDAT, ale i naše články, takže bychom měli říct, který preferujeme)
 +      * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku)
 +      * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají
 +    * Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco
 +      * Nový jazyk (slovenština)
 +      * Nová data (čeština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?), ještě něco? katalánština? španělština? Porovnat s prvním článkem!)
 +      * Stanfordské transformace
 +      * Numerous bugfixes
 +    * Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu
 +    * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa
 +  * Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no!
 +  * Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki
 +  * Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa.
 +  * Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel)
 +
 ====== Treebanks for Various Languages ====== ====== Treebanks for Various Languages ======
  

[ Back to the navigation ] [ Back to the content ]