[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:zeman:treebanks [2014/05/24 22:33]
zeman
user:zeman:treebanks [2014/07/17 17:43] (current)
zeman Croatian.
Line 1: Line 1:
-====== HamleDT 2.0 TO DO ====== 
- 
-22.4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, ale to už se v této verzi nedá zvládnout. Máme tu další související úkoly a přinejmenším některé z nich mají podle mě teď vyšší prioritu: 
- 
-**Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014!** V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat. 
- 
-  * <del>Přegenerovat Stanfordí část HamleDTa.</del> 
-  * Přegenerovat HamleDT 2.0 free: 
-    * Původní, pražská i stanfordská anotace 
-    * Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát 
-  * Vyrobit patche pro non-Free treebanky, tj. CoNLL soubory s vyplněnými zadními sloupci plus jednoduchý skript, který to slepí s původními daty a cestou zkontroluje, že ta původní data vypadají důvěryhodně 
-  * Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa 
-  * Aktualizovat [[http://ufal.mff.cuni.cz/hamledt|web HamleDT]] 
-    * <del>Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje</del> 
-    * Podrobně popsat, "How to Get It" 
-      * <del>Skupina treebanků "Free", které šíříme přímo my</del> 
-      * <del>Skupina treebanků "Easy", kde můžeme snadno odkázat na web, kde uživatel treebank získá</del> 
-      * <del>Skupina treebanků "Rest" (musí se někomu napsat a o data ho požádat, případně si je objednat za peníze)</del> 
-      * Návod k použití patchů 
-      * <del>Odkaz na návod na instalaci Treexu</del> 
-    * <del>Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco</del> 
-      * <del>Nový jazyk (slovenština); kromě toho estonština byla přeřazena do skupiny Free.</del> 
-      * <del>Nová data (čeština, hindština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?). Porovnat s prvním článkem!)</del> 
-      * <del>Stanfordské transformace</del> 
-      * <del>Numerous bugfixes</del> 
-    * Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu 
-    * Inzerovat na facebookové stránce ÚFALu 
-  * Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no! 
-  * Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki 
- 
-Odloženo na dobu po vydání HamleDTa 2.0: 
- 
-  * Po LRECu 2014 doplnit referenci na nový článek a na webu z něj udělat ten hlavní "how to cite". 
-    * K odkazům na články dodat také odkazy na PDF a BibTeX. 
-    * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku) 
-    * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají 
-  * Vymyslet lepší hierarchii složek na disku? 
-  * Rozšířit systém testů, aby pokrýval i stanfordskou mutaci HamleDTa. 
-  * Dotáhnout parsing HamleDTa 2.0 a popsat jeho výsledky na webu. 
-  * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa 
-  * Do jazyků s cizími písmy doplnit transliteraci. 
-    * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik. 
-  * Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa. 
-  * Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel) 
-  * Vytvořit webovou službu (např. scénář v rámci Treex::Web), s jejíž pomocí si uživatel bude moci normalizovat nebo transformovat svoje data, aniž by si musel nainstalovat Treex u sebe. Podmínit to nějakým souhlasem, že smíme zpracovat jeho data. 
-  * Nahradit arabská data novými (Zdeněk je slíbil do začátku května) 
-    * Aktualizace 19. května: Zdeněk to nestihne. Znamená to, že v 99 % vět je alespoň jeden uzel, který nemá vyplněné lemma nebo značku nebo obojí. Nemám spočítané přímo procento všech uzlů, ale bude taky velmi vysoké. Rozhodně to není tak, že by v každé větě byl jen jeden uzel vadný. 
-    * Bohužel teď nemáme moc možností, co s tím. Stará data z CoNLL 2007 byla mizerná, protože tam chyběly hodnoty is_member. K nim se vracet nechci. S novými daty nedokážu ve zbývajícím čase nic pořádného udělat, to bude urgentní TODO po vydání HamleDTa 2.0. Vynechat arabštinu taky nechci, je to jeden z těch volných jazyků a v článku jsme ho slíbili. Takže to prostě vydáme v tom stavu, ve kterém to je, nedá se nic dělat. 
-    * Konečné rozhodnutí pro HamleDT 2.0: vrátil jsem se k PADT r349, z ní jsem do HamleDTa zařadil jen ty věty, ve kterých všechny uzly měly vyplněný afun. Pro další verze HamleDTa musíme nejdříve dotáhnout do přijatelného stavu samotné PADT. 
- 
 ====== Treebanks for Various Languages ====== ====== Treebanks for Various Languages ======
  
-http://ufal.mff.cuni.cz/hamledt/+http://ufal.mff.cuni.cz/hamledt/ nebo [[hamledt|HamleDT ve Wiki]]
  
   * [[user:zeman:treebanks:grc|Ancient Greek (grc)]]   * [[user:zeman:treebanks:grc|Ancient Greek (grc)]]
Line 59: Line 9:
   * [[user:zeman:treebanks:bg|Bulgarian (bg)]]   * [[user:zeman:treebanks:bg|Bulgarian (bg)]]
   * [[user:zeman:treebanks:ca|Catalan (ca)]]   * [[user:zeman:treebanks:ca|Catalan (ca)]]
 +  * [[user:zeman:treebanks:hr|Croatian (hr)]]
   * [[user:zeman:treebanks:cs|Czech (cs)]]   * [[user:zeman:treebanks:cs|Czech (cs)]]
   * [[user:zeman:treebanks:da|Danish (da)]]   * [[user:zeman:treebanks:da|Danish (da)]]

[ Back to the navigation ] [ Back to the content ]