Differences

This shows you the differences between two versions of the page.

--- user:zeman:treebanks [2011/11/20 21:21]
zeman Jednotlivé jazyky už musely být přesunuty na samostatné stránky.
+++ user:zeman:treebanks [2014/04/23 11:43]
zeman Hindská data jsou také nová oproti HamleDT 1.0.
@@ Line 1: / Line 1: @@
+====== HamleDT 2.0 TO DO ======
+.4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, ale to už se v této verzi nedá zvládnout. Máme tu další související úkoly a přinejmenším některé z nich mají podle mě teď vyšší prioritu:
+**Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014!** V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat.
+  * Nahradit arabská data novými (Zdeněk je slíbil do začátku května)
+  * Přegenerovat Stanfordí část HamleDTa, případně ji nějak otestovat (Ruda a Honza?)
+    * Vymyslet lepší hierarchii složek na disku?
+  * Do jazyků s cizími písmy doplnit transliteraci – budeme se o to snažit už v této verzi?
+    * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik.
+  * Přegenerovat HamleDT 2.0 free:
+    * Původní, pražská i stanfordská anotace
+    * Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát
+  * Vyrobit patche pro non-Free treebanky, tj. CoNLL soubory s vyplněnými zadními sloupci plus jednoduchý skript, který to slepí s původními daty a cestou zkontroluje, že ta původní data vypadají důvěryhodně
+  * Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa
+  * Aktualizovat web HamleDT
+    * Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje
+    * Podrobně popsat, "How to Get It"
+      * Skupina treebanků "Free", které šíříme přímo my
+      * Skupina treebanků "Easy", kde můžeme snadno odkázat na web, kde uživatel treebank získá
+      * Skupina treebanků "Rest" (musí se někomu napsat a o data ho požádat, případně si je objednat za peníze)
+      * Návod k použití patchů
+      * Odkaz na návod na instalaci Treexu
+    * Přidat reference na naše články a jasně říct, "How to cite HamleDT" (asi chceme, aby lidi citovali nejen LINDAT, ale i naše články, takže bychom měli říct, který preferujeme)
+      * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku)
+      * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají
+    * Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco
+      * Nový jazyk (slovenština)
+      * Nová data (čeština, hindština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?), ještě něco? katalánština? španělština? Porovnat s prvním článkem!)
+      * Stanfordské transformace
+      * Numerous bugfixes
+    * Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu
+    * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa
+  * Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no!
+  * Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki
+  * Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa.
+  * Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel)
+  * Vytvořit webovou službu (např. scénář v rámci Treex::Web), s jejíž pomocí si uživatel bude moci normalizovat nebo transformovat svoje data, aniž by si musel nainstalovat Treex u sebe. Podmínit to nějakým souhlasem, že smíme zpracovat jeho data.
 ====== Treebanks for Various Languages ======
+http://ufal.mff.cuni.cz/hamledt/
+  * [[user:zeman:treebanks:grc|Ancient Greek (grc)]]
   * [[user:zeman:treebanks:ar|Arabic (ar)]]
-  * [[user:zeman:treebanks:bg|Bulgarian (bg)]]
+  * [[user:zeman:treebanks:eu|Basque (eu)]]
   * [[user:zeman:treebanks:bn|Bengali (bn)]]
+  * [[user:zeman:treebanks:bg|Bulgarian (bg)]]
   * [[user:zeman:treebanks:ca|Catalan (ca)]]
   * [[user:zeman:treebanks:cs|Czech (cs)]]
   * [[user:zeman:treebanks:da|Danish (da)]]
+  * [[user:zeman:treebanks:nl|Dutch (nl)]]
+  * [[user:zeman:treebanks:en|English (en)]]
+  * [[user:zeman:treebanks:et|Estonian (et)]]
+  * [[user:zeman:treebanks:fi|Finnish (fi)]]
   * [[user:zeman:treebanks:de|German (de)]]
   * [[user:zeman:treebanks:el|Greek (el)]]
-  * [[user:zeman:treebanks:en|English (en)]]
+  * [[user:zeman:treebanks:hi|Hindi (hi)]]
+  * [[user:zeman:treebanks:hu|Hungarian (hu)]]
+  * [[user:zeman:treebanks:it|Italian (it)]]
+  * [[user:zeman:treebanks:ja|Japanese (ja)]]
+  * [[user:zeman:treebanks:la|Latin (la)]]
+  * [[user:zeman:treebanks:fa|Persian (fa)]]
+  * [[user:zeman:treebanks:pt|Portuguese (pt)]]
+  * [[user:zeman:treebanks:ro|Romanian (ro)]]
+  * [[user:zeman:treebanks:ru|Russian (ru)]]
+  * [[user:zeman:treebanks:sk|Slovak (sk)]]
+  * [[user:zeman:treebanks:sl|Slovene (sl)]]
+  * [[user:zeman:treebanks:es|Spanish (es)]]
+  * [[user:zeman:treebanks:sv|Swedish (sv)]]
+  * [[user:zeman:treebanks:ta|Tamil (ta)]]
+  * [[user:zeman:treebanks:te|Telugu (te)]]
+  * [[user:zeman:treebanks:tr|Turkish (tr)]]
+===== To Process =====
+Ahoj,
+stáhl jsem nový španělský závislostní korpus IULA (větší než AnCora)
+/net/projects/tectomt_shared/data/resources/treebanks/es
+License:  CC BY 3.0 (Unported)
+Web:      http://www.iula.upf.edu/recurs01_tbk_uk.htm
+Doc:      http://www.iula.upf.edu/recurs01_conll_uk.htm
+Download: http://repositori.upf.edu/handle/10230/20048
+Parsing:  http://www.taln.upf.edu/system/files/biblio_files/ijcnlp_final_padro_et_al_2013.pdf
+          state-of-the-art LAS score is 94.7 using Mate-C
+sentences  42,000
+tokens    590,000
+The sentences have been choosed from the IULA LSP corpus, automatically annotated with POS information and manually annotated with syntactical information using the DELPH-IN environment. The resulting syntactic analysis is automatically converted to dependencies and delivered using the CONLL format.
+Martin

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences