This is an old revision of the document!

HamleDT 2.0 TO DO

22.4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, ale to už se v této verzi nedá zvládnout. Máme tu další související úkoly a přinejmenším některé z nich mají podle mě teď vyšší prioritu:

Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014! V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat.

Nahradit arabská data novými (Zdeněk je slíbil do začátku května)
- Aktualizace 19. května: Zdeněk to nestihne. Znamená to, že v 99 % vět je alespoň jeden uzel, který nemá vyplněné lemma nebo značku nebo obojí. Nemám spočítané přímo procento všech uzlů, ale bude taky velmi vysoké. Rozhodně to není tak, že by v každé větě byl jen jeden uzel vadný.
- Bohužel teď nemáme moc možností, co s tím. Stará data z CoNLL 2007 byla mizerná, protože tam chyběly hodnoty is_member. K nim se vracet nechci. S novými daty nedokážu ve zbývajícím čase nic pořádného udělat, to bude urgentní TODO po vydání HamleDTa 2.0. Vynechat arabštinu taky nechci, je to jeden z těch volných jazyků a v článku jsme ho slíbili. Takže to prostě vydáme v tom stavu, ve kterém to je, nedá se nic dělat.
Přegenerovat Stanfordí část HamleDTa, případně ji nějak otestovat (Ruda a Honza?)
- Vymyslet lepší hierarchii složek na disku?
Přegenerovat HamleDT 2.0 free:
- Původní, pražská i stanfordská anotace
- Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát
Vyrobit patche pro non-Free treebanky, tj. CoNLL soubory s vyplněnými zadními sloupci plus jednoduchý skript, který to slepí s původními daty a cestou zkontroluje, že ta původní data vypadají důvěryhodně
Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa
Aktualizovat web HamleDT
- ~~Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje~~
- Podrobně popsat, “How to Get It”
  - ~~Skupina treebanků “Free”, které šíříme přímo my~~
  - ~~Skupina treebanků “Easy”, kde můžeme snadno odkázat na web, kde uživatel treebank získá~~
  - ~~Skupina treebanků “Rest” (musí se někomu napsat a o data ho požádat, případně si je objednat za peníze)~~
  - Návod k použití patchů
  - ~~Odkaz na návod na instalaci Treexu~~
- Přidat reference na naše články a jasně říct, “How to cite HamleDT” (asi chceme, aby lidi citovali nejen LINDAT, ale i naše články, takže bychom měli říct, který preferujeme)
  - Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku)
  - Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají
- ~~Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco~~
  - ~~Nový jazyk (slovenština); kromě toho estonština byla přeřazena do skupiny Free.~~
  - ~~Nová data (čeština, hindština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?). Porovnat s prvním článkem!)~~
  - ~~Stanfordské transformace~~
  - ~~Numerous bugfixes~~
- Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu
Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no!
Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki

Odloženo do příští verze HamleDTa:

Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa
Do jazyků s cizími písmy doplnit transliteraci.
- Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik.
Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa.
Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel)
Vytvořit webovou službu (např. scénář v rámci Treex::Web), s jejíž pomocí si uživatel bude moci normalizovat nebo transformovat svoje data, aniž by si musel nainstalovat Treex u sebe. Podmínit to nějakým souhlasem, že smíme zpracovat jeho data.

Treebanks for Various Languages

To Process

Ahoj,
stáhl jsem nový španělský závislostní korpus IULA (větší než AnCora)
/net/projects/tectomt_shared/data/resources/treebanks/es

License: CC BY 3.0 (Unported)
Web: http://www.iula.upf.edu/recurs01_tbk_uk.htm
Doc: http://www.iula.upf.edu/recurs01_conll_uk.htm
Download: http://repositori.upf.edu/handle/10230/20048
Parsing: http://www.taln.upf.edu/system/files/biblio_files/ijcnlp_final_padro_et_al_2013.pdf

        state-of-the-art LAS score is 94.7 using Mate-C

sentences 42,000
tokens 590,000

The sentences have been choosed from the IULA LSP corpus, automatically annotated with POS information and manually annotated with syntactical information using the DELPH-IN environment. The resulting syntactic analysis is automatically converted to dependencies and delivered using the CONLL format.

Martin

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

HamleDT 2.0 TO DO

Treebanks for Various Languages

To Process