HamleDT 2.0 TO DO

22.4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, ale to už se v této verzi nedá zvládnout. Máme tu další související úkoly a přinejmenším některé z nich mají podle mě teď vyšší prioritu:

Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014! V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat.

~~Přegenerovat Stanfordí část HamleDTa.~~
~~Do archivu /net/projects/tectomt_shared/data/archive/hamledt/2.0_2014-05-24_treex-r12700 zmrazit všechny podstatné soubory této verze:~~
- ~~Původní, pražská i stanfordská anotace~~
- ~~Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát. Každý soubor jednotlivě zagzipovat (v pracovní složce tohle zatím nemáme u stanfordských stromů)~~
- ~~Aktuální výsledky testů pražské anotace (make table > tests.txt)~~
- ~~Otestovat alespoň, že máme pro každý jazyk stejnou sadu souborů za každý typ/formát.~~
- ~~V archivní složce rekurzivně odebrat právo zápisu.~~
~~Připravit aktuální soubor s licencí, odkazy na původní treebanky jakož i na web HamleDTa: README.txt.~~
~~Vygenerovat HamleDT 2.0 free do /net/projects/tectomt_shared/hamledt/2.0:~~
- ~~Pro 13 volných jazyků (ar, cs, da, et, fa, fi, grc, la, nl, pt, ro, sv, ta) zkopírovat všechny soubory, které jsme dali do archivu.~~
- ~~Pro zbývající jazyky pouze CoNLL patche (pražská i stanfordská anotace).~~
- ~~Opět otestovat alespoň počty a názvy souborů pro jednotlivé jazyky a datové formáty.~~
- ~~Místo souboru s testy vložit README.txt s licencí a odkazy (viz výše).~~
- ~~Rekurzivně odebrat právo zápisu.~~
- ~~Celé to zabalit do jednoho balíku hamledt-2.0-free.tar.~~
~~Vydat HamleDT 2.0 free v Lindatu.~~
~~Aktualizovat web HamleDT~~
- ~~Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje~~
- ~~Podrobně popsat, “How to Get It”~~
  - ~~Skupina treebanků “Free”, které šíříme přímo my~~
  - ~~Skupina treebanků “Easy”, kde můžeme snadno odkázat na web, kde uživatel treebank získá~~
  - ~~Skupina treebanků “Rest” (musí se někomu napsat a o data ho požádat, případně si je objednat za peníze)~~
  - ~~Odkaz na návod na instalaci Treexu~~
  - ~~Návod k použití patchů~~
- ~~Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco~~
  - ~~Nový jazyk (slovenština); kromě toho estonština byla přeřazena do skupiny Free.~~
  - ~~Nová data (čeština, hindština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?). Porovnat s prvním článkem!)~~
  - ~~Stanfordské transformace~~
  - ~~Numerous bugfixes~~
- ~~Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu~~
- ~~Zkontrolovat a aktualizovat upoutávku na http://ufal.mff.cuni.cz/projects/corpora~~
~~Inzerovat HamleDT 2.0 v corpora@uib.no!~~
~~Inzerovat na ufal-l (tam včetně místní cesty k neveřejným datům)~~
~~Upozornit stávající uživatele HamleDTa na novou verzi~~
~~Inzerovat na facebookové stránce ÚFALu~~
~~Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki~~

Nové po vydání HamleDTa 2.0:

Dodělat normalizaci chorvatštiny (SETimes.HR) pro verzi 2.1.
Vyměnit maďarská data za nový Szeged Treebank a přeřadit maďarštinu do námi šiřitelné části (ostatní ji nemohou šířit dál, čili to je nový druh šíření) pro verzi 2.1.
Prokopis Prokopidis má zřejmě nějakou novější verzi řeckého treebanku v PML. Zkusit ji od něj získat včetně práva distribuce. Případně mu nabídnout ten reader a writer do Treexu jako protihodnotu.

Odloženo na dobu po vydání HamleDTa 2.0:

Po LRECu 2014 doplnit referenci na nový článek a na webu z něj udělat ten hlavní “how to cite”.
- ~~K odkazům na články dodat také odkazy na PDF a BibTeX.~~
- Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku)
- Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají
Dotáhnout parsing HamleDTa 2.0 a popsat jeho výsledky na webu.
- Přidat parsing stanfordské mutace.
Vymyslet lepší hierarchii složek na disku?
Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa.
Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel)
- Zařídit posílání e-mailů a automatické mazání výstupů, ve kterých nebyl zjištěn žádný rozdíl. Jinak se rychle zaplní disk, každou noc tam přibude několik gigabajtů.
Rozšířit systém testů, aby pokrýval i stanfordskou mutaci HamleDTa.
Zlepšit podporu práci s CoNLL patchi. Dodat skript, který to slepí s původními daty a případně nějak pomůže u treebanků, u kterých není jasné, jak se jmenují a jak jsou uspořádané soubory, ve kterých uživatel dostal originální verzi.
Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa
Do jazyků s cizími písmy doplnit transliteraci.
- Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik.
Vytvořit webovou službu (např. scénář v rámci Treex::Web), s jejíž pomocí si uživatel bude moci normalizovat nebo transformovat svoje data, aniž by si musel nainstalovat Treex u sebe. Podmínit to nějakým souhlasem, že smíme zpracovat jeho data.
Nahradit arabská data novými (Zdeněk je slíbil do začátku května)
- Aktualizace 19. května: Zdeněk to nestihne. Znamená to, že v 99 % vět je alespoň jeden uzel, který nemá vyplněné lemma nebo značku nebo obojí. Nemám spočítané přímo procento všech uzlů, ale bude taky velmi vysoké. Rozhodně to není tak, že by v každé větě byl jen jeden uzel vadný.
- Bohužel teď nemáme moc možností, co s tím. Stará data z CoNLL 2007 byla mizerná, protože tam chyběly hodnoty is_member. K nim se vracet nechci. S novými daty nedokážu ve zbývajícím čase nic pořádného udělat, to bude urgentní TODO po vydání HamleDTa 2.0. Vynechat arabštinu taky nechci, je to jeden z těch volných jazyků a v článku jsme ho slíbili. Takže to prostě vydáme v tom stavu, ve kterém to je, nedá se nic dělat.
- Konečné rozhodnutí pro HamleDT 2.0: vrátil jsem se k PADT r349, z ní jsem do HamleDTa zařadil jen ty věty, ve kterých všechny uzly měly vyplněný afun. Pro další verze HamleDTa musíme nejdříve dotáhnout do přijatelného stavu samotné PADT.