Differences

This shows you the differences between two versions of the page.

--- user:zeman:treebanks [2014/04/22 15:56]
zeman HamleDT TODO
+++ user:zeman:treebanks [2014/05/26 17:28]
zeman Honza vyvěsil upoutávku dřív, než jsem mu o to stihl napsat :-)
@@ Line 3: / Line 3: @@
 .4.2014: DZ: Prošel jsem všech 30 jazyků a dal jsem jejich pražskou normalizaci alespoň částečně do pořádku. Částečně znamená, že jsem vynuloval testy na AfunNotNR, FinalPunctuation a vše kolem nekonzistentních koordinací. Samozřejmě by to chtělo dál pracovat na Auxech, interpunkci a zbytečných neprojektivitách, ale to už se v této verzi nedá zvládnout. Máme tu další související úkoly a přinejmenším některé z nich mají podle mě teď vyšší prioritu:
-  * Nahradit arabská data novými (Zdeněk je slíbil do začátku května)
+**Verze 2.0 by měla být hotová a zakonzervovaná nejpozději v pátek 23.5.2014!** V pondělí 26. začíná LREC na Islandu, kde bude Ruda tuto verzi prezentovat.
-  * Přegenerovat Stanfordí část HamleDTa, případně ji nějak otestovat (Ruda a Honza?)
-    * Vymyslet lepší hierarchii složek na disku?
+  * <del>Přegenerovat Stanfordí část HamleDTa.</del>
-  * Do jazyků s cizími písmy doplnit transliteraci – budeme se o to snažit už v této verzi?
+  * <del>Do archivu ''/net/projects/tectomt_shared/data/archive/hamledt/2.0_2014-05-24_treex-r12700'' zmrazit všechny podstatné soubory této verze:</del>
-    * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik.
+    * <del>Původní, pražská i stanfordská anotace</del>
-  * Přegenerovat HamleDT 2.0 free:
+    * <del>Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát. Každý soubor jednotlivě zagzipovat (v pracovní složce tohle zatím nemáme u stanfordských stromů)</del>
-    * Původní, pražská i stanfordská anotace
+    * <del>Aktuální výsledky testů pražské anotace (''make table > tests.txt'')</del>
-    * Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát
+    * <del>Otestovat alespoň, že máme pro každý jazyk stejnou sadu souborů za každý typ/formát.</del>
-  * Vyrobit patche pro non-Free treebanky také vyrobit patche, tj. CoNLL soubory s vyplněnými zadními sloupci plus jednoduchý skript, který to slepí s původními daty a cestou zkontroluje, že ta původní data vypadají důvěryhodně
+    * <del>V archivní složce rekurzivně odebrat právo zápisu.</del>
-  * Po všech testech zmrazit verzi 2.0 (archiv na disku) a vydat ji v Lindatu (buď všechny jazyky, přičemž pro non-free tam budou pouze patche, nebo free a non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa
+  * <del>Připravit aktuální soubor s licencí, odkazy na původní treebanky jakož i na web HamleDTa: ''README.txt''.</del>
-  * Aktualizovat web HamleDT
+  * Vygenerovat HamleDT 2.0 free do ''/net/projects/tectomt_shared/hamledt/2.0'':
-    * Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje
+    * <del>Pro 13 volných jazyků (ar, cs, da, et, fa, fi, grc, la, nl, pt, ro, sv, ta) zkopírovat všechny soubory, které jsme dali do archivu.</del>
-    * Podrobně popsat, "How to Get It"
+    * <del>Pro zbývající jazyky pouze CoNLL patche (pražská i stanfordská anotace).</del>
-      * Skupina treebanků "Free", které šíříme přímo my
+    * <del>Opět otestovat alespoň počty a názvy souborů pro jednotlivé jazyky a datové formáty.</del>
-      * Skupina treebanků "Easy", kde můžeme snadno odkázat na web, kde uživatel treebank získá
+    * <del>Místo souboru s testy vložit ''README.txt'' s licencí a odkazy (viz výše).</del>
-      * Skupina treebanků "Rest" (musí se někomu napsat a o data ho požádat, případně si je objednat za peníze)
+    * <del>Rekurzivně odebrat právo zápisu.</del>
-      * Návod k použití patchů
+    * <del>Celé to zabalit do jednoho balíku ''hamledt-2.0-free.tar''.</del>
-      * Odkaz na návod na instalaci Treexu
+    * Asi už zrušit webový přístup k této složce. Kvůli verzi 1.0 to šlo, ale teď by měli všichni chodit přes Lindat.
-    * Přidat reference na naše články a jasně říct, "How to cite HamleDT" (asi chceme, aby lidi citovali nejen LINDAT, ale i naše články, takže bychom měli říct, který preferujeme)
+  * <del>Vydat HamleDT 2.0 free v Lindatu.</del>
-      * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku)
+  * Aktualizovat [[http://ufal.mff.cuni.cz/hamledt|web HamleDT]]
-      * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají
+    * <del>Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje</del>
-    * Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco
+    * <del>Podrobně popsat, "How to Get It"</del>
-      * Nový jazyk (slovenština)
+      * <del>Skupina treebanků "Free", které šíříme přímo my</del>
-      * Nová data (čeština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?), ještě něco? katalánština? španělština? Porovnat s prvním článkem!)
+      * <del>Skupina treebanků "Easy", kde můžeme snadno odkázat na web, kde uživatel treebank získá</del>
-      * Stanfordské transformace
+      * <del>Skupina treebanků "Rest" (musí se někomu napsat a o data ho požádat, případně si je objednat za peníze)</del>
-      * Numerous bugfixes
+      * <del>Odkaz na návod na instalaci Treexu</del>
-    * Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu
+      * <del>Návod k použití patchů</del>
-    * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa
+    * <del>Výrazná sekce What's New: HamleDT 2.0 / Stanford nebo tak něco</del>
-  * Nezapomenout inzerovat HamleDT 2.0 v corpora@uib.no!
+      * <del>Nový jazyk (slovenština); kromě toho estonština byla přeřazena do skupiny Free.</del>
+      * <del>Nová data (čeština, hindština, doufejme arabština, pak taky asi angličtina (původně jsme psali o 2009?). Porovnat s prvním článkem!)</del>
+      * <del>Stanfordské transformace</del>
+      * <del>Numerous bugfixes</del>
+    * <del>Ve spolupráci s Honzou Ptáčkem vyrobit i grafickou upoutávku na titulní stranu</del>
+  * <del>Inzerovat HamleDT 2.0 v corpora@uib.no!</del>
+  * <del>Inzerovat na ufal-l (tam včetně místní cesty k neveřejným datům)</del>
+  * <del>Inzerovat na facebookové stránce ÚFALu</del>
   * Přidat odkazy na HamleDT na všechna relevantní místa (zejména ke všem jazykům) do ACL Wiki
+Odloženo na dobu po vydání HamleDTa 2.0:
+  * Po LRECu 2014 doplnit referenci na nový článek a na webu z něj udělat ten hlavní "how to cite".
+    * K odkazům na články dodat také odkazy na PDF a BibTeX.
+    * Hodila by se i podrobnější dokumentace obsahu treebanků a harmonizačního procesu. Pokud to nestihneme, tak alespoň tabulka afunů s vysvětlivky (v podstatě už ji máme v islandském článku)
+    * Dan musí dodělat v Bibliu značkování publikací, aby bylo možné na stránky HamleDTa vygenerovat seznam všech publikací, které se HamleDTa týkají
+  * Vymyslet lepší hierarchii složek na disku?
+  * Rozšířit systém testů, aby pokrýval i stanfordskou mutaci HamleDTa.
+  * Zlepšit podporu práci s CoNLL patchi. Dodat skript, který to slepí s původními daty a případně nějak pomůže u treebanků, u kterých není jasné, jak se jmenují a jak jsou uspořádané soubory, ve kterých uživatel dostal originální verzi.
+  * Dotáhnout parsing HamleDTa 2.0 a popsat jeho výsledky na webu.
+  * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa
+  * Do jazyků s cizími písmy doplnit transliteraci.
+    * Pro některou z příštích verzí zvažujeme přidat automatický a zarovnaný překlad od Googlu, tak bychom transliteraci mohli odložit na stejný okamžik.
   * Přidat HamleDT do (aktualizovat v) PML-TQ. Dořešit přístup pro nepřihlášené vs. přihlášené uživatele. Odkázat na to ze stránek HamleDTa.
   * Zavést verzování dat, dotáhnout pravidelné automatické regresní testování (cron-diff, Dan má zatím první nástřel)
+    * Zařídit posílání e-mailů a automatické mazání výstupů, ve kterých nebyl zjištěn žádný rozdíl. Jinak se rychle zaplní disk, každou noc tam přibude několik gigabajtů.
+  * Vytvořit webovou službu (např. scénář v rámci Treex::Web), s jejíž pomocí si uživatel bude moci normalizovat nebo transformovat svoje data, aniž by si musel nainstalovat Treex u sebe. Podmínit to nějakým souhlasem, že smíme zpracovat jeho data.
+  * Nahradit arabská data novými (Zdeněk je slíbil do začátku května)
+    * Aktualizace 19. května: Zdeněk to nestihne. Znamená to, že v 99 % vět je alespoň jeden uzel, který nemá vyplněné lemma nebo značku nebo obojí. Nemám spočítané přímo procento všech uzlů, ale bude taky velmi vysoké. Rozhodně to není tak, že by v každé větě byl jen jeden uzel vadný.
+    * Bohužel teď nemáme moc možností, co s tím. Stará data z CoNLL 2007 byla mizerná, protože tam chyběly hodnoty is_member. K nim se vracet nechci. S novými daty nedokážu ve zbývajícím čase nic pořádného udělat, to bude urgentní TODO po vydání HamleDTa 2.0. Vynechat arabštinu taky nechci, je to jeden z těch volných jazyků a v článku jsme ho slíbili. Takže to prostě vydáme v tom stavu, ve kterém to je, nedá se nic dělat.
+    * Konečné rozhodnutí pro HamleDT 2.0: vrátil jsem se k PADT r349, z ní jsem do HamleDTa zařadil jen ty věty, ve kterých všechny uzly měly vyplněný afun. Pro další verze HamleDTa musíme nejdříve dotáhnout do přijatelného stavu samotné PADT.
 ====== Treebanks for Various Languages ======

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences