[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:treebanks [2014/05/24 22:33]
zeman
user:zeman:treebanks [2014/05/25 09:44]
zeman Aktualizován seznam úkolů.
Line 6: Line 6:
  
   * <del>Přegenerovat Stanfordí část HamleDTa.</del>   * <del>Přegenerovat Stanfordí část HamleDTa.</del>
-  * Přegenerovat HamleDT 2.0 free+  * <del>Do archivu ''/net/projects/tectomt_shared/data/archive/hamledt/2.0_2014-05-24_treex-r12700'' zmrazit všechny podstatné soubory této verze:</del> 
-    * Původní, pražská i stanfordská anotace +    * <del>Původní, pražská i stanfordská anotace</del> 
-    * Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát +    * <del>Formáty Treex i CoNLL, pro stanfordskou anotaci navíc stanfordský formát. Každý soubor jednotlivě zagzipovat (v pracovní složce tohle zatím nemáme u stanfordských stromů)</del> 
-  Vyrobit patche pro non-Free treebankytjCoNLL soubory s vyplněnými zadními sloupci plus jednoduchý skript, který to slepí původními daty a cestou zkontroluježe ta původní data vypadají důvěryhodně +    <del>Aktuální výsledky testů pražské anotace (''make table > tests.txt'')</del> 
-  * Po všech testech zmrazit verzi 2.0 (archiv na diskua vydat ji v Lindatu (buď všechny jazykyemž pro non-free tam budou pouze patche, nebo free non-free zvlášť). Prolinkovat web Lindatu s webem HamleDTa+    * Otestovat alespoňže máme pro každý jazyk stejnou sadu souborů za každý typ/formát. 
 +    * V archivní složce rekurzivně odebrat právo zápisu. 
 +  * Připravit aktuální soubor licencíodkazy na původní treebanky jakož i na web HamleDTa: ''README.txt''. 
 +  * Vygenerovat HamleDT 2.0 free do ''/net/projects/tectomt_shared/hamledt/2.0'': 
 +    * <del>Pro 13 volných jazyků (ar, cs, da, et, fa, fi, grc, la, nl, pt, ro, sv, tazkopírovat všechny souborykteré jsme dali do archivu.</del> 
 +    * <del>Pro zbývající jazyky pouze CoNLL patche (pražská stanfordská anotace).</del> 
 +    * Opět otestovat alespoň počty a názvy souborů pro jednotlivé jazyky datové formáty. 
 +    * Místo souboru s testy vložit ''README.txt'' s licencí a odkazy (viz výše). 
 +    * Celé to zabalit do jednoho balíku ''.tar''
 +    * Asi už zrušit webový přístup k této složce. Kvůli verzi 1.0 to šlo, ale teď by měli všichni chodit přes Lindat. 
 +  * Vydat HamleDT 2.0 free v Lindatu.
   * Aktualizovat [[http://ufal.mff.cuni.cz/hamledt|web HamleDT]]   * Aktualizovat [[http://ufal.mff.cuni.cz/hamledt|web HamleDT]]
     * <del>Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje</del>     * <del>Podrobně popsat, jaké korpusy a jazyky současná verze obsahuje</del>
Line 37: Line 47:
   * Vymyslet lepší hierarchii složek na disku?   * Vymyslet lepší hierarchii složek na disku?
   * Rozšířit systém testů, aby pokrýval i stanfordskou mutaci HamleDTa.   * Rozšířit systém testů, aby pokrýval i stanfordskou mutaci HamleDTa.
 +  * Zlepšit podporu práci s CoNLL patchi. Dodat skript, který to slepí s původními daty a případně nějak pomůže u treebanků, u kterých není jasné, jak se jmenují a jak jsou uspořádané soubory, ve kterých uživatel dostal originální verzi.
   * Dotáhnout parsing HamleDTa 2.0 a popsat jeho výsledky na webu.   * Dotáhnout parsing HamleDTa 2.0 a popsat jeho výsledky na webu.
   * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa   * Vymyslet způsob, jak by se obsah webu zrcadlil v SVN, kde máme treexový kód pro HamleDTa

[ Back to the navigation ] [ Back to the content ]