[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:hladka:data [2007/05/04 09:08]
hladka
user:hladka:data [2007/05/07 19:36]
hladka
Line 1: Line 1:
-**Motivace**: dat do poradku vse kolem dat, na kterych zacala pracovat Lucka ve smyslu rozsirene koreference (vzhledem k PDT 2.0)+==== Motivace ====
  
-**Data**: pracuje se soubory z PDT 2.0+== Neformalne ==
  
-   varka+Je to skoro rok a pul, co se vzalo nekolik t-souboru z PDT 2.0 a provedla se na nich studie anotace rozsirene koreference (vzhledem k PDT 2.0), ktera se vyuzila pro sledovani aktivovanosti objektu diskurzu. Pak se vzaly zase jine soubory z PDT 2.0 a provedla se na nich studie anotace bridging anafory. Mezi tim se anotovala data z PDT 2.0 z pohledu ACV. Protoze algoritmus pro sledovani aktivovanosti potrebuje informaci o T a F, tak se nachystaly pro dalsi anotaci rozsirene koreference soubory, ktere jiz prosly anotaci ACV. Na tyto soubory zatim nedoslo. 
 + 
 +Po Lucce prevzala anotaci koreference Anja. Po nekolika e-mailech jsme s Anjou dokonvergovaly k tomu, ze je jasne, ktere soubory a jak byly zpracovane, a ze je lze otevrit v TrEdu (tj. mj. ze sedi t-schemata). Aby k podobnemu patrani uz v budoucnu nedoslo, tak vznikla dokumentace - viz dale.  
 + 
 +== Formalne == 
 + 
 +Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo bud jiz neco provedeno, nebo byla pouze nachystana, jsou rozdelena do tri skupin (rikam jim varky;-)). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde). 
 + 
 + Protoze anotace koreference jde ruku v ruce s anotaci ACV, tak v dokumentaci myslim i na spolecne uloziste vysledku obou anotaci. 
 + 
 +==== Data ==== 
 + 
 +   - VARKA
       - **Popis dat**       - **Popis dat**
-         vyber 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire+         * 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire 
 +         * seznam souboru {{user:hladka:varka_1_soubory.txt|}} 
 +         * schema pro t-soubory: ''tdata-schema-bh.xml''
       - **Anotace ceho**       - **Anotace ceho**
          * rozsirena koreference          * rozsirena koreference
-      - **Kdo anotoval**+      - **Anotator**
          * Lucka          * Lucka
       - **Dokumentace**       - **Dokumentace**
-         clanek Hajicova, Hladka, Kucova, .... +         * Hajicova, Hladka, Kucova: An annotated corpus as a test bed for discourse structure analysis. In Proceedings of the Workshop on Constraints in Discourse. National University of IrelandMaynooth, Ireland, pp82-89, 2006({{user:hladka:salienceirsko06.pdf|}}) 
-   varka +   VARKA 
-      - **Popis dat** bridging anotace, Lucka +      - **Popis dat**  
-      cmpr9410_028.t.gz +         9 souboru nahodne vybranych z PDT 2.0 
-      cmpr9413_006.t.gz +         seznam souboru {{user:hladka:varka_2_soubory.txt|}} 
-      lnd94103_087.t.gz +         schema pro t-soubory: ''tdata-schema-bridging.xml'' 
-      ln94204_107.t.gz +       - **Anotace ceho*
-      ln94207_76.t.gz +         bridging anafora 
-      * ln94207_84.t.gz +      - **Anotator*
-      ln94208_11.t.gz +         Lucka, predano Anje 
-      * ln94210_95.t.gz +      - **Dokumentace*
-      ln95047_061.t.gz +         * ... 
-   varka+   VARKA
       - **Popis dat**       - **Popis dat**
 +         * vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka)
 +         * seznam souboru {{user:hladka:varka_3_soubory.txt|}}
 +      - **Anotace ceho**
 +         * zatim nezpracovano
 +      - **Anotator**
 +         * nachystano puvodne pro Lucku, predano Anje
 +      - **Dokumentace**
 +         * ...
 +   - Bonus
 +      - **Popis dat**
 +         * "Dvorak", uryvek z Veseleho snu o Dvorakovi J. Skvoreckeho (41 vet, {{user:hladka:DvorakSentencesENCZ.pdf|}})
 +         * 'raw' text prosel temito procedurami
 +            * run-it-all ## AUTOMATICKA procedura z PDT 2.0 (tokenizace, tagger, parser, konverze do t-souboru)
 +            * na t-datech zapracovala Jana Vejvodova (oprava, doplneni nodetype)
 +      - **Anotace ceho**
 +         * tfc
 +         * rozsirena koreference
 +      - **Anotator**
 +         * Bara Smrckova
 +         * Lucka
 +      - **Dokumentace**
 +         * ...   
 +
 +==== Nastroje ====
 +
 +   * Ma nekdo nastroj, jak dostat ACV anotaci k uzlum v tektogramatickych stromech?
 +
 +==== Adresar ====
 +
 +Bylo by dobre soustredit data, ktera se anotuji z pohledu ACV a koreference, na jednom miste. Pisi zcela zamerne pouze o datech, protoze ty jsou v tomto okamziku primarni. Nasledne se muzeme pobavit o jemnejsim deleni adresare i vzhledem k naplni projektu, ktery podavala Sarka na GACR.
 +
 +Nyni tedy navrhuji
 +
 +   - v adresari ''/net/projects/'' zalozit adresar se jmenem (treba) ''ACV_Coref'' (nemela jsi, Sarko, vymysleny hezci akronym pro ten GACR projekt?) a jeho podadresar ''Data/''; nadale budu tedy brat jako domovsky adresar ''/net/projects/ACV_Coref/Data'' a cesty budu uvadet relativne k tomuto adresari. Zalozeni projektoveho adresare musi jit pres Milana. Pro zacatek navrhuji, aby prava pristupu do tohoto adresare meli jen zainteresovani - viz nize.
 +      - ''mkdir Coref/'' - protoze soubory, na kterych uz se pracovalo, bude potreba zrevidovat, tak by tento adresar obsahoval podadresare odpovidajici jednotlivym varkam (viz vyse), proto (adresare ''varka*'' mam jiz nachystane.)
 +         * ''mkdir Coref/varka_1_A_Dvorak/''
 +         * ''mkdir Coref/varka_2/''
 +         * ''mkdir Coref/varka_3/''
 +      - ''mkdir ACV/'' - k obsahu nemam co rict - prosim doplnte!
 +   - s [[http://en.wikipedia.org/wiki/Subversion_%28software%29|SVN]] (prip. CVS) nemam vubec zadnou zkusenost, ale jednoznacne jsem pro to, abychom s tim pracovali.
 +   - nevim, jestli ma cenu stale za sebou tahat ''[wma]-soubory'', protoze predpokladam, ze se s nimi na urovni ACV a koreferencnich anotaci nic deje. Proto by mozna stacilo vest linky do prislusneho podadresare projektoveho adresare PDT (''/net/projects/pdt/pdt20/data/full/tamw''). Stalo by za to se poptat, jak to resi v jinych projektech. 
 +
 +==== Komu urceno ====
 +Eva Hajicova
 +Bara Hladka
 +Anja Nedoluzko
 +Petr Nemec
 +Pavel Schlesinger
 +Mirek Tynovsky
 +Sarka Zikanova
 +...

[ Back to the navigation ] [ Back to the content ]