[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:data [2007/05/04 09:13]
hladka
user:hladka:data [2007/05/07 19:36] (current)
hladka
Line 1: Line 1:
-**Motivace**: dat do poradku vse kolem dat, na kterych zacala pracovat Lucka ve smyslu rozsirene koreference (vzhledem k PDT 2.0)+==== Motivace ====
  
-**Data**: pracuje se soubory z PDT 2.0+== Neformalne ==
  
-   varka+Je to skoro rok a pul, co se vzalo nekolik t-souboru z PDT 2.0 a provedla se na nich studie anotace rozsirene koreference (vzhledem k PDT 2.0), ktera se vyuzila pro sledovani aktivovanosti objektu diskurzu. Pak se vzaly zase jine soubory z PDT 2.0 a provedla se na nich studie anotace bridging anafory. Mezi tim se anotovala data z PDT 2.0 z pohledu ACV. Protoze algoritmus pro sledovani aktivovanosti potrebuje informaci o T a F, tak se nachystaly pro dalsi anotaci rozsirene koreference soubory, ktere jiz prosly anotaci ACV. Na tyto soubory zatim nedoslo. 
 + 
 +Po Lucce prevzala anotaci koreference Anja. Po nekolika e-mailech jsme s Anjou dokonvergovaly k tomu, ze je jasne, ktere soubory a jak byly zpracovane, a ze je lze otevrit v TrEdu (tj. mj. ze sedi t-schemata). Aby k podobnemu patrani uz v budoucnu nedoslo, tak vznikla dokumentace - viz dale.  
 + 
 +== Formalne == 
 + 
 +Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo bud jiz neco provedeno, nebo byla pouze nachystana, jsou rozdelena do tri skupin (rikam jim varky;-)). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde). 
 + 
 + Protoze anotace koreference jde ruku v ruce s anotaci ACV, tak v dokumentaci myslim i na spolecne uloziste vysledku obou typu anotaci. 
 + 
 +==== Data ==== 
 + 
 +   - VARKA
       - **Popis dat**       - **Popis dat**
-         vyber 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire+         * 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire 
 +         * seznam souboru {{user:hladka:varka_1_soubory.txt|}} 
 +         * schema pro t-soubory: ''tdata-schema-bh.xml''
       - **Anotace ceho**       - **Anotace ceho**
          * rozsirena koreference          * rozsirena koreference
Line 11: Line 25:
          * Lucka          * Lucka
       - **Dokumentace**       - **Dokumentace**
-         clanek Hajicova, Hladka, Kucova.... +         * Hajicova, Hladka, Kucova: An annotated corpus as a test bed for discourse structure analysisIn Proceedings of the Workshop on Constraints in DiscourseNational University of Ireland, Maynooth, Ireland, pp. 82-89, 2006({{user:hladka:salienceirsko06.pdf|}}) 
-   varka+   VARKA
       - **Popis dat**        - **Popis dat** 
-         nahodny vyber 9 souboru z PDT 2.0 +         * 9 souboru nahodne vybranych z PDT 2.0 
-      cmpr9410_028.t.gz +         seznam souboru {{user:hladka:varka_2_soubory.txt|}} 
-      cmpr9413_006.t.gz +         schema pro t-soubory: ''tdata-schema-bridging.xml'' 
-      * lnd94103_087.t.gz +       - **Anotace ceho** 
-      * ln94204_107.t.gz +         * bridging anafora
-      * ln94207_76.t.gz +
-      * ln94207_84.t.gz +
-      * ln94208_11.t.gz +
-      * ln94210_95.t.gz +
-      * ln95047_061.t.gz +
-      - **Anotace ceho** +
-         * bridging+
       - **Anotator**       - **Anotator**
-         * Lucka+         * Lucka, predano Anje
       - **Dokumentace**       - **Dokumentace**
          * ...          * ...
-   varka+   VARKA
       - **Popis dat**       - **Popis dat**
          * vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka)          * vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka)
 +         * seznam souboru {{user:hladka:varka_3_soubory.txt|}}
       - **Anotace ceho**       - **Anotace ceho**
          * zatim nezpracovano          * zatim nezpracovano
       - **Anotator**       - **Anotator**
-         * nachystano puvodne pro Lucku, ted je ma Anja+         * nachystano puvodne pro Lucku, predano Anje
       - **Dokumentace**       - **Dokumentace**
          * ...          * ...
 +   - Bonus
 +      - **Popis dat**
 +         * "Dvorak", uryvek z Veseleho snu o Dvorakovi J. Skvoreckeho (41 vet, {{user:hladka:DvorakSentencesENCZ.pdf|}})
 +         * 'raw' text prosel temito procedurami
 +            * run-it-all ## AUTOMATICKA procedura z PDT 2.0 (tokenizace, tagger, parser, konverze do t-souboru)
 +            * na t-datech zapracovala Jana Vejvodova (oprava, doplneni nodetype)
 +      - **Anotace ceho**
 +         * tfc
 +         * rozsirena koreference
 +      - **Anotator**
 +         * Bara Smrckova
 +         * Lucka
 +      - **Dokumentace**
 +         * ...   
 +
 +==== Nastroje ====
 +
 +   * Ma nekdo nastroj, jak dostat ACV anotaci k uzlum v tektogramatickych stromech?
 +
 +==== Adresar ====
 +
 +Bylo by dobre soustredit data, ktera se anotuji z pohledu ACV a koreference, na jednom miste. Pisi zcela zamerne pouze o datech, protoze ty jsou v tomto okamziku primarni. Nasledne se muzeme pobavit o jemnejsim deleni adresare i vzhledem k naplni projektu, ktery podavala Sarka na GACR.
 +
 +Nyni tedy navrhuji
 +
 +   - v adresari ''/net/projects/'' zalozit adresar se jmenem (treba) ''ACV_Coref'' (nemela jsi, Sarko, vymysleny hezci akronym pro ten GACR projekt?) a jeho podadresar ''Data/''; nadale budu tedy brat jako domovsky adresar ''/net/projects/ACV_Coref/Data'' a cesty budu uvadet relativne k tomuto adresari. Zalozeni projektoveho adresare musi jit pres Milana. Pro zacatek navrhuji, aby prava pristupu do tohoto adresare meli jen zainteresovani - viz nize.
 +      - ''mkdir Coref/'' - protoze soubory, na kterych uz se pracovalo, bude potreba zrevidovat, tak by tento adresar obsahoval podadresare odpovidajici jednotlivym varkam (viz vyse), proto (adresare ''varka*'' mam jiz nachystane.)
 +         * ''mkdir Coref/varka_1_A_Dvorak/''
 +         * ''mkdir Coref/varka_2/''
 +         * ''mkdir Coref/varka_3/''
 +      - ''mkdir ACV/'' - k obsahu nemam co rict - prosim doplnte!
 +   - s [[http://en.wikipedia.org/wiki/Subversion_%28software%29|SVN]] (prip. CVS) nemam vubec zadnou zkusenost, ale jednoznacne jsem pro to, abychom s tim pracovali.
 +   - nevim, jestli ma cenu stale za sebou tahat ''[wma]-soubory'', protoze predpokladam, ze se s nimi na urovni ACV a koreferencnich anotaci nic deje. Proto by mozna stacilo vest linky do prislusneho podadresare projektoveho adresare PDT (''/net/projects/pdt/pdt20/data/full/tamw''). Stalo by za to se poptat, jak to resi v jinych projektech. 
 +
 +==== Komu urceno ====
 +Eva Hajicova
 +Bara Hladka
 +Anja Nedoluzko
 +Petr Nemec
 +Pavel Schlesinger
 +Mirek Tynovsky
 +Sarka Zikanova
 +...

[ Back to the navigation ] [ Back to the content ]