Table of Contents
Motivace
Neformalne
Je to skoro rok a pul, co se vzalo nekolik t-souboru z PDT 2.0 a provedla se na nich studie anotace rozsirene koreference (vzhledem k PDT 2.0), ktera se vyuzila pro sledovani aktivovanosti objektu diskurzu. Pak se vzaly zase jine soubory z PDT 2.0 a provedla se na nich studie anotace bridging anafory. Mezi tim se anotovala data z PDT 2.0 z pohledu ACV. Protoze algoritmus pro sledovani aktivovanosti potrebuje informaci o T a F, tak se nachystaly pro dalsi anotaci rozsirene koreference soubory, ktere jiz prosly anotaci ACV. Na tyto soubory zatim nedoslo.
Po Lucce prevzala anotaci koreference Anja. Po nekolika e-mailech jsme s Anjou dokonvergovaly k tomu, ze je jasne, ktere soubory a jak byly zpracovane, a ze je lze otevrit v TrEdu (tj. mj. ze sedi t-schemata). Aby k podobnemu patrani uz v budoucnu nedoslo, tak vznikla dokumentace - viz dale.
Formalne
Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo bud jiz neco provedeno, nebo byla pouze nachystana, jsou rozdelena do tri skupin (rikam jim varky;-)). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde).
Protoze anotace koreference jde ruku v ruce s anotaci ACV, tak v dokumentaci myslim i na spolecne uloziste vysledku obou typu anotaci.
Data
- VARKA
- Popis dat
- 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire
- seznam souboru varka_1_soubory.txt
- schema pro t-soubory:
tdata-schema-bh.xml
- Anotace ceho
- rozsirena koreference
- Anotator
- Lucka
- Dokumentace
- Hajicova, Hladka, Kucova: An annotated corpus as a test bed for discourse structure analysis. In Proceedings of the Workshop on Constraints in Discourse. National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006. (salienceirsko06.pdf)
- VARKA
- Popis dat
- 9 souboru nahodne vybranych z PDT 2.0
- seznam souboru varka_2_soubory.txt
- schema pro t-soubory:
tdata-schema-bridging.xml
- Anotace ceho
- bridging anafora
- Anotator
- Lucka, predano Anje
- Dokumentace
- …
- VARKA
- Popis dat
- vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka)
- seznam souboru varka_3_soubory.txt
- Anotace ceho
- zatim nezpracovano
- Anotator
- nachystano puvodne pro Lucku, predano Anje
- Dokumentace
- …
- Bonus
- Popis dat
- “Dvorak”, uryvek z Veseleho snu o Dvorakovi J. Skvoreckeho (41 vet, dvoraksentencesencz.pdf)
- 'raw' text prosel temito procedurami
- run-it-all ## AUTOMATICKA procedura z PDT 2.0 (tokenizace, tagger, parser, konverze do t-souboru)
- na t-datech zapracovala Jana Vejvodova (oprava, doplneni nodetype)
- Anotace ceho
- tfc
- rozsirena koreference
- Anotator
- Bara Smrckova
- Lucka
- Dokumentace
- …
Nastroje
- Ma nekdo nastroj, jak dostat ACV anotaci k uzlum v tektogramatickych stromech?
Adresar
Bylo by dobre soustredit data, ktera se anotuji z pohledu ACV a koreference, na jednom miste. Pisi zcela zamerne pouze o datech, protoze ty jsou v tomto okamziku primarni. Nasledne se muzeme pobavit o jemnejsim deleni adresare i vzhledem k naplni projektu, ktery podavala Sarka na GACR.
Nyni tedy navrhuji
- v adresari
/net/projects/
zalozit adresar se jmenem (treba)ACV_Coref
(nemela jsi, Sarko, vymysleny hezci akronym pro ten GACR projekt?) a jeho podadresarData/
; nadale budu tedy brat jako domovsky adresar/net/projects/ACV_Coref/Data
a cesty budu uvadet relativne k tomuto adresari. Zalozeni projektoveho adresare musi jit pres Milana. Pro zacatek navrhuji, aby prava pristupu do tohoto adresare meli jen zainteresovani - viz nize.mkdir Coref/
- protoze soubory, na kterych uz se pracovalo, bude potreba zrevidovat, tak by tento adresar obsahoval podadresare odpovidajici jednotlivym varkam (viz vyse), proto (adresarevarka*
mam jiz nachystane.)mkdir Coref/varka_1_A_Dvorak/
mkdir Coref/varka_2/
mkdir Coref/varka_3/
mkdir ACV/
- k obsahu nemam co rict - prosim doplnte!
- s SVN (prip. CVS) nemam vubec zadnou zkusenost, ale jednoznacne jsem pro to, abychom s tim pracovali.
- nevim, jestli ma cenu stale za sebou tahat
[wma]-soubory
, protoze predpokladam, ze se s nimi na urovni ACV a koreferencnich anotaci nic deje. Proto by mozna stacilo vest linky do prislusneho podadresare projektoveho adresare PDT (/net/projects/pdt/pdt20/data/full/tamw
). Stalo by za to se poptat, jak to resi v jinych projektech.
Komu urceno
Eva Hajicova
Bara Hladka
Anja Nedoluzko
Petr Nemec
Pavel Schlesinger
Mirek Tynovsky
Sarka Zikanova
…