This is an old revision of the document!
Table of Contents
Motivace
Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo neco provedeno, jsou rozdelena do tri skupin (rikam jim varky;-). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde u sebe). Az tuto dokumentaci dokoncim, tak s ni budou seznameni vsichni ti, kteri si informace zde uvedene zaslouzi znat;-))
Data
- VARKA
- Popis dat
- 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire
- seznam souboru varka_1_soubory.txt
- schema pro t-soubory:
tdata-schema-bh.xml
- Anotace ceho
- rozsirena koreference
- Anotator
- Lucka
- Dokumentace
- Hajicova, Hladka, Kucova: An annotated corpus as a test bed for discourse structure analysis. In Proceedings of the Workshop on Constraints in Discourse. National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006. (salienceirsko06.pdf)
- VARKA
- Popis dat
- 9 souboru nahodne vybranych z PDT 2.0
- seznam souboru varka_2_soubory.txt
- schema pro t-soubory:
tdata-schema-bridging.xml
- Anotace ceho
- bridging anafora
- Anotator
- Lucka, predano Anje
- Dokumentace
- …
- VARKA
- Popis dat
- vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka)
- seznam souboru varka_3_soubory.txt
- Anotace ceho
- zatim nezpracovano
- Anotator
- nachystano puvodne pro Lucku, predano Anje
- Dokumentace
- …
- Bonus
- Popis dat
- “Dvorak”, uryvek z Veseleho snu o Dvorakovi J. Skvoreckeho (41 vet, dvoraksentencesencz.pdf)
- 'raw' text prosel temito procedurami
- run-it-all ## AUTOMATICKA procedura z PDT 2.0 (tokenizace, tagger, parser, konverze do t-souboru)
- na t-datech zapracovala Jana Vejvodova (oprava, doplneni nodetype)
- Anotace ceho
- tfc
- rozsirena koreference
- Anotator
- Bara Smrckova
- Lucka
- Dokumentace
- …
Nastroje
- Ma nekdo nastroj, jak dostat ACV anotaci k uzlum v tektogramatickych stromech?
Adresar
Bylo by dobre soustredit data, ktera se anotuji z pohledu ACV a koreference, na jednom miste. Pisi zcela zamerne pouze o datech, protoze ty jsou v tomto okamziku primarni. Nasledne se muzeme pobavit o jemnejsim deleni adresare i vzhledem k naplni projektu, ktery podavala Sarka na GACR.
Nyni tedy navrhuji
- v adresari
/net/projects/
zalozit adresar se jmenem (treba)ACV_Coref
(nemela jsi, Sarko, vymysleny akronym pro ten GACR projekt?) a jeho podadresarData/
; nadale budu tedy brat jako domovsky adresar/net/projects/ACV_Coref/Data
a cesty budu uvadet relativne k tomuto adresari. Zalozeni projektoveho adresare musi jit pres Milana. Pro zacatek navrhuji, aby prava pristupu do tohoto adresare meli jen zainteresovani - viz nize. mkdir Coref/
- protoze soubory, na kterych uz se pracovalo, bude potreba zrevidovat, tak by tento adresar obsahoval podadresare odpovidajici jednotlivym varkam (viz vyse), protomkdir Coref/varka_1_A_Dvorak/
mkdir Coref/varka_2/
mkdir Coref/varka_3/
Adresare varka*
mam uz nachystane.
mkdir ACV/
- k obsahu nemam co rict - prosim doplnte!
Komu urceno
Eva Hajicova
Bara Hladka
Anja Nedoluzko
Petr Nemec
Pavel Schlesinger
Mirek Tynovsky
Sarka Zikanova
…