user:hladka:data [ufal wiki]

This is an old revision of the document!

Motivace
Data
Nastroje
Adresar
Komu urceno

Motivace

Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo neco provedeno, jsou rozdelena do tri skupin (rikam jim varky;-). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde u sebe). Az tuto dokumentaci dokoncim, tak s ni budou seznameni vsichni ti, kteri si informace zde uvedene zaslouzi znat;-))

Data

VARKA
1. Popis dat
  - 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire
  - seznam souboru varka_1_soubory.txt
  - schema pro t-soubory: tdata-schema-bh.xml
2. Anotace ceho
  - rozsirena koreference
3. Anotator
  - Lucka
4. Dokumentace
  - Hajicova, Hladka, Kucova: An annotated corpus as a test bed for discourse structure analysis. In Proceedings of the Workshop on Constraints in Discourse. National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006. (salienceirsko06.pdf)
VARKA
1. Popis dat
  - 9 souboru nahodne vybranych z PDT 2.0
  - seznam souboru varka_2_soubory.txt
  - schema pro t-soubory: tdata-schema-bridging.xml
2. Anotace ceho
  - bridging anafora
3. Anotator
  - Lucka, predano Anje
4. Dokumentace
  - …
VARKA
1. Popis dat
  - vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka)
  - seznam souboru varka_3_soubory.txt
2. Anotace ceho
  - zatim nezpracovano
3. Anotator
  - nachystano puvodne pro Lucku, predano Anje
4. Dokumentace
  - …
Bonus
1. Popis dat
  - “Dvorak”, uryvek z Veseleho snu o Dvorakovi J. Skvoreckeho (41 vet, dvoraksentencesencz.pdf)
  - 'raw' text prosel temito procedurami
    - run-it-all ## AUTOMATICKA procedura z PDT 2.0 (tokenizace, tagger, parser, konverze do t-souboru)
    - na t-datech zapracovala Jana Vejvodova (oprava, doplneni nodetype)
2. Anotace ceho
  - tfc
  - rozsirena koreference
3. Anotator
  - Bara Smrckova
  - Lucka
4. Dokumentace
  - …

Nastroje

Ma nekdo nastroj, jak dostat ACV anotaci k uzlum v tektogramatickych stromech?

Adresar

Bylo by dobre soustredit data, ktera se anotuji z pohledu ACV a koreference, na jednom miste. Pisi zcela zamerne pouze o datech, protoze ty jsou v tomto okamziku primarni. Nasledne se muzeme pobavit o jemnejsim deleni adresare i vzhledem k naplni projektu, ktery podavala Sarka na GACR.

Nyni tedy navrhuji

v adresari /net/projects/ zalozit adresar se jmenem (treba) ACV_Coref (nemela jsi, Sarko, vymysleny akronym pro ten GACR projekt?) a jeho podadresar Data/; nadale budu tedy brat jako domovsky adresar /net/projects/ACV_Coref/Data a cesty budu uvadet relativne k tomuto adresari. Zalozeni projektoveho adresare musi jit pres Milana. Pro zacatek navrhuji, aby prava pristupu do tohoto adresare meli jen zainteresovani - viz nize.
1. mkdir Coref/ - protoze soubory, na kterych uz se pracovalo, bude potreba zrevidovat, tak by tento adresar obsahoval podadresare odpovidajici jednotlivym varkam (viz vyse), proto (adresare varka* mam jiz nachystane.)
  - mkdir Coref/varka_1_A_Dvorak/
  - mkdir Coref/varka_2/
  - mkdir Coref/varka_3/
  1. mkdir ACV/ - k obsahu nemam co rict - prosim doplnte!

Komu urceno

Eva Hajicova
Bara Hladka
Anja Nedoluzko
Petr Nemec
Pavel Schlesinger
Mirek Tynovsky
Sarka Zikanova
…

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

Motivace

Data

Nastroje

Adresar

Komu urceno