Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:hladka:data [2007/05/04 09:30] hladka |
user:hladka:data [2007/05/07 19:36] (current) hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | **Motivace**: dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo neco provedeno, jsou rozdelena do tri skupin (rikam jim varky;-). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne maji vsichni zainteresovani taky nekde u sebe). Az tuto dokumentaci dokoncim, tak s ni budou seznameni vsichni ti, kteri si informace zde uvedene zaslouzi znat;-)) | + | ==== Motivace |
- | - varka | + | == Neformalne == |
+ | |||
+ | Je to skoro rok a pul, co se vzalo nekolik t-souboru z PDT 2.0 a provedla se na nich studie anotace rozsirene koreference (vzhledem k PDT 2.0), ktera se vyuzila pro sledovani aktivovanosti objektu diskurzu. Pak se vzaly zase jine soubory z PDT 2.0 a provedla se na nich studie anotace bridging anafory. Mezi tim se anotovala data z PDT 2.0 z pohledu ACV. Protoze algoritmus pro sledovani aktivovanosti potrebuje informaci o T a F, tak se nachystaly pro dalsi anotaci rozsirene koreference soubory, ktere jiz prosly anotaci ACV. Na tyto soubory zatim nedoslo. | ||
+ | |||
+ | Po Lucce prevzala anotaci koreference Anja. Po nekolika e-mailech jsme s Anjou dokonvergovaly k tomu, ze je jasne, ktere soubory a jak byly zpracovane, a ze je lze otevrit v TrEdu (tj. mj. ze sedi t-schemata). Aby k podobnemu patrani uz v budoucnu nedoslo, tak vznikla dokumentace - viz dale. | ||
+ | |||
+ | == Formalne == | ||
+ | |||
+ | Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo bud jiz neco provedeno, nebo byla pouze nachystana, jsou rozdelena do tri skupin (rikam jim varky;-)). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde). | ||
+ | |||
+ | | ||
+ | |||
+ | ==== Data ==== | ||
+ | |||
+ | - VARKA | ||
- **Popis dat** | - **Popis dat** | ||
- | | + | * 40 souboru z PDT 2.0, ktere byly barevne anotovany na papire |
+ | * seznam souboru {{user: | ||
+ | * schema pro t-soubory: '' | ||
- **Anotace ceho** | - **Anotace ceho** | ||
* rozsirena koreference | * rozsirena koreference | ||
Line 9: | Line 25: | ||
* Lucka | * Lucka | ||
- **Dokumentace** | - **Dokumentace** | ||
- | | + | * Hajicova, Hladka, Kucova: An annotated corpus as a test bed for discourse structure analysis. In Proceedings of the Workshop on Constraints in Discourse. National University of Ireland, Maynooth, Ireland, pp. 82-89, 2006. ({{user: |
- | | + | |
- **Popis dat** | - **Popis dat** | ||
- | | + | * 9 souboru |
- | * cmpr9410_028.t.gz | + | |
- | * cmpr9413_006.t.gz | + | |
- | * lnd94103_087.t.gz | + | |
- | * ln94204_107.t.gz | + | * bridging |
- | * ln94207_76.t.gz | + | |
- | * ln94207_84.t.gz | + | |
- | * ln94208_11.t.gz | + | |
- | * ln94210_95.t.gz | + | |
- | * ln95047_061.t.gz | + | |
- | - **Anotace ceho** | + | |
- | * bridging | + | |
- **Anotator** | - **Anotator** | ||
* Lucka, predano Anje | * Lucka, predano Anje | ||
- **Dokumentace** | - **Dokumentace** | ||
* ... | * ... | ||
- | | + | |
- **Popis dat** | - **Popis dat** | ||
* vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka) | * vyber 15 souboru z PDT 2.0, u kterych jiz bylo rucne anotovane ACV (viz Sarka) | ||
+ | * seznam souboru {{user: | ||
- **Anotace ceho** | - **Anotace ceho** | ||
* zatim nezpracovano | * zatim nezpracovano | ||
Line 37: | Line 47: | ||
- **Dokumentace** | - **Dokumentace** | ||
* ... | * ... | ||
+ | - Bonus | ||
+ | - **Popis dat** | ||
+ | * " | ||
+ | * ' | ||
+ | * run-it-all ## AUTOMATICKA procedura z PDT 2.0 (tokenizace, | ||
+ | * na t-datech zapracovala Jana Vejvodova (oprava, doplneni nodetype) | ||
+ | - **Anotace ceho** | ||
+ | * tfc | ||
+ | * rozsirena koreference | ||
+ | - **Anotator** | ||
+ | * Bara Smrckova | ||
+ | * Lucka | ||
+ | - **Dokumentace** | ||
+ | * ... | ||
+ | |||
+ | ==== Nastroje ==== | ||
+ | |||
+ | * Ma nekdo nastroj, jak dostat ACV anotaci k uzlum v tektogramatickych stromech? | ||
+ | |||
+ | ==== Adresar ==== | ||
+ | |||
+ | Bylo by dobre soustredit data, ktera se anotuji z pohledu ACV a koreference, | ||
+ | |||
+ | Nyni tedy navrhuji | ||
+ | |||
+ | - v adresari ''/ | ||
+ | - '' | ||
+ | * '' | ||
+ | * '' | ||
+ | * '' | ||
+ | - '' | ||
+ | - s [[http:// | ||
+ | - nevim, jestli ma cenu stale za sebou tahat '' | ||
+ | |||
+ | ==== Komu urceno ==== | ||
+ | Eva Hajicova | ||
+ | Bara Hladka | ||
+ | Anja Nedoluzko | ||
+ | Petr Nemec | ||
+ | Pavel Schlesinger | ||
+ | Mirek Tynovsky | ||
+ | Sarka Zikanova | ||
+ | ... |