[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:data [2007/05/07 18:51]
hladka
user:hladka:data [2007/05/07 19:36] (current)
hladka
Line 1: Line 1:
 ==== Motivace ==== ==== Motivace ====
  
-Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo neco provedeno, jsou rozdelena do tri skupin (rikam jim varky;-). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde u sebe). Az tuto dokumentaci dokoncim, tak s ni budou seznameni vsichni ti, kteri si informace zde uvedene zaslouzi znat;-))+== Neformalne == 
 + 
 +Je to skoro rok a pul, co se vzalo nekolik t-souboru z PDT 2.0 a provedla se na nich studie anotace rozsirene koreference (vzhledem k PDT 2.0), ktera se vyuzila pro sledovani aktivovanosti objektu diskurzu. Pak se vzaly zase jine soubory z PDT 2.0 a provedla se na nich studie anotace bridging anafory. Mezi tim se anotovala data z PDT 2.0 z pohledu ACV. Protoze algoritmus pro sledovani aktivovanosti potrebuje informaci o T a F, tak se nachystaly pro dalsi anotaci rozsirene koreference soubory, ktere jiz prosly anotaci ACV. Na tyto soubory zatim nedoslo. 
 + 
 +Po Lucce prevzala anotaci koreference Anja. Po nekolika e-mailech jsme s Anjou dokonvergovaly k tomu, ze je jasne, ktere soubory a jak byly zpracovane, a ze je lze otevrit v TrEdu (tj. mj. ze sedi t-schemata). Aby k podobnemu patrani uz v budoucnu nedoslo, tak vznikla dokumentace - viz dale.  
 + 
 +== Formalne == 
 + 
 +Dat do poradku vse kolem dat, na kterych se zacala anotovat rozsirena koreference (vzhledem k PDT 2.0) a zacalo se smerovat k bridging anafore. Data, na kterych bylo bud jiz neco provedeno, nebo byla pouze nachystana, jsou rozdelena do tri skupin (rikam jim varky;-)). Pro kazdou varku jsou uvedeny udaje, ktere varku jednoznacne charakterizuji. Vsechny soubory, o kterych se pise, mam zatim lokalne u sebe (i kdyz je vlastne asi maji nekteri zainteresovani taky nekde). 
 + 
 + Protoze anotace koreference jde ruku v ruce s anotaci ACV, tak v dokumentaci myslim i na spolecne uloziste vysledku obou typu anotaci.
  
 ==== Data ==== ==== Data ====
Line 62: Line 72:
 Nyni tedy navrhuji Nyni tedy navrhuji
  
-   - v adresari ''/net/projects/'' zalozit adresar se jmenem (treba) ''ACV_Coref'' (nemela jsi, Sarko, vymysleny akronym pro ten GACR projekt?) a jeho podadresar ''Data''; nadale budu tedy brat jako domovsky adresar ''/net/projects/ACV_Coref/Data'' a cesty budu uvadet relativne k tomuto adresari +   - v adresari ''/net/projects/'' zalozit adresar se jmenem (treba) ''ACV_Coref'' (nemela jsi, Sarko, vymysleny hezci akronym pro ten GACR projekt?) a jeho podadresar ''Data/''; nadale budu tedy brat jako domovsky adresar ''/net/projects/ACV_Coref/Data'' a cesty budu uvadet relativne k tomuto adresari. Zalozeni projektoveho adresare musi jit pres Milana. Pro zacatek navrhuji, aby prava pristupu do tohoto adresare meli jen zainteresovani - viz nize. 
-   - ''mkdir Coref/'' - protoze soubory, na kterych uz se pracovalo, bude potreba zrevidovat, tak by tento adresar obsahoval podadresare odpovidajici jednotlivym varkam (viz vyse)  +      - ''mkdir Coref/'' - protoze soubory, na kterych uz se pracovalo, bude potreba zrevidovat, tak by tento adresar obsahoval podadresare odpovidajici jednotlivym varkam (viz vyse), proto (adresare ''varka*'' mam jiz nachystane.
-   - ''mkdir ACV/''+         * ''mkdir Coref/varka_1_A_Dvorak/'' 
 +         * ''mkdir Coref/varka_2/'' 
 +         * ''mkdir Coref/varka_3/'' 
 +      - ''mkdir ACV/'' - k obsahu nemam co rict - prosim doplnte! 
 +   - s [[http://en.wikipedia.org/wiki/Subversion_%28software%29|SVN]] (prip. CVS) nemam vubec zadnou zkusenost, ale jednoznacne jsem pro to, abychom s tim pracovali. 
 +   - nevim, jestli ma cenu stale za sebou tahat ''[wma]-soubory'', protoze predpokladam, ze se s nimi na urovni ACV a koreferencnich anotaci nic deje. Proto by mozna stacilo vest linky do prislusneho podadresare projektoveho adresare PDT (''/net/projects/pdt/pdt20/data/full/tamw''). Stalo by za to se poptat, jak to resi v jinych projektech. 
  
 ==== Komu urceno ==== ==== Komu urceno ====

[ Back to the navigation ] [ Back to the content ]