[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:hladka:playcoref [2009/02/24 11:34]
hladka
user:hladka:playcoref [2009/02/25 22:24]
hladka
Line 1: Line 1:
-===== Motivace =====+====== Motivace =====
  
 Na t-rovině PDT 2.0 proběhlo anotování koreference, a sice viz níže. V anotování koreference je potřeba pokračovat i s ohledem na její automatické určování metodami strojového učení.  Na t-rovině PDT 2.0 proběhlo anotování koreference, a sice viz níže. V anotování koreference je potřeba pokračovat i s ohledem na její automatické určování metodami strojového učení. 
Line 5: Line 6:
 Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, že HNED seženeme anotátory (kolik?), HNED je zacvičíme, HNED na ně seženeme peníze, ... Tak HNED to nebude, že ano:-) Zvolme tedy takový způsob anotace, pro který rychle (HNED to nebude ani v tomto případě) seženeme dostatek anotátorů - anotátory nebudeme muset zacvičovat, protože si budou "jenom" hrát.     Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, že HNED seženeme anotátory (kolik?), HNED je zacvičíme, HNED na ně seženeme peníze, ... Tak HNED to nebude, že ano:-) Zvolme tedy takový způsob anotace, pro který rychle (HNED to nebude ani v tomto případě) seženeme dostatek anotátorů - anotátory nebudeme muset zacvičovat, protože si budou "jenom" hrát.    
  
-===== Specification ===== 
  
-==== Strategy ==== 
  
-===== Texts ===== 
  
-=== Text Selection ===+====== Specification ======
  
-=== Coding === 
-  * utf-8 
  
-=== Internal format === 
-  * sgml ## to propose dtd file: //like csts.dtd and include element ''cor'' and its attributes ''src'' (manully, automatically, playes)// 
  
  
-=== (Pre)processing === 
  
-===== Scoring ===== 
  
-  * tagging 
-  * t-parser by Linh 
  
  
Line 32: Line 22:
  
  
-===== Motivační publikace ===== +===== Strategy ===== 
-   Návrh projektu na GAČR 2009 //Automatické určování koreference v textech na základě dat anotovaných netradiční metodou// ## automatické určování koreference metodou strojového učení na textech v jejich lineární podobě;  +  * **Hook up the words which refer to the same entity.*
-      [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/cast_C_D_PlayCoref.pdf|česky]] +  A game of two playersPlayers are paired randomlyComputer as a player: automatic coreference resolution **???????** 
-      [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/part_C_D_PlayCoref.pdf|anglicky]] +  Session time up to **???????** minutes
-   Barbora HladkáKiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http://ufal.mff.cuni.cz/~hladka/PlayCoref/herni_portal.pdf|pdf]]) ## portálu jazykových her [[http://www.lgame.cz|LGame]] +  At the beginningtwo first sentences of the document are displayed to each player. The players hook up the nouns and pronouns which refer to the same object independently of each other. If a player hooks up all the related words in the given sentences (s)he keeps in mind then (s)he asks for the next sentence of the documentThe session goes on this way until the end of the session time(//vypustila jsem tu variantu, ze rychlejsi hrac muzi partii ukoncit kdykoliJednalo by se vlastne znevyhodneni pomalejsiho hrace.//) The player who has asked for more sentences in the session obtains bonus points
-   Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004,  ([[http://ufal.mff.cuni.cz/~hladka/PlayCoref/ESP.pdf|pdf]]## nálepkování obrázků hrou ESP+   What my partner is doing? If (s)he hooks up the same pair of words as hooked up then the pair of words starts **???????**If (s)he links a word I have not linked so far then a given word starts **???????** 
 +   * The players can re-hook up any word any time in the session   
 +   * To design the game for a particular language the following data and tools are needed (or are welcome)
 +     - corpus of manually anotated coreference 
 +     - POS tagger 
 +     - coreference resolution procedure
  
  
Line 48: Line 43:
  
  
 +===== Input Texts =====
  
 +=== Text Selection ===
 +  * CS data ^JM^
 +     * Anja's data    ## // PDT data that are currently being annotated for the extended coreference //
 +     * more 'user-friendly' texts    ## // texts that are currently in the LGame db//
 +   * **EN**
 +      * search the data that are available
 +=== Coding ===
 +  * utf-8
  
 +=== Internal format ===
 +  * sgml ## //propose dtd file: include the element ''cor'' and its attribute ''src'' (manually, automatically, players) into csts.dtd; ve zkratce: u kazde slovni formy <f_id> bude povinne <l>, <t> a volitelne <cor src="man">, <cor src="Linh">, <cor src="player_id">, ..., <cor src="player_id">. Kdyz se bude s dokumentem hrat poprve, tak tam <cor src="player_id"> nebude zadne//
  
 +=== (Pre)processing ===
 +  * tagging ## //see Tools needed below//
 +  * acr by Linh ## // dtto //
  
 +=== Text handling ===
 +   * sentence by sentence
 +   * supervised selection of documents for a session 
  
  
Line 57: Line 69:
  
  
 +===== Scoring =====
 +   * ''pts_of_player_A = w1*(player_A's_output vs. manual_annotation(if available)) + w2*(player_A's_output vs. automatic_annotation) + w3*(player_A's_output vs. player_B's_output) + speed_pts''
 + 
 +// w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo 'rozumne', bych zobrazovala pouze dvojice, na kterych se oba hraci shodli.//
  
  
  
 +===== Output Data Needed =====
 +   * score list ## //player_id, pts, #sessions//
 +   * documents after the ''n''-th session consists of ''2*n'' players coreference annotation (some of them should be identical, the more identical the better)
 +   * session
 +      * player_A_id, player_B_id
 +      * document(s)
 +      * number of corrections by player_A and by player_B
 +      * corrections by player_A and by player_B
  
  
 +===== Design =====
 +   * What info to be displayed in the session?
 +      * session time = elapsed time + remaining time
 +      * how many sentences my partner has read so far 
 +      * running pts **???????**
 +   * Visualization of the coreference pairs
 +      * colors
 +      * arrows
 +      * ...
  
  
Line 67: Line 100:
  
  
 +===== Tools needed =====
 +   * tagger ^BH^ ## tool_chain (CAC2.0)
 +   * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? ''tool_chain'' is going to be extended by the ''S'' option enabling to run Vasek Klimes' t-parser in a basic version, i.e. just t-tree and functors. 
 +  * conversion: csts <-> pml m_coref scheme
  
-===== Anotování koreference v českých datech =====+====== Motivační publikace ====== 
 + 
 +   * Návrh projektu na GAČR 2009 //Automatické určování koreference v textech na základě dat anotovaných netradiční metodou// ## automatické určování koreference metodou strojového učení na textech v jejich lineární podobě;  
 +      * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/cast_C_D_PlayCoref.pdf|česky]] 
 +      * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/part_C_D_PlayCoref.pdf|anglicky]] 
 +   * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http://ufal.mff.cuni.cz/~hladka/PlayCoref/herni_portal.pdf|pdf]]) ## o portálu jazykových her [[http://www.lgame.cz|LGame]] 
 +   * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004,  ([[http://ufal.mff.cuni.cz/~hladka/PlayCoref/ESP.pdf|pdf]]) ## nálepkování obrázků hrou ESP 
 + 
 + 
 +====== Anotování koreference v českých datech ======
   * PDT 2.0 [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/html/ch08.html|odkaz do tektogramatického manuálu]]   * PDT 2.0 [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/t-layer/html/ch08.html|odkaz do tektogramatického manuálu]]
   * rozšířená koreference - viz přehled [[https://wiki.ufal.ms.mff.cuni.cz/user:hladka:data]]   * rozšířená koreference - viz přehled [[https://wiki.ufal.ms.mff.cuni.cz/user:hladka:data]]
Line 75: Line 121:
  
  
-===== Automatické určování koreference v českých datech - přehled =====+ 
 + 
 +====== Automatické určování koreference v českých datech - přehled =====
   * Dosavadní experimenty   * Dosavadní experimenty
  
Line 84: Line 133:
  
  
-===== Návrh hry - brainstorming =====+ 
 +====== Návrh hry - brainstorming =====
 **26/5/08 Anja, Bára:** **26/5/08 Anja, Bára:**
    * Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy    * Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy

[ Back to the navigation ] [ Back to the content ]