[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki

[ Back to the navigation ]


This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:hladka:playcoref [2009/02/25 22:24]
user:hladka:playcoref [2009/02/26 09:42]
Line 6: Line 6:
 Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, že HNED seženeme anotátory (kolik?), HNED je zacvičíme, HNED na ně seženeme peníze, ... Tak HNED to nebude, že ano:-) Zvolme tedy takový způsob anotace, pro který rychle (HNED to nebude ani v tomto případě) seženeme dostatek anotátorů - anotátory nebudeme muset zacvičovat, protože si budou "jenom" hrát.     Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, že HNED seženeme anotátory (kolik?), HNED je zacvičíme, HNED na ně seženeme peníze, ... Tak HNED to nebude, že ano:-) Zvolme tedy takový způsob anotace, pro který rychle (HNED to nebude ani v tomto případě) seženeme dostatek anotátorů - anotátory nebudeme muset zacvičovat, protože si budou "jenom" hrát.    
-====== Specification ====== 
-===== Strategy ===== 
-  * **Hook up the words which refer to the same entity.** 
-  * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** 
-  * Session time up to **???????** minutes. 
-  * At the beginning, two first sentences of the document are displayed to each player. The players hook up the nouns and pronouns which refer to the same object independently of each other. If a player hooks up all the related words in the given sentences (s)he keeps in mind then (s)he asks for the next sentence of the document. The session goes on this way until the end of the session time. (//vypustila jsem tu variantu, ze rychlejsi hrac muzi partii ukoncit kdykoli. Jednalo by se vlastne o znevyhodneni pomalejsiho hrace.//) The player who has asked for more sentences in the session obtains bonus points. 
-   * What my partner is doing? If (s)he hooks up the same pair of words as hooked up then the pair of words starts **???????**. If (s)he links a word I have not linked so far then a given word starts **???????** 
-   * The players can re-hook up any word any time in the session.    
-   * To design the game for a particular language the following data and tools are needed (or are welcome): 
-     - corpus of manually anotated coreference 
-     - POS tagger 
-     - coreference resolution procedure 
-===== Input Texts ===== 
-=== Text Selection === 
-  * CS data ^JM^ 
-     * Anja's data    ## // PDT data that are currently being annotated for the extended coreference // 
-     * more 'user-friendly' texts    ## // texts that are currently in the LGame db// 
-   * **EN** 
-      * search the data that are available 
-=== Coding === 
-  * utf-8 
-=== Internal format === 
-  * sgml ## //propose dtd file: include the element ''cor'' and its attribute ''src'' (manually, automatically, players) into csts.dtd; ve zkratce: u kazde slovni formy <f_id> bude povinne <l>, <t> a volitelne <cor src="man">, <cor src="Linh">, <cor src="player_id">, ..., <cor src="player_id">. Kdyz se bude s dokumentem hrat poprve, tak tam <cor src="player_id"> nebude zadne// 
-=== (Pre)processing === 
-  * tagging ## //see Tools needed below// 
-  * acr by Linh ## // dtto // 
-=== Text handling === 
-   * sentence by sentence 
-   * supervised selection of documents for a session  
-===== Scoring ===== 
-   * ''pts_of_player_A = w1*(player_A's_output vs. manual_annotation(if available)) + w2*(player_A's_output vs. automatic_annotation) + w3*(player_A's_output vs. player_B's_output) + speed_pts'' 
-// w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo 'rozumne', bych zobrazovala pouze dvojice, na kterych se oba hraci shodli.// 
-===== Output Data Needed ===== 
-   * score list ## //player_id, pts, #sessions// 
-   * documents after the ''n''-th session consists of ''2*n'' players coreference annotation (some of them should be identical, the more identical the better) 
-   * session 
-      * player_A_id, player_B_id 
-      * document(s) 
-      * number of corrections by player_A and by player_B 
-      * corrections by player_A and by player_B 
-===== Design ===== 
-   * What info to be displayed in the session? 
-      * session time = elapsed time + remaining time 
-      * how many sentences my partner has read so far  
-      * running pts **???????** 
-   * Visualization of the coreference pairs 
-      * colors 
-      * arrows 
-      * ... 
-===== Tools needed ===== 
-   * tagger ^BH^ ## tool_chain (CAC2.0) 
-   * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? ''tool_chain'' is going to be extended by the ''S'' option enabling to run Vasek Klimes' t-parser in a basic version, i.e. just t-tree and functors.  
-  * conversion: csts <-> pml m_coref scheme 
 ====== Motivační publikace ====== ====== Motivační publikace ======
Line 119: Line 21:
   * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny.   * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny.
   * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]])   * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]])
Line 124: Line 29:
 ====== Automatické určování koreference v českých datech - přehled ====== ====== Automatické určování koreference v českých datech - přehled ======
 +  * Experiments with Czech so far
 +     - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available:** [[http://ufal.mff.cuni.cz/~hladka/ML/aca-diplomka.pdf|pdf]]
 +     - Nguy Giang Linh; Žabokrtský, Z.: Rule-based approach to pronominal anaphora resolution applied on the Prague Dependency Treebank 2.0 data. In Proceedings of DAARC 2007 (6th Discourse Anaphora and Anaphor Resolution Colloquium). **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/daarc-2007.pdf|pdf]]
 +   * Linh's procedure
-  * Dosavadní experimenty 
Line 168: Line 77:
 ====== Specification ====== ====== Specification ======
 ===== Strategy ===== ===== Strategy =====
Line 192: Line 90:
      - coreference resolution procedure      - coreference resolution procedure
- +JM: At the beginning of the game, if there is no coreference in the first two sentences (as determined by the manual/automatic pre-annotation), more sentences should be displayed, so many that at least one coreference occurs there.
- +
- +
- +
- +
- +
- +
 ===== Input Texts ===== ===== Input Texts =====
Line 207: Line 98:
      * Anja's data    ## // PDT data that are currently being annotated for the extended coreference //      * Anja's data    ## // PDT data that are currently being annotated for the extended coreference //
      * more 'user-friendly' texts    ## // texts that are currently in the LGame db//      * more 'user-friendly' texts    ## // texts that are currently in the LGame db//
 +     * JM: It would be nice if the players could choose a domain of the texts to play on (science-fiction, fantasy, thriller, romance, ...), maybe even the author or the very title. The available resources of free electronic books in Czech are scarce but there are plenty of free electronic books in English and other languages, e.g. [[http://www.gutenberg.org/wiki/Main_Page|Project Gutenberg]]
    * **EN**    * **EN**
       * search the data that are available       * search the data that are available
Line 222: Line 114:
    * sentence by sentence    * sentence by sentence
    * supervised selection of documents for a session     * supervised selection of documents for a session 
 ===== Scoring ===== ===== Scoring =====
Line 232: Line 120:
 // w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo 'rozumne', bych zobrazovala pouze dvojice, na kterych se oba hraci shodli.// // w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo 'rozumne', bych zobrazovala pouze dvojice, na kterych se oba hraci shodli.//
 +JM: Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to
 +nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu.
 +Pokud máme hráče porovnávat z různých partií na různých datech (na datech s- a bez manuální anotace), pak by výše uvedená ohodnocovací funkce zvýhodnila ty, kteří hrají na manuálně anotovaných datech, protože u pouze automatický anotovaných dat by první člen součtu byl nulový.
 +Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil.
 ===== Output Data Needed ===== ===== Output Data Needed =====
Line 240: Line 133:
       * player_A_id, player_B_id       * player_A_id, player_B_id
       * document(s)       * document(s)
-      * number of corrections by player_A and by player_B +      * number of corrections by player_A and by player_B (JM: I do not see the point in this) 
-      * corrections by player_A and by player_B+      * corrections by player_A and by player_B (JM: and maybe nor in this)
Line 253: Line 146:
       * arrows       * arrows
       * ...       * ...
Line 260: Line 154:
 ===== Tools needed ===== ===== Tools needed =====
    * tagger ^BH^ ## tool_chain (CAC2.0)    * tagger ^BH^ ## tool_chain (CAC2.0)
-   * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? ''tool_chain'' is going to be extended by the ''S'' option enabling to run Vasek Klimes' t-parser in a basic version, i.e. just t-tree and functors. +   * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? ''tool_chain'' is going to be extended by the ''S'' option enabling to run Vasek Klimes' t-parser in a basic version, i.e. just t-tree and functors. See more info [[https://wiki.ufal.ms.mff.cuni.cz/user:hladka:playcoref#automaticke-urcovani-koreference-v-ceskych-datech-prehled]].
   * conversion: csts <-> pml m_coref scheme   * conversion: csts <-> pml m_coref scheme

[ Back to the navigation ] [ Back to the content ]