[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:playcoref [2009/02/26 11:52]
hladka
user:hladka:playcoref [2010/02/09 09:24] (current)
hladka
Line 1: Line 1:
 +====== Play the Language: Play Coreference ======
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +====== Aktuality ======
 +  * COLING 2010, deadline **Apr 22, 2010**
 +      * vyvěsit PlayCoref na LGame hratelnou ČESKY a ANGLICKY, proto
 +         * nachystat anglická data - Jak jsme na tom? Nějaká jsme už dávali dohromady, ne?
 +         * Honzu a Lenku připravit na zapojení angličtiny.
 +         * zapojit pojmenované entity
 +            *  pro češtinu Jirka nachystal a poslal Lence data. BH: kontaktovat Lenku.
 +            *  Jirko, v rámci TectoMT je taky nejspíš anglický NE recognizer? 
 +         * Pavle mohl bys prosím kontaktovat kamaráda, který programuje hry v NY, ukázat mu [[ http://ufallab2.ms.mff.cuni.cz/lgame/sb/play_coref_index.php|aktuální verzi PlayCoref]] a požádat o názor.
 +         * BH a Honza Kohout. nachystat demo PlayCoref (jako např. [[http://ufallab2.ms.mff.cuni.cz/lgame/pts.php|toto]]).              
 +         * BH: připravit pravidla hry (jako např. [[http://ufallab2.ms.mff.cuni.cz/lgame/guide.php|tato]]).
 +  * Zimní seminář v Hejnicích, krátká prezentace screenshotů alfa verze hry, 25.1.2010
 +     * Na úvodní stránce s výběrem počtu hráčů přidat počet on-line hráčů - tak vím, zda má smysl zvolit hru dvou hráčů a doufat v protihráče
 +     * Na úvodní stránce je špatně čitelný ten velký kulatý font
 +     * Dvě verze instrukcí: krátké pro rychlé seznámení a zahrání si, dlouhé pro ty, kdo se chtějí zlepšit a mít lepší skóre.
 +      * **BH**: Souhlasim (tak tomu je ted i u Shannon game). Kratke instrukce maji format dema, dlouhe jsou jako text doplneny screenshots.    
 +     * Pokud to půjde, využít systému Recaptcha - část textu už použita dříve v jiné hře - už mám nějakou anotaci - mohu počítat skóre, zbytek textu nový, získávám nová data
 +     * Anotace koreference musí probíhat na jmenných frázích - nelze propojit slova "ekonomika" ve frázích "německá ekonomika" a "česká ekonomika". Otázka je, zda to hráčům jen vysvětlit, nebo jim jmenné fráze rozpoznat, spojit do anotační jednotky a označit (je to těžké).
 +     * Padlo několik návrhů k propadaci hry - např. Lucie nabízí, že hru zadá studentům jako povinnou součást výuky svého semináře
 +
 +  * Schůzka 24/9/2009
 +     * Sestava: studenti Jan Kohout, Lenka Studničná; badatelé Bára, Jirka, Pavel
 +     * Rozhodnutí:
 +         * Lenka: implementace "vnitřku"
 +         * Honza: implementace rozhraní ve spolupráci se studentkou Helenou Pouchovou
 +         * My: data - zpracování dat ACR a procedurou detekující jmenné entity 
 +      * Termín: 30. října 2009
 +      * Plány: submitnout abstract na demo session na [[http://www.lrec-conf.org/lrec2010/|LREC 2010]], termín je 31. října 2009 - uvidíme, jak se bude vyvíjet implementace
 +
 +
 ====== Motivace ====== ====== Motivace ======
  
Line 21: Line 68:
   * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny.   * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny.
   * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]])   * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]])
 +
 +
  
  
Line 30: Line 79:
 ====== Automatické určování koreference v českých datech - přehled ====== ====== Automatické určování koreference v českých datech - přehled ======
   * Experiments with Czech so far   * Experiments with Czech so far
 +     - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. TSD 2005. **Available:**  [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/tsd2005-coref.pdf|pdf]]
      - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available:** [[http://ufal.mff.cuni.cz/~hladka/ML/aca-diplomka.pdf|pdf]]      - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available:** [[http://ufal.mff.cuni.cz/~hladka/ML/aca-diplomka.pdf|pdf]]
      - Nguy Giang Linh; Žabokrtský, Z.: Rule-based approach to pronominal anaphora resolution applied on the Prague Dependency Treebank 2.0 data. In Proceedings of DAARC 2007 (6th Discourse Anaphora and Anaphor Resolution Colloquium). **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/daarc-2007.pdf|pdf]]      - Nguy Giang Linh; Žabokrtský, Z.: Rule-based approach to pronominal anaphora resolution applied on the Prague Dependency Treebank 2.0 data. In Proceedings of DAARC 2007 (6th Discourse Anaphora and Anaphor Resolution Colloquium). **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/daarc-2007.pdf|pdf]]
Line 77: Line 127:
  
 ====== Specification ====== ====== Specification ======
 +
 +
  
  
Line 84: Line 136:
   * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????**   * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????**
   * Session time up to **???????** minutes.   * Session time up to **???????** minutes.
-  *  At the beginning of the game, if there is no coreference pair in the first two sentences (as determined by the manual/automatic pre-annotation), more than two sentences should be displayed, so many that at least one coreference pair occurs there. The players hook up the __nouns__ and __pronouns__ which refer to the same object independently of each other. If a player hooks up all the related words in the given sentence(s) (s)he keeps in mind then (s)he asks for the next sentence of the document. The session goes on this way until the end of the session time. (//vypustila jsem tu variantu, ze rychlejsi hrac muzi partii ukoncit kdykoli. Jednalo by se vlastne o znevyhodneni pomalejsiho hrace.//) The player who has asked for more sentences in the session obtains bonus speed points.+  *  At the beginning of the game, if there is no coreference pair in the first two sentences (as determined by the manual/automatic pre-annotation), more than two sentences should be displayed, so many that at least one coreference pair occurs there. The players hook up the __nouns__ and __pronouns__ which refer to the same object independently of each other. If a player hooks up all the related words in the given sentence(s) (s)he keeps in mind then (s)he asks for the next sentence(s) (depending on the number of pairs determined by the manual/automatic pre-annotation) of the document. The session goes on this way until the end of the session time. (//vypustila jsem tu variantu, ze rychlejsi hrac muzi partii ukoncit kdykoli. Jednalo by se vlastne o znevyhodneni pomalejsiho hrace.//) The player who has asked for more sentences in the session obtains bonus speed points.
    * What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **???????**. If (s)he links a word I have not linked so far then a given word starts **???????**    * What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **???????**. If (s)he links a word I have not linked so far then a given word starts **???????**
    * The players can re-hook up any word any time in the session.       * The players can re-hook up any word any time in the session.   
-   * To design the game for a particular language the following data and tools are needed (or are welcome):+   * To design the game for a particular language the following data and tools are needed (or, better said, are welcome):
      - corpus of manually anotated coreference      - corpus of manually anotated coreference
      - POS tagger      - POS tagger
      - coreference resolution procedure      - coreference resolution procedure
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
  
  
Line 96: Line 166:
  
 === Text Selection === === Text Selection ===
-  * CS data ^JM^+  * CS data
      * Anja's data    ## // PDT data that are currently being annotated for the extended coreference //      * Anja's data    ## // PDT data that are currently being annotated for the extended coreference //
-     more 'user-friendly' texts    ## // texts that are currently in the LGame db// +     **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, fantasy, thriller, romance, ...), maybe even the author or the very title. The available resources of free electronic books in Czech are scarce but there are plenty of free electronic books in English and other languages, e.g. [[http://www.gutenberg.org/wiki/Main_Page|Project Gutenberg]]. **BH**: It is a very nice idea but I would postpone it till the next versions of the PlayCoref game. However, we have already selected more user-friendly texts into the LGame db - see [[http://ufallab2.ms.mff.cuni.cz/lgame/|this page]]. So we can use them for the PlayCoref game as well.  
-     * JM: It would be nice if the players could choose a domain of the texts to play on (science-fiction, fantasy, thriller, romance, ...), maybe even the author or the very title. The available resources of free electronic books in Czech are scarce but there are plenty of free electronic books in English and other languages, e.g. [[http://www.gutenberg.org/wiki/Main_Page|Project Gutenberg]]+     ***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference mezi uzly s tagy N nebo P. Data jsou v adresari: ''/net/work/projects/playlang/playcoref/data/02_bridging_playcoref/train-1''. Spocital jsem tabulku, ve ktere jsou tyto soubory z train-1 serazeny sestupne podle pomeru (pocet koref. sipek)/(pocet slov). [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/_text_coref_proportions.txt|Tabulka je tady]] ( prvni sloupec je  pomer (pocet koref. sipek)/(pocet slov), druhy sloupec je nazev souboru, treti sloupec je pocet koref. sipek, ctvrty sloupec je pocet slov.) 
 +      ***BH (16/3/09)**. Zajmena filtrovat i podle subPOS: **POVOLIT**: 1, 4, 5, 6, 7, 8, 9, H, J, K, P, S  **ZAMKNOUT**: D,E,L, O, Q, W, Y, Z 
    * **EN**    * **EN**
-      * search the data that are available+      * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat.
 === Coding === === Coding ===
   * utf-8   * utf-8
Line 116: Line 187:
    * supervised selection of documents for a session     * supervised selection of documents for a session 
  
-===== Scoring ===== 
-   * ''pts_of_player_A = w1*(player_A's_output vs. manual_annotation(if available)) + w2*(player_A's_output vs. automatic_annotation) + w3*(player_A's_output vs. player_B's_output) + speed_pts'' 
-  
-// w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo 'rozumne', bych zobrazovala pouze dvojice, na kterych se oba hraci shodli.// 
  
-JM: 
  
 +
 +
 +
 +===== Scoring =====
 +   * ''pts(A) = w1*ICA(A, acr) + w2*ICA (A,B) + speed_pts(A)''
 + 
 +**JM**:
 Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to
-nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu.+nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. 
 + 
 +**BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci.
  
-Pokud máme hráče porovnávat z různých partií na různých datech (na datech s- a bez manuální anotace), pak by výše uvedená ohodnocovací funkce zvýhodnila ty, kteří hrají na manuálně anotovaných datech, protože u pouze automatický anotovaných dat by první člen součtu byl nulový. 
  
-Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. 
  
 ===== Output Data Needed ===== ===== Output Data Needed =====
    * score list ## //player_id, pts, #sessions//    * score list ## //player_id, pts, #sessions//
-   * documents after the ''n''-th session consists of ''2*n'' players coreference annotation (some of them should be identical, the more identical the better)+   * documents after the ''n''-th session consist of ''2*n'' players coreference annotation (some of them should be identical, the more identical the better); how to calculate an inter-player agreement? **BH:** v clanku, ktery budeme posilat na ACL, by mela byt seriozni uvaha o kvalite dat, ktera ziskame z her. Kvalita jde ruku v ruce s mezihracskou shodou a shodou mezi hracem a automatickou procedurou. **Pavle**, vzal by sis prosim tuto cast na starosti? Jiz jsem prochazela nejake prace a zatim mi z toho vychazi, ze je vhodne okomentovat: 
 +(**JM**: Mluvil jsem kvůli měření mezianotátorské shody v anotování koreference se Zdeňkem a vyšlo z toho, že na měření shody na šipkách by použil prostě jen F-measure. Její smysl je jasný a je symetrická. Kappa je nevhodná kvůli tomu, že pravděpodobnost náhodné shody je poměrně nízká a těžko se určuje; kappa se hodí spíš pro klasifikační úlohy (proto ji použiju v Anjiině projektu na shodu v určování typu koreference, když už se shodli na šipce); ostatní (G-theory a Pearson correlation) neznám, jsem zvědav, co k tomu řekne Pavel.) 
 +        - kappa measure 
 +        - G-theory - see [[http://en.wikipedia.org/wiki/Generalizability_theory|wiki]], [[http://www.aclweb.org/anthology-new/J/J07/J07-1002.pdf|Petra Saskia Bayerl; Karsten Ingmar Paul 
 +Identifying Sources of Disagreement: Generalizability Theory in Manual Annotation Studies]], Computational Linguistics, Volume 33, Number 1, March 2007. 
 +        - the Pearson correlation - see (Snow et al., 2008) [[http://ufal.mff.cuni.cz/~hladka/gwap/amt_emnlp08_accepted.pdf|Cheap and Fast - But is it Good? ... ]] 
    * session    * session
       * player_A_id, player_B_id       * player_A_id, player_B_id
       * document(s)       * document(s)
-      * number of corrections by player_A and by player_B (JM: I do not see the point in this) +      * number of corrections by player_A and by player_B (**JM**: I do not see the point in this) 
-      * corrections by player_A and by player_B (JM: and maybe nor in this)+      * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the players' behaviour. Maybe the corrections will be total mess, but we have to see the data at least from the very first sessions. ) 
  
 ===== Design ===== ===== Design =====
Line 143: Line 222:
       * session time = elapsed time + remaining time       * session time = elapsed time + remaining time
       * how many sentences my partner has read so far        * how many sentences my partner has read so far 
-      * running pts **???????** (JM: I would be very cautious with this; the user might be tempted to cancel an action if the score decreases; the user might also try to fit the automatic annotation (by trying various arrows and watching if the score goes up or down), which is not what we want)+      * running pts **???????** (**JM**: I would be very cautious with this; the user might be tempted to cancel an action if the score decreases; the user might also try to fit the automatic annotation (by trying various arrows and watching if the score goes up or down), which is not what we want)
    * Format of the text    * Format of the text
-      * JM: nouns and pronouns might be displayed slightly differently so that the user avoids other parts of speech easily; he should not be allowed to use other parts of speech at all+      * **JM**: nouns and pronouns might be displayed slightly differently so that the user avoids other parts of speech easily; he should not be allowed to use other parts of speech at all
    * Visualization of the coreference pairs    * Visualization of the coreference pairs
       * colors       * colors
-      * arrows (JM: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed)+      * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed)
       * ...       * ...
  
Line 154: Line 233:
  
  
 +===== Tools needed =====
 +   * tagger ## tool_chain (CAC2.0)
 +   * Linh's coreference resolution procedure - see TectoMT - **JM**
 +      * vyzkouset - trenink a test - na datech Anji
 +   * conversion: csts <-> pml m_coref scheme
  
  
-===== Tools needed ===== + 
-   tagger ^BH^ ## tool_chain (CAC2.0) + 
-   Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? ''tool_chain'' is going to be extended by the ''S'' option enabling to run Vasek Klimes' t-parser in basic version, i.e. just t-tree and functorsSee more info [[https://wiki.ufal.ms.mff.cuni.cz/user:hladka:playcoref#automaticke-urcovani-koreference-v-ceskych-datech-prehled]]. + 
-  conversioncsts <-> pml m_coref scheme+ 
 + 
 +===== Kdo hru implementuje ===== 
 +  Lenka Studničná vnitřek, [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/playCoref-specifikace.pdf|zde]] je specifikace
 +      Poznámky BH: 
 +      - 1.1 Pokud není protihráč, tak automaticky nastupuje virtuální protihráč, tedy automatická procedura. Hráč by o tom ani nemusel vědět. Proto bych volbu mezi protihráčem automatickým protihráčem vypustila. 
 +      - 1.2 Dle designu hry. 
 +      - 2.1 použití termínu ´paralelních dat´je v daném kontextu lehce zavádějící (i když chápu, jak to autorka myslela) 
 +      - Jeden hráč se vzdá, další můžsamozřejmě pokračovatPro měření spolehlivosti hráče je zajímavé věděi to, kolikrát vzdal. 
 +      2Vstupní dokumenty budou zpracovány ACR. 
 +      - 3V tabulce Matches_Players postrádám odkaz na soupeře. 
 +      - 3Alternativy - Pokud budeme předkládat anotovaná data, může být obtížnost dokumentu vyjádřena přes počet přítomných koreferujících párů. 
 +      5. Víceslovné výrazy -- určitě na ně myslet implementaci, i když aktuálně není k dispozici automatická procedura pro detekci víceslovnýcch pojmenovaných entit s uspokojující úspěšností. 
 + 
 + 
 + 
 + 
 + 
 +====== ACL IJCNLP2009 ====== 
 +   * [[http://www.acl-ijcnlp-2009.org/|Suntec Singapore, August 2-7, 2009]] 
 +   [[http://www.acl-ijcnlp-2009.org/main/callforpapers.html#shortpapers|Short papers]], deadline: April 26, 2009. Predposledni verze clanku musi byt hotova do 12. dubna. Nasledne clanek posleme vybranym kolegum (Fred Jelinek, ....), aby meli na precteni a okomentovani tyden. Nam pak bude zbyvat tyden do terminu. 
 +   * pracovni adresar ''/net/work/projects/playlang/doc/ACL-IJCNLP2009/'' 
 +   * 23/3/09 - castecne jsem rozmyslela osnovu, podivejte se prosim na to a sve pripominky psat primo do latexovskeho zdrojaku

[ Back to the navigation ] [ Back to the content ]