[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:playcoref [2009/03/01 17:21]
hladka
user:hladka:playcoref [2010/02/09 09:24] (current)
hladka
Line 1: Line 1:
 +====== Play the Language: Play Coreference ======
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +====== Aktuality ======
 +  * COLING 2010, deadline **Apr 22, 2010**
 +      * vyvěsit PlayCoref na LGame hratelnou ČESKY a ANGLICKY, proto
 +         * nachystat anglická data - Jak jsme na tom? Nějaká jsme už dávali dohromady, ne?
 +         * Honzu a Lenku připravit na zapojení angličtiny.
 +         * zapojit pojmenované entity
 +            *  pro češtinu Jirka nachystal a poslal Lence data. BH: kontaktovat Lenku.
 +            *  Jirko, v rámci TectoMT je taky nejspíš anglický NE recognizer? 
 +         * Pavle mohl bys prosím kontaktovat kamaráda, který programuje hry v NY, ukázat mu [[ http://ufallab2.ms.mff.cuni.cz/lgame/sb/play_coref_index.php|aktuální verzi PlayCoref]] a požádat o názor.
 +         * BH a Honza Kohout. nachystat demo PlayCoref (jako např. [[http://ufallab2.ms.mff.cuni.cz/lgame/pts.php|toto]]).              
 +         * BH: připravit pravidla hry (jako např. [[http://ufallab2.ms.mff.cuni.cz/lgame/guide.php|tato]]).
 +  * Zimní seminář v Hejnicích, krátká prezentace screenshotů alfa verze hry, 25.1.2010
 +     * Na úvodní stránce s výběrem počtu hráčů přidat počet on-line hráčů - tak vím, zda má smysl zvolit hru dvou hráčů a doufat v protihráče
 +     * Na úvodní stránce je špatně čitelný ten velký kulatý font
 +     * Dvě verze instrukcí: krátké pro rychlé seznámení a zahrání si, dlouhé pro ty, kdo se chtějí zlepšit a mít lepší skóre.
 +      * **BH**: Souhlasim (tak tomu je ted i u Shannon game). Kratke instrukce maji format dema, dlouhe jsou jako text doplneny screenshots.    
 +     * Pokud to půjde, využít systému Recaptcha - část textu už použita dříve v jiné hře - už mám nějakou anotaci - mohu počítat skóre, zbytek textu nový, získávám nová data
 +     * Anotace koreference musí probíhat na jmenných frázích - nelze propojit slova "ekonomika" ve frázích "německá ekonomika" a "česká ekonomika". Otázka je, zda to hráčům jen vysvětlit, nebo jim jmenné fráze rozpoznat, spojit do anotační jednotky a označit (je to těžké).
 +     * Padlo několik návrhů k propadaci hry - např. Lucie nabízí, že hru zadá studentům jako povinnou součást výuky svého semináře
 +
 +  * Schůzka 24/9/2009
 +     * Sestava: studenti Jan Kohout, Lenka Studničná; badatelé Bára, Jirka, Pavel
 +     * Rozhodnutí:
 +         * Lenka: implementace "vnitřku"
 +         * Honza: implementace rozhraní ve spolupráci se studentkou Helenou Pouchovou
 +         * My: data - zpracování dat ACR a procedurou detekující jmenné entity 
 +      * Termín: 30. října 2009
 +      * Plány: submitnout abstract na demo session na [[http://www.lrec-conf.org/lrec2010/|LREC 2010]], termín je 31. října 2009 - uvidíme, jak se bude vyvíjet implementace
 +
 +
 ====== Motivace ====== ====== Motivace ======
  
Line 21: Line 68:
   * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny.   * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny.
   * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]])   * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]])
 +
 +
  
  
Line 30: Line 79:
 ====== Automatické určování koreference v českých datech - přehled ====== ====== Automatické určování koreference v českých datech - přehled ======
   * Experiments with Czech so far   * Experiments with Czech so far
 +     - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. TSD 2005. **Available:**  [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/tsd2005-coref.pdf|pdf]]
      - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available:** [[http://ufal.mff.cuni.cz/~hladka/ML/aca-diplomka.pdf|pdf]]      - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available:** [[http://ufal.mff.cuni.cz/~hladka/ML/aca-diplomka.pdf|pdf]]
      - Nguy Giang Linh; Žabokrtský, Z.: Rule-based approach to pronominal anaphora resolution applied on the Prague Dependency Treebank 2.0 data. In Proceedings of DAARC 2007 (6th Discourse Anaphora and Anaphor Resolution Colloquium). **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/daarc-2007.pdf|pdf]]      - Nguy Giang Linh; Žabokrtský, Z.: Rule-based approach to pronominal anaphora resolution applied on the Prague Dependency Treebank 2.0 data. In Proceedings of DAARC 2007 (6th Discourse Anaphora and Anaphor Resolution Colloquium). **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/daarc-2007.pdf|pdf]]
Line 93: Line 143:
      - POS tagger      - POS tagger
      - coreference resolution procedure      - coreference resolution procedure
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
  
  
Line 107: Line 169:
      * Anja's data    ## // PDT data that are currently being annotated for the extended coreference //      * Anja's data    ## // PDT data that are currently being annotated for the extended coreference //
      * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, fantasy, thriller, romance, ...), maybe even the author or the very title. The available resources of free electronic books in Czech are scarce but there are plenty of free electronic books in English and other languages, e.g. [[http://www.gutenberg.org/wiki/Main_Page|Project Gutenberg]]. **BH**: It is a very nice idea but I would postpone it till the next versions of the PlayCoref game. However, we have already selected more user-friendly texts into the LGame db - see [[http://ufallab2.ms.mff.cuni.cz/lgame/|this page]]. So we can use them for the PlayCoref game as well.       * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, fantasy, thriller, romance, ...), maybe even the author or the very title. The available resources of free electronic books in Czech are scarce but there are plenty of free electronic books in English and other languages, e.g. [[http://www.gutenberg.org/wiki/Main_Page|Project Gutenberg]]. **BH**: It is a very nice idea but I would postpone it till the next versions of the PlayCoref game. However, we have already selected more user-friendly texts into the LGame db - see [[http://ufallab2.ms.mff.cuni.cz/lgame/|this page]]. So we can use them for the PlayCoref game as well. 
-      * **---JM TO DO---** na datech od Anji zjistit pro nas zajimave statistiky typu +     ***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference mezi uzly s tagy N nebo P. Data jsou v adresari: ''/net/work/projects/playlang/playcoref/data/02_bridging_playcoref/train-1''. Spocital jsem tabulku, ve ktere jsou tyto soubory z train-1 serazeny sestupne podle pomeru (pocet koref. sipek)/(pocet slov)[[http://ufal.mff.cuni.cz/~hladka/PlayCoref/_text_coref_proportions.txt|Tabulka je tady]] ( prvni sloupec je  pomer (pocet koref. sipek)/(pocet slov), druhy sloupec je nazev souboru, treti sloupec je pocet koref. sipek, ctvrty sloupec je pocet slov.) 
-vety/dokument; sipky_noun_noun-noun_pronoun-pronoun-pronoun/document; ... +      ***BH (16/3/09)**. Zajmena filtrovat i podle subPOS: **POVOLIT**: 1, 4, 5, 6, 7, 8, 9, H, J, K, P, S  **ZAMKNOUT**: D,E,L, O, Q, W, Y, Z 
    * **EN**    * **EN**
-      * search the data that are available+      * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat.
 === Coding === === Coding ===
   * utf-8   * utf-8
Line 125: Line 186:
    * sentence by sentence    * sentence by sentence
    * supervised selection of documents for a session     * supervised selection of documents for a session 
 +
 +
 +
  
  
  
 ===== Scoring ===== ===== Scoring =====
-   * ''pts_of_player_A = w1*(player_A's_output vs. automatic_annotation) + w1*(player_A's_output vs. player_B's_output) + speed_pts''+   * ''pts(A) = w1*ICA(A, acr) + w2*ICA (A,B) + speed_pts(A)''
    
 **JM**: **JM**:
Line 136: Line 200:
  
 **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci.
- 
- 
  
  
Line 143: Line 205:
 ===== Output Data Needed ===== ===== Output Data Needed =====
    * score list ## //player_id, pts, #sessions//    * score list ## //player_id, pts, #sessions//
-   * documents after the ''n''-th session consist of ''2*n'' players coreference annotation (some of them should be identical, the more identical the better); how to calculate an inter-player agreement? **BH:** v clanku, ktery budeme posilat na ACL, by mela byt seriozni uvaha o kvalite dat, ktere ziskame z her. Kvalita jde ruku v ruce s mezihracskou shodou a shodou mezi hracem a automatickou procedurou. **Pavle**, vzal by sis prosim tuto cast na starosti? Jiz jsem si prochazela nejake prace a zatim mi z toho vychazi, ze je vhodne okomentovat: +   * documents after the ''n''-th session consist of ''2*n'' players coreference annotation (some of them should be identical, the more identical the better); how to calculate an inter-player agreement? **BH:** v clanku, ktery budeme posilat na ACL, by mela byt seriozni uvaha o kvalite dat, ktera ziskame z her. Kvalita jde ruku v ruce s mezihracskou shodou a shodou mezi hracem a automatickou procedurou. **Pavle**, vzal by sis prosim tuto cast na starosti? Jiz jsem prochazela nejake prace a zatim mi z toho vychazi, ze je vhodne okomentovat: 
-  - kappa measure +(**JM**: Mluvil jsem kvůli měření mezianotátorské shody v anotování koreference se Zdeňkem a vyšlo z toho, že na měření shody na šipkách by použil prostě jen F-measure. Její smysl je jasný a je symetrická. Kappa je nevhodná kvůli tomu, že pravděpodobnost náhodné shody je poměrně nízká a těžko se určuje; kappa se hodí spíš pro klasifikační úlohy (proto ji použiju v Anjiině projektu na shodu v určování typu koreference, když už se shodli na šipce); ostatní (G-theory a Pearson correlation) neznám, jsem zvědav, co k tomu řekne Pavel.) 
-  - G-theory +        - kappa measure 
-  - the Pearson correlation +        - G-theory - see [[http://en.wikipedia.org/wiki/Generalizability_theory|wiki]], [[http://www.aclweb.org/anthology-new/J/J07/J07-1002.pdf|Petra Saskia Bayerl; Karsten Ingmar Paul 
 +Identifying Sources of Disagreement: Generalizability Theory in Manual Annotation Studies]], Computational Linguistics, Volume 33, Number 1, March 2007. 
 +        - the Pearson correlation - see (Snow et al., 2008) [[http://ufal.mff.cuni.cz/~hladka/gwap/amt_emnlp08_accepted.pdf|Cheap and Fast - But is it Good? ... ]] 
    * session    * session
       * player_A_id, player_B_id       * player_A_id, player_B_id
       * document(s)       * document(s)
       * number of corrections by player_A and by player_B (**JM**: I do not see the point in this)       * number of corrections by player_A and by player_B (**JM**: I do not see the point in this)
-      * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the manner of the players. Maybe the corrections will be total mess, but we have to see the data at least from the very first sessions. )+      * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the players' behaviour. Maybe the corrections will be total mess, but we have to see the data at least from the very first sessions. ) 
  
 ===== Design ===== ===== Design =====
Line 164: Line 229:
       * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed)       * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed)
       * ...       * ...
 +
 +
 +
  
 ===== Tools needed ===== ===== Tools needed =====
    * tagger ## tool_chain (CAC2.0)    * tagger ## tool_chain (CAC2.0)
-   * Linh's coreference resolution procedure **---PS TO DO---** What type of input data the Linh's procedure works with? ''tool_chain'' is going to be extended by the ''S'' option enabling to run Vasek Klimes' t-parser in basic version, i.e. just t-tree and functors. See more info [[https://wiki.ufal.ms.mff.cuni.cz/user:hladka:playcoref#automaticke-urcovani-koreference-v-ceskych-datech-prehled]]+   * Linh's coreference resolution procedure - see TectoMT - **JM** 
-  * conversion: csts <-> pml m_coref scheme+      * vyzkouset trenink test na datech Anji 
 +   * conversion: csts <-> pml m_coref scheme 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +===== Kdo hru implementuje ===== 
 +  * Lenka Studničná vnitřek, [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/playCoref-specifikace.pdf|zde]] je specifikace. 
 +      * Poznámky BH: 
 +      1.1 Pokud není protihráč, tak automaticky nastupuje virtuální protihráč, tedy automatická procedura. Hráč by o tom ani nemusel vědět. Proto bych volbu mezi protihráčem a automatickým protihráčem vypustila. 
 +      1.2 Dle designu hry. 
 +      2.1 použití termínu ´paralelních dat´je daném kontextu lehce zavádějící (i když chápu, jak to autorka myslela) 
 +      Jeden hráč se vzdá, další může samozřejmě pokračovat. Pro měření spolehlivosti hráče je zajímavé vědět i to, kolikrát vzdal. 
 +      2. Vstupní dokumenty budou zpracovány ACR. 
 +      3. V tabulce Matches_Players postrádám odkaz na soupeře
 +      3. Alternativy - Pokud budeme předkládat anotovaná data, může být obtížnost dokumentu vyjádřena přes počet přítomných koreferujících párů. 
 +      - 5. Víceslovné výrazy -- určitě na ně myslet v implementaci, i když aktuálně není k dispozici automatická procedura pro detekci víceslovnýcch pojmenovaných entit s uspokojující úspěšností.
  
  
Line 176: Line 263:
 ====== ACL - IJCNLP2009 ====== ====== ACL - IJCNLP2009 ======
    * [[http://www.acl-ijcnlp-2009.org/|Suntec Singapore, August 2-7, 2009]]    * [[http://www.acl-ijcnlp-2009.org/|Suntec Singapore, August 2-7, 2009]]
-   * [[http://www.acl-ijcnlp-2009.org/main/callforpapers.html#shortpapers|Short papers]], deadline: April 26, 2009. Predposledni verze clanku musi byt hotova do 12. dubna. Nasledne clanek posleme vybranym kolegum, aby meli na precteni a okomentovani tyden. Nam pak bude zbyvat tyden do terminu.+   * [[http://www.acl-ijcnlp-2009.org/main/callforpapers.html#shortpapers|Short papers]], deadline: April 26, 2009. Predposledni verze clanku musi byt hotova do 12. dubna. Nasledne clanek posleme vybranym kolegum (Fred Jelinek, ....), aby meli na precteni a okomentovani tyden. Nam pak bude zbyvat tyden do terminu.
    * pracovni adresar ''/net/work/projects/playlang/doc/ACL-IJCNLP2009/''    * pracovni adresar ''/net/work/projects/playlang/doc/ACL-IJCNLP2009/''
 +   * 23/3/09 - castecne jsem rozmyslela osnovu, podivejte se prosim na to a sve pripominky psat primo do latexovskeho zdrojaku

[ Back to the navigation ] [ Back to the content ]