Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playcoref [2009/02/26 11:57] hladka |
user:hladka:playcoref [2009/09/24 11:44] mirovsky |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Play the Language: Play Coreference ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Aktuality ====== | ||
+ | |||
+ | * Schůzka 24/9/2009 | ||
+ | * Sestava: studenti Jan Kohout, Lenka Studničná; | ||
+ | * Rozhodnutí: | ||
+ | * Lenka: implementace " | ||
+ | * Honza: implementace rozhraní ve spolupráci se studentkou Helenou Pouchovou | ||
+ | * My: data - zpracování dat ACR a procedurou detekující jmenné entity | ||
+ | * Termín: 30. října 2009 | ||
+ | * Plány: submitnout abstract na demo session na [[http:// | ||
+ | |||
+ | |||
====== Motivace ====== | ====== Motivace ====== | ||
Line 21: | Line 40: | ||
* [[http:// | * [[http:// | ||
* Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
+ | |||
+ | |||
Line 30: | Line 51: | ||
====== Automatické určování koreference v českých datech - přehled ====== | ====== Automatické určování koreference v českých datech - přehled ====== | ||
* Experiments with Czech so far | * Experiments with Czech so far | ||
+ | - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. TSD 2005. **Available: | ||
- Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | ||
- Nguy Giang Linh; Žabokrtský, | - Nguy Giang Linh; Žabokrtský, | ||
Line 77: | Line 99: | ||
====== Specification ====== | ====== Specification ====== | ||
+ | |||
+ | |||
Line 84: | Line 108: | ||
* A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | ||
* Session time up to **???????** minutes. | * Session time up to **???????** minutes. | ||
- | * At the beginning of the game, if there is no coreference pair in the first two sentences (as determined by the manual/ | + | * At the beginning of the game, if there is no coreference pair in the first two sentences (as determined by the manual/ |
* What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **??????? | * What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **??????? | ||
* The players can re-hook up any word any time in the session. | * The players can re-hook up any word any time in the session. | ||
- | * To design the game for a particular language the following data and tools are needed (or are welcome): | + | * To design the game for a particular language the following data and tools are needed (or, better said, are welcome): |
- corpus of manually anotated coreference | - corpus of manually anotated coreference | ||
- POS tagger | - POS tagger | ||
- coreference resolution procedure | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 98: | Line 138: | ||
=== Text Selection === | === Text Selection === | ||
- | * CS data ^JM^ | + | * CS data |
* Anja's data ## // PDT data that are currently being annotated for the extended coreference // | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
- | * more ' | + | * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, |
- | * **^JM^**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, | + | ***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference mezi uzly s tagy N nebo P. Data jsou v adresari: ''/ |
+ | ***BH (16/ | ||
* **EN** | * **EN** | ||
- | * search the data that are available | + | * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat. |
=== Coding === | === Coding === | ||
* utf-8 | * utf-8 | ||
Line 118: | Line 159: | ||
* supervised selection of documents for a session | * supervised selection of documents for a session | ||
- | ===== Scoring ===== | ||
- | * '' | ||
- | |||
- | // w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo ' | ||
- | JM: | ||
+ | |||
+ | |||
+ | |||
+ | ===== Scoring ===== | ||
+ | * '' | ||
+ | |||
+ | **JM**: | ||
Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to | Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to | ||
- | nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. | + | nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. |
+ | |||
+ | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. | ||
- | Pokud máme hráče porovnávat z různých partií na různých datech (na datech s- a bez manuální anotace), pak by výše uvedená ohodnocovací funkce zvýhodnila ty, kteří hrají na manuálně anotovaných datech, protože u pouze automatický anotovaných dat by první člen součtu byl nulový. | ||
- | Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. | ||
===== Output Data Needed ===== | ===== Output Data Needed ===== | ||
* score list ## // | * score list ## // | ||
- | * documents after the '' | + | * documents after the '' |
+ | (**JM**: Mluvil jsem kvůli měření mezianotátorské shody v anotování koreference se Zdeňkem a vyšlo z toho, že na měření shody na šipkách by použil prostě jen F-measure. Její smysl je jasný a je symetrická. Kappa je nevhodná kvůli tomu, že pravděpodobnost náhodné shody je poměrně nízká a těžko se určuje; kappa se hodí spíš pro klasifikační úlohy (proto ji použiju v Anjiině projektu na shodu v určování typu koreference, | ||
+ | - kappa measure | ||
+ | - G-theory - see [[http:// | ||
+ | Identifying Sources of Disagreement: | ||
+ | - the Pearson correlation - see (Snow et al., 2008) [[http:// | ||
* session | * session | ||
* player_A_id, | * player_A_id, | ||
* document(s) | * document(s) | ||
- | * number of corrections by player_A and by player_B (JM: I do not see the point in this) | + | * number of corrections by player_A and by player_B (**JM**: I do not see the point in this) |
- | * corrections by player_A and by player_B (JM: and maybe nor in this) | + | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the players' |
===== Design ===== | ===== Design ===== | ||
Line 145: | Line 194: | ||
* session time = elapsed time + remaining time | * session time = elapsed time + remaining time | ||
* how many sentences my partner has read so far | * how many sentences my partner has read so far | ||
- | * running pts **???????** (JM: I would be very cautious with this; the user might be tempted to cancel an action if the score decreases; the user might also try to fit the automatic annotation (by trying various arrows and watching if the score goes up or down), which is not what we want) | + | * running pts **???????** (**JM**: I would be very cautious with this; the user might be tempted to cancel an action if the score decreases; the user might also try to fit the automatic annotation (by trying various arrows and watching if the score goes up or down), which is not what we want) |
* Format of the text | * Format of the text | ||
- | * JM: nouns and pronouns might be displayed slightly differently so that the user avoids other parts of speech easily; he should not be allowed to use other parts of speech at all | + | |
* Visualization of the coreference pairs | * Visualization of the coreference pairs | ||
* colors | * colors | ||
- | * arrows (JM: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | + | * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) |
* ... | * ... | ||
Line 156: | Line 205: | ||
+ | ===== Tools needed ===== | ||
+ | * tagger ## tool_chain (CAC2.0) | ||
+ | * Linh's coreference resolution procedure - see TectoMT - **JM** | ||
+ | * vyzkouset - trenink a test - na datech Anji | ||
+ | * conversion: csts <-> pml m_coref scheme | ||
- | ===== Tools needed | + | |
- | * tagger ^BH^ ## tool_chain (CAC2.0) | + | ===== Pro toho, kdo bude hru implementovat |
- | | + | |
- | * conversion: csts <-> pml m_coref scheme | + | ====== ACL - IJCNLP2009 ====== |
+ | | ||
+ | | ||
+ | | ||
+ | * 23/3/09 - castecne jsem rozmyslela osnovu, podivejte se prosim na to a sve pripominky psat primo do latexovskeho zdrojaku |