Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playcoref [2009/02/26 12:11] hladka |
user:hladka:playcoref [2009/03/10 10:12] hladka |
||
---|---|---|---|
Line 77: | Line 77: | ||
====== Specification ====== | ====== Specification ====== | ||
+ | |||
+ | |||
Line 84: | Line 86: | ||
* A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | ||
* Session time up to **???????** minutes. | * Session time up to **???????** minutes. | ||
- | * At the beginning of the game, if there is no coreference pair in the first two sentences (as determined by the manual/ | + | * At the beginning of the game, if there is no coreference pair in the first two sentences (as determined by the manual/ |
* What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **??????? | * What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **??????? | ||
* The players can re-hook up any word any time in the session. | * The players can re-hook up any word any time in the session. | ||
- | * To design the game for a particular language the following data and tools are needed (or are welcome): | + | * To design the game for a particular language the following data and tools are needed (or, better said, are welcome): |
- corpus of manually anotated coreference | - corpus of manually anotated coreference | ||
- POS tagger | - POS tagger | ||
- coreference resolution procedure | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 101: | Line 111: | ||
* CS data | * CS data | ||
* Anja's data ## // PDT data that are currently being annotated for the extended coreference // | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
- | * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, | + | * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, |
- | * **JM** | + | |
* **EN** | * **EN** | ||
* search the data that are available | * search the data that are available | ||
Line 118: | Line 128: | ||
* sentence by sentence | * sentence by sentence | ||
* supervised selection of documents for a session | * supervised selection of documents for a session | ||
+ | |||
+ | |||
===== Scoring ===== | ===== Scoring ===== | ||
- | * '' | + | * '' |
**JM**: | **JM**: | ||
Line 127: | Line 139: | ||
nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. | nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. | ||
- | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci | + | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. |
===== Output Data Needed ===== | ===== Output Data Needed ===== | ||
* score list ## // | * score list ## // | ||
- | * documents after the '' | + | * documents after the '' |
+ | (**JM**: Mluvil jsem kvůli měření mezianotátorské shody v anotování koreference se Zdeňkem a vyšlo z toho, že na měření shody na šipkách by použil prostě jen F-measure. Její smysl je jasný a je symetrická. Kappa je nevhodná kvůli tomu, že pravděpodobnost náhodné shody je poměrně nízká a těžko se určuje; kappa se hodí spíš pro klasifikační úlohy (proto ji použiju v Anjiině projektu na shodu v určování typu koreference, | ||
+ | - kappa measure | ||
+ | - G-theory - see [[http:// | ||
+ | Identifying Sources of Disagreement: | ||
+ | - the Pearson correlation - see (Snow et al., 2008) [[http:// | ||
* session | * session | ||
* player_A_id, | * player_A_id, | ||
* document(s) | * document(s) | ||
* number of corrections by player_A and by player_B (**JM**: I do not see the point in this) | * number of corrections by player_A and by player_B (**JM**: I do not see the point in this) | ||
- | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: | + | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the players' |
===== Design ===== | ===== Design ===== | ||
Line 152: | Line 171: | ||
+ | ===== Tools needed ===== | ||
+ | * tagger ## tool_chain (CAC2.0) | ||
+ | * Linh's coreference resolution procedure - see TectoMT | ||
+ | * conversion: csts <-> pml m_coref scheme | ||
- | ===== Tools needed | + | |
- | | + | |
- | * Linh's coreference resolution procedure **PS TO DO** What type of input data the Linh's procedure works with? '' | + | ====== ACL - IJCNLP2009 ====== |
- | * conversion: csts <-> pml m_coref scheme | + | |
+ | | ||
+ | |