Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:hladka:playcoref [2009/03/01 17:21] hladka |
user:hladka:playcoref [2010/02/09 09:24] (current) hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Play the Language: Play Coreference ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Aktuality ====== | ||
+ | * COLING 2010, deadline **Apr 22, 2010** | ||
+ | * vyvěsit PlayCoref na LGame hratelnou ČESKY a ANGLICKY, proto | ||
+ | * nachystat anglická data - Jak jsme na tom? Nějaká jsme už dávali dohromady, ne? | ||
+ | * Honzu a Lenku připravit na zapojení angličtiny. | ||
+ | * zapojit pojmenované entity | ||
+ | * pro češtinu Jirka nachystal a poslal Lence data. BH: kontaktovat Lenku. | ||
+ | * Jirko, v rámci TectoMT je taky nejspíš anglický NE recognizer? | ||
+ | * Pavle mohl bys prosím kontaktovat kamaráda, který programuje hry v NY, ukázat mu [[ http:// | ||
+ | * BH a Honza Kohout. nachystat demo PlayCoref (jako např. [[http:// | ||
+ | * BH: připravit pravidla hry (jako např. [[http:// | ||
+ | * Zimní seminář v Hejnicích, krátká prezentace screenshotů alfa verze hry, 25.1.2010 | ||
+ | * Na úvodní stránce s výběrem počtu hráčů přidat počet on-line hráčů - tak vím, zda má smysl zvolit hru dvou hráčů a doufat v protihráče | ||
+ | * Na úvodní stránce je špatně čitelný ten velký kulatý font | ||
+ | * Dvě verze instrukcí: krátké pro rychlé seznámení a zahrání si, dlouhé pro ty, kdo se chtějí zlepšit a mít lepší skóre. | ||
+ | * **BH**: Souhlasim (tak tomu je ted i u Shannon game). Kratke instrukce maji format dema, dlouhe jsou jako text doplneny screenshots. | ||
+ | * Pokud to půjde, využít systému Recaptcha - část textu už použita dříve v jiné hře - už mám nějakou anotaci - mohu počítat skóre, zbytek textu nový, získávám nová data | ||
+ | * Anotace koreference musí probíhat na jmenných frázích - nelze propojit slova " | ||
+ | * Padlo několik návrhů k propadaci hry - např. Lucie nabízí, že hru zadá studentům jako povinnou součást výuky svého semináře | ||
+ | |||
+ | * Schůzka 24/9/2009 | ||
+ | * Sestava: studenti Jan Kohout, Lenka Studničná; | ||
+ | * Rozhodnutí: | ||
+ | * Lenka: implementace " | ||
+ | * Honza: implementace rozhraní ve spolupráci se studentkou Helenou Pouchovou | ||
+ | * My: data - zpracování dat ACR a procedurou detekující jmenné entity | ||
+ | * Termín: 30. října 2009 | ||
+ | * Plány: submitnout abstract na demo session na [[http:// | ||
+ | |||
+ | |||
====== Motivace ====== | ====== Motivace ====== | ||
Line 21: | Line 68: | ||
* [[http:// | * [[http:// | ||
* Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
+ | |||
+ | |||
Line 30: | Line 79: | ||
====== Automatické určování koreference v českých datech - přehled ====== | ====== Automatické určování koreference v českých datech - přehled ====== | ||
* Experiments with Czech so far | * Experiments with Czech so far | ||
+ | - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. TSD 2005. **Available: | ||
- Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | ||
- Nguy Giang Linh; Žabokrtský, | - Nguy Giang Linh; Žabokrtský, | ||
Line 93: | Line 143: | ||
- POS tagger | - POS tagger | ||
- coreference resolution procedure | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 107: | Line 169: | ||
* Anja's data ## // PDT data that are currently being annotated for the extended coreference // | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
* **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, | * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, | ||
- | | + | ***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference mezi uzly s tagy N nebo P. Data jsou v adresari: ''/ |
- | vety/dokument; sipky_noun_noun-noun_pronoun-pronoun-pronoun/document; | + | ***BH (16/ |
* **EN** | * **EN** | ||
- | * search the data that are available | + | * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat. |
=== Coding === | === Coding === | ||
* utf-8 | * utf-8 | ||
Line 125: | Line 186: | ||
* sentence by sentence | * sentence by sentence | ||
* supervised selection of documents for a session | * supervised selection of documents for a session | ||
+ | |||
+ | |||
+ | |||
===== Scoring ===== | ===== Scoring ===== | ||
- | * '' | + | * '' |
**JM**: | **JM**: | ||
Line 136: | Line 200: | ||
**BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. | ||
- | |||
- | |||
Line 143: | Line 205: | ||
===== Output Data Needed ===== | ===== Output Data Needed ===== | ||
* score list ## // | * score list ## // | ||
- | * documents after the '' | + | * documents after the '' |
- | - kappa measure | + | (**JM**: Mluvil jsem kvůli měření mezianotátorské shody v anotování koreference se Zdeňkem a vyšlo z toho, že na měření shody na šipkách by použil prostě jen F-measure. Její smysl je jasný a je symetrická. Kappa je nevhodná kvůli tomu, že pravděpodobnost náhodné shody je poměrně nízká a těžko se určuje; kappa se hodí spíš pro klasifikační úlohy (proto ji použiju v Anjiině projektu na shodu v určování typu koreference, |
- | - G-theory | + | |
- | - the Pearson correlation | + | - G-theory |
+ | Identifying Sources of Disagreement: | ||
+ | | ||
* session | * session | ||
* player_A_id, | * player_A_id, | ||
* document(s) | * document(s) | ||
* number of corrections by player_A and by player_B (**JM**: I do not see the point in this) | * number of corrections by player_A and by player_B (**JM**: I do not see the point in this) | ||
- | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the manner of the players. Maybe the corrections will be total mess, but we have to see the data at least from the very first sessions. ) | + | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the players' behaviour. Maybe the corrections will be total mess, but we have to see the data at least from the very first sessions. ) |
===== Design ===== | ===== Design ===== | ||
Line 164: | Line 229: | ||
* arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | ||
* ... | * ... | ||
+ | |||
+ | |||
+ | |||
===== Tools needed ===== | ===== Tools needed ===== | ||
* tagger ## tool_chain (CAC2.0) | * tagger ## tool_chain (CAC2.0) | ||
- | * Linh's coreference resolution procedure | + | * Linh's coreference resolution procedure - see TectoMT |
- | * conversion: csts <-> pml m_coref scheme | + | * vyzkouset |
+ | * conversion: csts <-> pml m_coref scheme | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Kdo hru implementuje ===== | ||
+ | * Lenka Studničná vnitřek, | ||
+ | * Poznámky BH: | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | | ||
+ | - 3. Alternativy - Pokud budeme předkládat anotovaná data, může být obtížnost dokumentu vyjádřena přes počet přítomných koreferujících párů. | ||
+ | - 5. Víceslovné výrazy -- určitě na ně myslet v implementaci, | ||
Line 176: | Line 263: | ||
====== ACL - IJCNLP2009 ====== | ====== ACL - IJCNLP2009 ====== | ||
* [[http:// | * [[http:// | ||
- | * [[http:// | + | * [[http:// |
* pracovni adresar ''/ | * pracovni adresar ''/ | ||
+ | * 23/3/09 - castecne jsem rozmyslela osnovu, podivejte se prosim na to a sve pripominky psat primo do latexovskeho zdrojaku |