Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:hladka:playcoref [2009/02/25 22:34] hladka |
user:hladka:playcoref [2010/02/09 09:24] (current) hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Play the Language: Play Coreference ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Aktuality ====== | ||
+ | * COLING 2010, deadline **Apr 22, 2010** | ||
+ | * vyvěsit PlayCoref na LGame hratelnou ČESKY a ANGLICKY, proto | ||
+ | * nachystat anglická data - Jak jsme na tom? Nějaká jsme už dávali dohromady, ne? | ||
+ | * Honzu a Lenku připravit na zapojení angličtiny. | ||
+ | * zapojit pojmenované entity | ||
+ | * pro češtinu Jirka nachystal a poslal Lence data. BH: kontaktovat Lenku. | ||
+ | * Jirko, v rámci TectoMT je taky nejspíš anglický NE recognizer? | ||
+ | * Pavle mohl bys prosím kontaktovat kamaráda, který programuje hry v NY, ukázat mu [[ http:// | ||
+ | * BH a Honza Kohout. nachystat demo PlayCoref (jako např. [[http:// | ||
+ | * BH: připravit pravidla hry (jako např. [[http:// | ||
+ | * Zimní seminář v Hejnicích, krátká prezentace screenshotů alfa verze hry, 25.1.2010 | ||
+ | * Na úvodní stránce s výběrem počtu hráčů přidat počet on-line hráčů - tak vím, zda má smysl zvolit hru dvou hráčů a doufat v protihráče | ||
+ | * Na úvodní stránce je špatně čitelný ten velký kulatý font | ||
+ | * Dvě verze instrukcí: krátké pro rychlé seznámení a zahrání si, dlouhé pro ty, kdo se chtějí zlepšit a mít lepší skóre. | ||
+ | * **BH**: Souhlasim (tak tomu je ted i u Shannon game). Kratke instrukce maji format dema, dlouhe jsou jako text doplneny screenshots. | ||
+ | * Pokud to půjde, využít systému Recaptcha - část textu už použita dříve v jiné hře - už mám nějakou anotaci - mohu počítat skóre, zbytek textu nový, získávám nová data | ||
+ | * Anotace koreference musí probíhat na jmenných frázích - nelze propojit slova " | ||
+ | * Padlo několik návrhů k propadaci hry - např. Lucie nabízí, že hru zadá studentům jako povinnou součást výuky svého semináře | ||
+ | |||
+ | * Schůzka 24/9/2009 | ||
+ | * Sestava: studenti Jan Kohout, Lenka Studničná; | ||
+ | * Rozhodnutí: | ||
+ | * Lenka: implementace " | ||
+ | * Honza: implementace rozhraní ve spolupráci se studentkou Helenou Pouchovou | ||
+ | * My: data - zpracování dat ACR a procedurou detekující jmenné entity | ||
+ | * Termín: 30. října 2009 | ||
+ | * Plány: submitnout abstract na demo session na [[http:// | ||
+ | |||
+ | |||
====== Motivace ====== | ====== Motivace ====== | ||
Line 21: | Line 68: | ||
* [[http:// | * [[http:// | ||
* Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
+ | |||
+ | |||
Line 30: | Line 79: | ||
====== Automatické určování koreference v českých datech - přehled ====== | ====== Automatické určování koreference v českých datech - přehled ====== | ||
* Experiments with Czech so far | * Experiments with Czech so far | ||
+ | - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. TSD 2005. **Available: | ||
- Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | ||
- Nguy Giang Linh; Žabokrtský, | - Nguy Giang Linh; Žabokrtský, | ||
Line 77: | Line 127: | ||
====== Specification ====== | ====== Specification ====== | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
Line 93: | Line 136: | ||
* A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | ||
* Session time up to **???????** minutes. | * Session time up to **???????** minutes. | ||
- | * At the beginning, | + | * At the beginning |
- | * What my partner is doing? If (s)he hooks up the same pair of words as hooked up then the pair of words starts **??????? | + | * What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **??????? |
* The players can re-hook up any word any time in the session. | * The players can re-hook up any word any time in the session. | ||
- | * To design the game for a particular language the following data and tools are needed (or are welcome): | + | * To design the game for a particular language the following data and tools are needed (or, better said, are welcome): |
- corpus of manually anotated coreference | - corpus of manually anotated coreference | ||
- POS tagger | - POS tagger | ||
- coreference resolution procedure | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 113: | Line 166: | ||
=== Text Selection === | === Text Selection === | ||
- | * CS data ^JM^ | + | * CS data |
* Anja's data ## // PDT data that are currently being annotated for the extended coreference // | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
- | * more 'user-friendly' | + | |
+ | ***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference mezi uzly s tagy N nebo P. Data jsou v adresari: ''/ | ||
+ | ***BH (16/3/09)**. Zajmena filtrovat i podle subPOS: **POVOLIT**: | ||
* **EN** | * **EN** | ||
- | * search the data that are available | + | * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat. |
=== Coding === | === Coding === | ||
* utf-8 | * utf-8 | ||
Line 131: | Line 186: | ||
* sentence by sentence | * sentence by sentence | ||
* supervised selection of documents for a session | * supervised selection of documents for a session | ||
+ | |||
Line 137: | Line 193: | ||
===== Scoring ===== | ===== Scoring ===== | ||
- | * '' | + | * '' |
- | // w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme | + | **JM**: |
+ | Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to | ||
+ | nepřehlédl | ||
+ | |||
+ | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. | ||
Line 145: | Line 205: | ||
===== Output Data Needed ===== | ===== Output Data Needed ===== | ||
* score list ## // | * score list ## // | ||
- | * documents after the '' | + | * documents after the '' |
+ | (**JM**: Mluvil jsem kvůli měření mezianotátorské shody v anotování koreference se Zdeňkem a vyšlo z toho, že na měření shody na šipkách by použil prostě jen F-measure. Její smysl je jasný a je symetrická. Kappa je nevhodná kvůli tomu, že pravděpodobnost náhodné shody je poměrně nízká a těžko se určuje; kappa se hodí spíš pro klasifikační úlohy (proto ji použiju v Anjiině projektu na shodu v určování typu koreference, | ||
+ | - kappa measure | ||
+ | - G-theory - see [[http:// | ||
+ | Identifying Sources of Disagreement: | ||
+ | - the Pearson correlation - see (Snow et al., 2008) [[http:// | ||
* session | * session | ||
* player_A_id, | * player_A_id, | ||
* document(s) | * document(s) | ||
- | * number of corrections by player_A and by player_B | + | * number of corrections by player_A and by player_B |
- | * corrections by player_A and by player_B | + | * corrections by player_A and by player_B |
Line 157: | Line 222: | ||
* session time = elapsed time + remaining time | * session time = elapsed time + remaining time | ||
* how many sentences my partner has read so far | * how many sentences my partner has read so far | ||
- | * running pts **???????** | + | * running pts **??????? |
+ | * Format of the text | ||
+ | * **JM**: nouns and pronouns might be displayed slightly differently so that the user avoids other parts of speech easily; he should not be allowed to use other parts of speech at all | ||
* Visualization of the coreference pairs | * Visualization of the coreference pairs | ||
* colors | * colors | ||
- | * arrows | + | * arrows |
* ... | * ... | ||
+ | |||
+ | ===== Tools needed ===== | ||
+ | * tagger ## tool_chain (CAC2.0) | ||
+ | * Linh's coreference resolution procedure - see TectoMT - **JM** | ||
+ | * vyzkouset - trenink a test - na datech Anji | ||
+ | * conversion: csts <-> pml m_coref scheme | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Kdo hru implementuje ===== | ||
+ | * Lenka Studničná vnitřek, [[http:// | ||
+ | * Poznámky BH: | ||
+ | - 1.1 Pokud není protihráč, | ||
+ | - 1.2 Dle designu hry. | ||
+ | - 2.1 použití termínu ´paralelních dat´je v daném kontextu lehce zavádějící (i když chápu, jak to autorka myslela) | ||
+ | - Jeden hráč se vzdá, další může samozřejmě pokračovat. Pro měření spolehlivosti hráče je zajímavé vědět i to, kolikrát vzdal. | ||
+ | - 2. Vstupní dokumenty budou zpracovány ACR. | ||
+ | - 3. V tabulce Matches_Players postrádám odkaz na soupeře. | ||
+ | - 3. Alternativy - Pokud budeme předkládat anotovaná data, může být obtížnost dokumentu vyjádřena přes počet přítomných koreferujících párů. | ||
+ | - 5. Víceslovné výrazy -- určitě na ně myslet v implementaci, | ||
- | ===== Tools needed ===== | ||
- | * tagger ^BH^ ## tool_chain (CAC2.0) | ||
- | * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? '' | ||
- | * conversion: csts <-> pml m_coref scheme | ||
+ | ====== ACL - IJCNLP2009 ====== | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * pracovni adresar ''/ | ||
+ | * 23/3/09 - castecne jsem rozmyslela osnovu, podivejte se prosim na to a sve pripominky psat primo do latexovskeho zdrojaku |