Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:hladka:playcoref [2008/05/29 09:37] ufal Anja |
user:hladka:playcoref [2010/02/09 09:24] (current) hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== Motivace | + | ====== Play the Language: Play Coreference ====== |
- | Na t-rovině PDT 2.0 proběhlo anotování koreference, | ||
- | Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), | ||
Line 18: | Line 16: | ||
+ | ====== Aktuality ====== | ||
+ | * COLING 2010, deadline **Apr 22, 2010** | ||
+ | * vyvěsit PlayCoref na LGame hratelnou ČESKY a ANGLICKY, proto | ||
+ | * nachystat anglická data - Jak jsme na tom? Nějaká jsme už dávali dohromady, ne? | ||
+ | * Honzu a Lenku připravit na zapojení angličtiny. | ||
+ | * zapojit pojmenované entity | ||
+ | * pro češtinu Jirka nachystal a poslal Lence data. BH: kontaktovat Lenku. | ||
+ | * Jirko, v rámci TectoMT je taky nejspíš anglický NE recognizer? | ||
+ | * Pavle mohl bys prosím kontaktovat kamaráda, který programuje hry v NY, ukázat mu [[ http:// | ||
+ | * BH a Honza Kohout. nachystat demo PlayCoref (jako např. [[http:// | ||
+ | * BH: připravit pravidla hry (jako např. [[http:// | ||
+ | * Zimní seminář v Hejnicích, krátká prezentace screenshotů alfa verze hry, 25.1.2010 | ||
+ | * Na úvodní stránce s výběrem počtu hráčů přidat počet on-line hráčů - tak vím, zda má smysl zvolit hru dvou hráčů a doufat v protihráče | ||
+ | * Na úvodní stránce je špatně čitelný ten velký kulatý font | ||
+ | * Dvě verze instrukcí: krátké pro rychlé seznámení a zahrání si, dlouhé pro ty, kdo se chtějí zlepšit a mít lepší skóre. | ||
+ | * **BH**: Souhlasim (tak tomu je ted i u Shannon game). Kratke instrukce maji format dema, dlouhe jsou jako text doplneny screenshots. | ||
+ | * Pokud to půjde, využít systému Recaptcha - část textu už použita dříve v jiné hře - už mám nějakou anotaci - mohu počítat skóre, zbytek textu nový, získávám nová data | ||
+ | * Anotace koreference musí probíhat na jmenných frázích - nelze propojit slova " | ||
+ | * Padlo několik návrhů k propadaci hry - např. Lucie nabízí, že hru zadá studentům jako povinnou součást výuky svého semináře | ||
- | ===== Hraní | + | * Schůzka 24/9/2009 |
- | 26/5/08 Anja, Bára: | + | * Sestava: studenti Jan Kohout, Lenka Studničná; |
+ | * Rozhodnutí: | ||
+ | * Lenka: implementace " | ||
+ | * Honza: implementace rozhraní ve spolupráci se studentkou Helenou Pouchovou | ||
+ | * My: data - zpracování dat ACR a procedurou detekující jmenné entity | ||
+ | * Termín: 30. října 2009 | ||
+ | * Plány: submitnout abstract na demo session na [[http:// | ||
+ | |||
+ | |||
+ | ====== Motivace ====== | ||
+ | |||
+ | |||
+ | Na t-rovině PDT 2.0 proběhlo anotování koreference, | ||
+ | |||
+ | Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), | ||
+ | |||
+ | |||
+ | ====== Motivační publikace ====== | ||
+ | |||
+ | * Návrh projektu na GAČR 2009 // | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | ||
+ | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, ([[http:// | ||
+ | |||
+ | |||
+ | ====== Anotování koreference v českých datech ====== | ||
+ | * PDT 2.0 [[http:// | ||
+ | * rozšířená koreference - viz přehled [[https:// | ||
+ | * [[http:// | ||
+ | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Automatické určování koreference v českých datech - přehled ====== | ||
+ | * Experiments with Czech so far | ||
+ | - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. TSD 2005. **Available: | ||
+ | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | ||
+ | - Nguy Giang Linh; Žabokrtský, | ||
+ | * Linh's procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Návrh hry - brainstorming ====== | ||
+ | |||
+ | **26/5/08 Anja, Bára:** | ||
* Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy | * Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy | ||
* Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | * Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | ||
Line 28: | Line 103: | ||
* bridging anaphora ... určitě ne v prototypu hry, (//pozn. AN// - ale možná potom, třeba jako další úroveň) | * bridging anaphora ... určitě ne v prototypu hry, (//pozn. AN// - ale možná potom, třeba jako další úroveň) | ||
* Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (//pozn. AN// - Nabízím otázku typu " | * Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (//pozn. AN// - Nabízím otázku typu " | ||
- | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? | + | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? |
* Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | * Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | ||
- | * Texty před hrou nějak zpracovat? Například, | + | * Texty před hrou nějak zpracovat? Například, |
* Hra kolika hráčů? | * Hra kolika hráčů? | ||
* Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | * Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | ||
+ | **26/6/08 Jirka:** | ||
+ | * JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu. Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, | ||
+ | * (11/ | ||
+ | **11/2/09 Bára:** | ||
+ | * BH: | ||
+ | * //Oznac podstatna jmena (a/nebo zajmena), ktera k sobe patri// | ||
+ | * **Zakladni strategie: | ||
+ | * **Vyvoj partie:** | ||
+ | * Rychlejsi hrac muze v kteremkoli okamziku urceneho casu partii ukoncit. Pomalejsi hrac musi dodelat vsechny vety, ktere zpracoval rychlejsi hrac. | ||
+ | * Vyprsel casovy limit. | ||
+ | * Casovy limit jeste nevyprsel a hraci chteji hrat dal: automaticky se natahne dalsi dokument, konkretne jeho prvni dve vety. | ||
+ | * **Pocitani skore:** Skore se bude pocitat pouze za dvojice, na kterych se oba hraci shodli. Jeste bych do skore zapocitala bonusove body pro toho, kdo byl rychlejsi. | ||
+ | * **Vystup:** dvojice, na kterych se hraci shodli a neshodli. Shoda bude prinosna, ale co delat s temi dvojicemi, ktere oznacil pouze jeden hrac? Muze se objevit jeste jedna sance na shodu, a to ta, ktera prijde z jine partie se stejnym dokumentem. Proto bude muset byt kladen duraz na rizene podsouvani dokumentu do partii. | ||
+ | * Kontrolni mechanismy, aby hraci nespojovali libovolna dve slova - vzhledem k navrhu na pocitani skore, tj. za shodu, budou hraci aspon castecne motivovani hrat smysluplne. | ||
- | ===== Anotování koreference ===== | ||
- | * PDT 2.0 [[http:// | ||
- | * rozšířená koreference - viz přehled [[https:// | ||
- | * ukázky anotovaných souborů | ||
- | ===== Automatické určování koreference ===== | ||
- | * Dosavadní experimenty | ||
- | ===== Dokumenty | + | ====== |
- | | + | |
- | | + | |
- | | + | |
- | | + | |
+ | |||
+ | ===== Strategy ===== | ||
+ | * **Hook up the words which refer to the same entity.** | ||
+ | * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **??????? | ||
+ | * Session time up to **???????** minutes. | ||
+ | * At the beginning of the game, if there is no coreference pair in the first two sentences (as determined by the manual/ | ||
+ | | ||
+ | * The players can re-hook up any word any time in the session. | ||
+ | * To design the game for a particular language the following data and tools are needed (or, better said, are welcome): | ||
+ | - corpus of manually anotated coreference | ||
+ | - POS tagger | ||
+ | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Input Texts ===== | ||
+ | |||
+ | === Text Selection === | ||
+ | * CS data | ||
+ | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
+ | * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, | ||
+ | ***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference | ||
+ | ***BH (16/ | ||
+ | * **EN** | ||
+ | * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat. | ||
+ | === Coding === | ||
+ | * utf-8 | ||
+ | |||
+ | === Internal format === | ||
+ | * sgml ## //propose dtd file: include the element '' | ||
+ | |||
+ | === (Pre)processing === | ||
+ | * tagging ## //see Tools needed below// | ||
+ | * acr by Linh ## // dtto // | ||
+ | |||
+ | === Text handling === | ||
+ | * sentence by sentence | ||
+ | * supervised selection of documents for a session | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Scoring ===== | ||
+ | * '' | ||
+ | |||
+ | **JM**: | ||
+ | Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to | ||
+ | nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných | ||
+ | |||
+ | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. | ||
+ | |||
+ | |||
+ | |||
+ | ===== Output Data Needed ===== | ||
+ | * score list ## //player_id, pts, #sessions// | ||
+ | * documents after the '' | ||
+ | (**JM**: Mluvil jsem kvůli měření mezianotátorské shody v anotování koreference se Zdeňkem a vyšlo z toho, že na měření shody na šipkách by použil prostě jen F-measure. Její smysl je jasný a je symetrická. Kappa je nevhodná kvůli tomu, že pravděpodobnost náhodné shody je poměrně nízká a těžko se určuje; kappa se hodí spíš pro klasifikační úlohy (proto ji použiju v Anjiině projektu na shodu v určování | ||
+ | - kappa measure | ||
+ | - G-theory - see [[http://en.wikipedia.org/ | ||
+ | Identifying Sources of Disagreement: | ||
+ | - the Pearson correlation - see (Snow et al., 2008) [[http:// | ||
+ | | ||
+ | * player_A_id, | ||
+ | * document(s) | ||
+ | * number of corrections by player_A and by player_B (**JM**: I do not see the point in this) | ||
+ | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the players' | ||
+ | |||
+ | |||
+ | ===== Design ===== | ||
+ | * What info to be displayed in the session? | ||
+ | * session time = elapsed time + remaining time | ||
+ | * how many sentences my partner has read so far | ||
+ | * running pts **??????? | ||
+ | * Format of the text | ||
+ | * **JM**: nouns and pronouns might be displayed slightly differently so that the user avoids other parts of speech easily; he should not be allowed to use other parts of speech at all | ||
+ | * Visualization of the coreference pairs | ||
+ | * colors | ||
+ | * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | ||
+ | * ... | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Tools needed ===== | ||
+ | * tagger ## tool_chain (CAC2.0) | ||
+ | * Linh's coreference resolution procedure - see TectoMT - **JM** | ||
+ | * vyzkouset - trenink a test - na datech Anji | ||
+ | * conversion: csts <-> pml m_coref scheme | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Kdo hru implementuje ===== | ||
+ | * Lenka Studničná vnitřek, | ||
+ | * Poznámky BH: | ||
+ | - 1.1 Pokud není protihráč, | ||
+ | - 1.2 Dle designu hry. | ||
+ | - 2.1 použití termínu ´paralelních dat´je v daném kontextu lehce zavádějící (i když chápu, jak to autorka myslela) | ||
+ | - Jeden hráč se vzdá, další může samozřejmě pokračovat. Pro měření spolehlivosti hráče je zajímavé vědět i to, kolikrát vzdal. | ||
+ | - 2. Vstupní dokumenty budou zpracovány ACR. | ||
+ | - 3. V tabulce Matches_Players postrádám odkaz na soupeře. | ||
+ | - 3. Alternativy - Pokud budeme předkládat anotovaná data, může být obtížnost dokumentu vyjádřena přes počet přítomných koreferujících párů. | ||
+ | - 5. Víceslovné výrazy -- určitě na ně myslet v implementaci, | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== ACL - IJCNLP2009 ====== | ||
+ | | ||
+ | * [[http:// | ||
+ | * pracovni adresar ''/ | ||
+ | * 23/3/09 - castecne jsem rozmyslela osnovu, podivejte se prosim na to a sve pripominky psat primo do latexovskeho zdrojaku |