Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playcoref [2009/02/25 13:36] hladka |
user:hladka:playcoref [2009/03/01 17:24] hladka |
||
---|---|---|---|
Line 7: | Line 7: | ||
+ | ====== Motivační publikace ====== | ||
+ | * Návrh projektu na GAČR 2009 // | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | ||
+ | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, ([[http:// | ||
- | ====== Specification ====== | ||
+ | ====== Anotování koreference v českých datech ====== | ||
+ | * PDT 2.0 [[http:// | ||
+ | * rozšířená koreference - viz přehled [[https:// | ||
+ | * [[http:// | ||
+ | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Automatické určování koreference v českých datech - přehled ====== | ||
+ | * Experiments with Czech so far | ||
+ | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | ||
+ | - Nguy Giang Linh; Žabokrtský, | ||
+ | * Linh's procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Návrh hry - brainstorming ====== | ||
+ | |||
+ | **26/5/08 Anja, Bára:** | ||
+ | * Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy | ||
+ | * Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | ||
+ | * Výstup hry: koreferenční řetízky | ||
+ | * gramatická koreference ... určitě ne v prototypu hru | ||
+ | * TEXTOVÁ KOREFERENCE ... v prototypu hry určitě | ||
+ | * bridging anaphora ... určitě ne v prototypu hry, (//pozn. AN// - ale možná potom, třeba jako další úroveň) | ||
+ | * Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (//pozn. AN// - Nabízím otázku typu " | ||
+ | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (//pozn. AN// - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???) | ||
+ | * Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | ||
+ | * Texty před hrou nějak zpracovat? Například, | ||
+ | * Hra kolika hráčů? | ||
+ | * Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | ||
+ | **26/6/08 Jirka:** | ||
+ | * JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu. Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, | ||
+ | * (11/ | ||
+ | **11/2/09 Bára:** | ||
+ | * BH: | ||
+ | * //Oznac podstatna jmena (a/nebo zajmena), ktera k sobe patri// | ||
+ | * **Zakladni strategie: | ||
+ | * **Vyvoj partie:** | ||
+ | * Rychlejsi hrac muze v kteremkoli okamziku urceneho casu partii ukoncit. Pomalejsi hrac musi dodelat vsechny vety, ktere zpracoval rychlejsi hrac. | ||
+ | * Vyprsel casovy limit. | ||
+ | * Casovy limit jeste nevyprsel a hraci chteji hrat dal: automaticky se natahne dalsi dokument, konkretne jeho prvni dve vety. | ||
+ | * **Pocitani skore:** Skore se bude pocitat pouze za dvojice, na kterych se oba hraci shodli. Jeste bych do skore zapocitala bonusove body pro toho, kdo byl rychlejsi. | ||
+ | * **Vystup:** dvojice, na kterych se hraci shodli a neshodli. Shoda bude prinosna, ale co delat s temi dvojicemi, ktere oznacil pouze jeden hrac? Muze se objevit jeste jedna sance na shodu, a to ta, ktera prijde z jine partie se stejnym dokumentem. Proto bude muset byt kladen duraz na rizene podsouvani dokumentu do partii. | ||
+ | * Kontrolni mechanismy, aby hraci nespojovali libovolna dve slova - vzhledem k navrhu na pocitani skore, tj. za shodu, budou hraci aspon castecne motivovani hrat smysluplne. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Specification ====== | ||
Line 17: | Line 83: | ||
===== Strategy ===== | ===== Strategy ===== | ||
- | * Hook up the words which refer to the same entity. | + | |
- | * A game of two players. Players are paired randomly. Computer as a player: | + | * A game of two players. Players are paired randomly. Computer as a player: |
* Session time up to **???????** minutes. | * Session time up to **???????** minutes. | ||
- | * At the beginning, | + | * At the beginning |
- | * What my partner is doing? If (s)he hooks up the same pair of words that I hooked up as well then the pair of words starts **??????? | + | * What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **??????? |
* The players can re-hook up any word any time in the session. | * The players can re-hook up any word any time in the session. | ||
+ | * To design the game for a particular language the following data and tools are needed (or, better said, are welcome): | ||
+ | - corpus of manually anotated coreference | ||
+ | - POS tagger | ||
+ | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
Line 31: | Line 104: | ||
=== Text Selection === | === Text Selection === | ||
- | To design the game for a particular language | + | * CS data |
- | - corpus | + | * Anja's data ## // PDT data that are currently being annotated |
- | - POS tagger | + | * **JM**: It would be nice if the players could choose |
- | - coreference resolution procedure | + | * **---JM TO DO---** na datech od Anji zjistit pro nas zajimave statistiky typu |
+ | vety/ | ||
- | * CS: Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
- | * CS: more ' | ||
* **EN** | * **EN** | ||
+ | * search the data that are available | ||
=== Coding === | === Coding === | ||
* utf-8 | * utf-8 | ||
=== Internal format === | === Internal format === | ||
- | * sgml ## //propose dtd file: include the element '' | + | * sgml ## //propose dtd file: include the element '' |
- | * conversion: csts <-> pml m_coref scheme | + | |
=== (Pre)processing === | === (Pre)processing === | ||
- | * tagging | + | * tagging |
- | * t-parser | + | * acr by Linh ## // dtto // |
=== Text handling === | === Text handling === | ||
Line 55: | Line 126: | ||
* supervised selection of documents for a session | * supervised selection of documents for a session | ||
- | ===== Scoring ===== | ||
- | * top lists | ||
- | ===== Output Data ===== | + | ===== Scoring |
+ | * '' | ||
+ | |||
+ | **JM**: | ||
+ | Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí to na něj tlak, aby se podíval, jestli to | ||
+ | nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. | ||
- | ===== Design ===== | + | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. |
Line 67: | Line 141: | ||
- | ===== Tools needed ===== | ||
- | * tagger ^BH^ ## tool_chain (CAC2.0) | ||
- | * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? '' | ||
- | ====== Motivační publikace ====== | ||
- | * Návrh projektu na GAČR 2009 // | ||
- | * [[http:// | ||
- | * [[http:// | ||
- | * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | ||
- | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, ([[http:// | ||
- | ===== Anotování koreference v českých datech | + | ===== Output Data Needed |
- | * PDT 2.0 [[http://ufal.mff.cuni.cz/pdt2.0/doc/ | + | |
- | * rozšířená koreference | + | |
- | | + | - kappa measure |
- | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/ | + | - G-theory |
+ | - the Pearson correlation - viz (Snow et al., 2008) [[http:// | ||
+ | * session | ||
+ | * player_A_id, player_B_id | ||
+ | * document(s) | ||
+ | * number of corrections by player_A and by player_B | ||
+ | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the manner of the players. Maybe the corrections will be total mess, but we have to see the data at least from the very first sessions. ) | ||
+ | ===== Design ===== | ||
+ | * What info to be displayed in the session? | ||
+ | * session time = elapsed time + remaining time | ||
+ | * how many sentences my partner has read so far | ||
+ | * running pts **???????** (**JM**: I would be very cautious with this; the user might be tempted to cancel an action if the score decreases; the user might also try to fit the automatic annotation (by trying various arrows and watching if the score goes up or down), which is not what we want) | ||
+ | * Format of the text | ||
+ | * **JM**: nouns and pronouns might be displayed slightly differently so that the user avoids other parts of speech easily; he should not be allowed to use other parts of speech at all | ||
+ | * Visualization of the coreference pairs | ||
+ | * colors | ||
+ | * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | ||
+ | * ... | ||
- | ===== Automatické určování koreference v českých datech - přehled | + | ===== Tools needed |
- | * Dosavadní experimenty | + | * tagger ## tool_chain (CAC2.0) |
+ | * Linh's coreference resolution procedure **---PS TO DO---** What type of input data the Linh's procedure works with? '' | ||
+ | * conversion: csts <-> pml m_coref scheme | ||
Line 93: | Line 177: | ||
- | + | ====== ACL - IJCNLP2009 ====== | |
- | + | | |
- | ===== Návrh hry - brainstorming | + | |
- | **26/5/08 Anja, Bára:** | + | |
- | | + | |
- | * Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | + | |
- | * Výstup hry: koreferenční řetízky | + | |
- | * gramatická koreference ... určitě ne v prototypu hru | + | |
- | * TEXTOVÁ KOREFERENCE ... v prototypu hry určitě | + | |
- | * bridging anaphora ... určitě ne v prototypu hry, (//pozn. AN// - ale možná potom, třeba jako další úroveň) | + | |
- | * Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (//pozn. AN// - Nabízím otázku typu " | + | |
- | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (//pozn. AN// - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???) | + | |
- | * Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, barvičky jsou určitě nejlepším řešením. Vět na vstupu máme jen málo, takže barvy stačí. Jakmile tam dáme bridging, to už tak nepůjde, protože barvy se budou křížit - jedno slovo se může zůčastnit více vztahů. Ale bridging zatím neděláme, takže je to v pořádku) | + | |
- | | + | |
- | * Hra kolika hráčů? | + | |
- | * Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | + | |
- | **26/6/08 Jirka:** | + | |
- | * JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu. Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, | + | |
- | | + | |
- | **11/2/09 Bára:** | + | |
- | * BH: | + | |
- | * //Oznac podstatna jmena (a/nebo zajmena), ktera k sobe patri// | + | |
- | * **Zakladni strategie: | + | |
- | * **Vyvoj partie:** | + | |
- | * Rychlejsi hrac muze v kteremkoli okamziku urceneho casu partii ukoncit. Pomalejsi hrac musi dodelat vsechny vety, ktere zpracoval rychlejsi hrac. | + | |
- | * Vyprsel casovy limit. | + | |
- | * Casovy limit jeste nevyprsel a hraci chteji hrat dal: automaticky se natahne dalsi dokument, konkretne jeho prvni dve vety. | + | |
- | * **Pocitani skore:** Skore se bude pocitat pouze za dvojice, na kterych se oba hraci shodli. Jeste bych do skore zapocitala bonusove body pro toho, kdo byl rychlejsi. | + | |
- | * **Vystup:** dvojice, na kterych se hraci shodli a neshodli. Shoda bude prinosna, ale co delat s temi dvojicemi, ktere oznacil pouze jeden hrac? Muze se objevit jeste jedna sance na shodu, a to ta, ktera prijde z jine partie se stejnym dokumentem. Proto bude muset byt kladen duraz na rizene podsouvani dokumentu do partii. | + | |
- | * Kontrolni mechanismy, aby hraci nespojovali libovolna dve slova - vzhledem k navrhu na pocitani skore, tj. za shodu, budou hraci aspon castecne motivovani hrat smysluplne. | + |