Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playcoref [2009/02/25 21:45] hladka |
user:hladka:playcoref [2009/02/26 12:45] hladka |
||
---|---|---|---|
Line 7: | Line 7: | ||
+ | ====== Motivační publikace ====== | ||
+ | * Návrh projektu na GAČR 2009 // | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | ||
+ | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, ([[http:// | ||
- | ====== Specification ====== | ||
+ | ====== Anotování koreference v českých datech ====== | ||
+ | * PDT 2.0 [[http:// | ||
+ | * rozšířená koreference - viz přehled [[https:// | ||
+ | * [[http:// | ||
+ | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
Line 16: | Line 26: | ||
+ | |||
+ | |||
+ | ====== Automatické určování koreference v českých datech - přehled ====== | ||
+ | * Experiments with Czech so far | ||
+ | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | ||
+ | - Nguy Giang Linh; Žabokrtský, | ||
+ | * Linh's procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Návrh hry - brainstorming ====== | ||
+ | |||
+ | **26/5/08 Anja, Bára:** | ||
+ | * Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy | ||
+ | * Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | ||
+ | * Výstup hry: koreferenční řetízky | ||
+ | * gramatická koreference ... určitě ne v prototypu hru | ||
+ | * TEXTOVÁ KOREFERENCE ... v prototypu hry určitě | ||
+ | * bridging anaphora ... určitě ne v prototypu hry, (//pozn. AN// - ale možná potom, třeba jako další úroveň) | ||
+ | * Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (//pozn. AN// - Nabízím otázku typu " | ||
+ | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (//pozn. AN// - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???) | ||
+ | * Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | ||
+ | * Texty před hrou nějak zpracovat? Například, | ||
+ | * Hra kolika hráčů? | ||
+ | * Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | ||
+ | **26/6/08 Jirka:** | ||
+ | * JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu. Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, | ||
+ | * (11/ | ||
+ | **11/2/09 Bára:** | ||
+ | * BH: | ||
+ | * //Oznac podstatna jmena (a/nebo zajmena), ktera k sobe patri// | ||
+ | * **Zakladni strategie: | ||
+ | * **Vyvoj partie:** | ||
+ | * Rychlejsi hrac muze v kteremkoli okamziku urceneho casu partii ukoncit. Pomalejsi hrac musi dodelat vsechny vety, ktere zpracoval rychlejsi hrac. | ||
+ | * Vyprsel casovy limit. | ||
+ | * Casovy limit jeste nevyprsel a hraci chteji hrat dal: automaticky se natahne dalsi dokument, konkretne jeho prvni dve vety. | ||
+ | * **Pocitani skore:** Skore se bude pocitat pouze za dvojice, na kterych se oba hraci shodli. Jeste bych do skore zapocitala bonusove body pro toho, kdo byl rychlejsi. | ||
+ | * **Vystup:** dvojice, na kterych se hraci shodli a neshodli. Shoda bude prinosna, ale co delat s temi dvojicemi, ktere oznacil pouze jeden hrac? Muze se objevit jeste jedna sance na shodu, a to ta, ktera prijde z jine partie se stejnym dokumentem. Proto bude muset byt kladen duraz na rizene podsouvani dokumentu do partii. | ||
+ | * Kontrolni mechanismy, aby hraci nespojovali libovolna dve slova - vzhledem k navrhu na pocitani skore, tj. za shodu, budou hraci aspon castecne motivovani hrat smysluplne. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Specification ====== | ||
Line 25: | Line 86: | ||
* A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | ||
* Session time up to **???????** minutes. | * Session time up to **???????** minutes. | ||
- | * At the beginning, | + | * At the beginning |
- | * What my partner is doing? If (s)he hooks up the same pair of words as hooked up then the pair of words starts **??????? | + | * What my partner is doing? If (s)he hooks up the same pair of words as I hooked up then the pair of words starts **??????? |
* The players can re-hook up any word any time in the session. | * The players can re-hook up any word any time in the session. | ||
- | * To design the game for a particular language the following data and tools are needed (or are welcome): | + | * To design the game for a particular language the following data and tools are needed (or, better said, are welcome): |
- corpus of manually anotated coreference | - corpus of manually anotated coreference | ||
- POS tagger | - POS tagger | ||
- coreference resolution procedure | - coreference resolution procedure | ||
+ | |||
Line 42: | Line 104: | ||
=== Text Selection === | === Text Selection === | ||
- | * CS data ^JM^ | + | * CS data |
* Anja's data ## // PDT data that are currently being annotated for the extended coreference // | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
- | * more 'user-friendly' | + | |
+ | * **---JM TO DO---** na datech od Anji zjistit pro nas zajimave statistiky typu | ||
+ | vety/ | ||
* **EN** | * **EN** | ||
* search the data that are available | * search the data that are available | ||
Line 51: | Line 116: | ||
=== Internal format === | === Internal format === | ||
- | * sgml ## //propose dtd file: include the element '' | + | * sgml ## //propose dtd file: include the element '' |
- | * conversion: csts <-> pml m_coref scheme | + | |
=== (Pre)processing === | === (Pre)processing === | ||
Line 61: | Line 125: | ||
* sentence by sentence | * sentence by sentence | ||
* supervised selection of documents for a session | * supervised selection of documents for a session | ||
- | |||
===== Scoring ===== | ===== Scoring ===== | ||
- | * '' | + | * '' |
- | // w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac a ja je neoznacil, nebudeme je tim tlacit | + | **JM**: |
+ | Já myslím, že do shody je tlačit chceme. Je žádoucí, aby anotace byla co nejúplnější. Když druhý hráč uvidí, že první hráč spojil nějaké slovo, vyvíjí | ||
+ | nepřehlédl a jestli by ho nemohl zapojit také. Neukazuje se mu kam, takže když nenajde žádný cíl, nezapojí ho a bude se radovat, že první hráč udělal nějakou chybu. Myslím, že ta funkce by měla brát **buď** automatickou anotaci **nebo** manuální, podle toho, co je k dispozici. Rovněž si teď myslím, že manuálně anotovaná data budeme používat minimálně - pouze pro změření úspěšnosti anotace pomocí hry - to ale nemusí být vůbec součástí skóre hry, to se udělá off-line. Manuálně anotovaných dat máme málo, jsou už anotovaná a nejsou zábavná. Z toho mi vyplývá, že bych manuální anotaci pro určování skóre nebral vůbec v úvahu a ze vzorečku nahoře bych první člen vyhodil. | ||
- | ===== Output Data ===== | + | **BH**: Jirka ma pravdu. Pocitani skore musi byt objektivni. Proto jsem vzorecek upravila tak, ze nebude pocitat shodu hrace vzhledem k rucni anotaci. |
- | ===== Design ===== | ||
+ | ===== Output Data Needed ===== | ||
+ | * score list ## // | ||
+ | * documents after the '' | ||
+ | * session | ||
+ | * player_A_id, | ||
+ | * document(s) | ||
+ | * number of corrections by player_A and by player_B (**JM**: I do not see the point in this) | ||
+ | * corrections by player_A and by player_B (**JM**: and maybe nor in this) (**BH**: I am interested in the manner of the players. Maybe the corrections will be total mess, but we have to see the data at least from the very first sessions. ) | ||
+ | ===== Design ===== | ||
+ | * What info to be displayed in the session? | ||
+ | * session time = elapsed time + remaining time | ||
+ | * how many sentences my partner has read so far | ||
+ | * running pts **???????** (**JM**: I would be very cautious with this; the user might be tempted to cancel an action if the score decreases; the user might also try to fit the automatic annotation (by trying various arrows and watching if the score goes up or down), which is not what we want) | ||
+ | * Format of the text | ||
+ | * **JM**: nouns and pronouns might be displayed slightly differently so that the user avoids other parts of speech easily; he should not be allowed to use other parts of speech at all | ||
+ | * Visualization of the coreference pairs | ||
+ | * colors | ||
+ | * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | ||
+ | * ... | ||
- | ===== Tools needed ===== | ||
- | * tagger ^BH^ ## tool_chain (CAC2.0) | ||
- | * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? '' | ||
- | |||
- | ====== Motivační publikace ====== | ||
- | |||
- | * Návrh projektu na GAČR 2009 // | ||
- | * [[http:// | ||
- | * [[http:// | ||
- | * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | ||
- | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, ([[http:// | ||
- | |||
- | ===== Anotování koreference v českých datech ===== | ||
- | * PDT 2.0 [[http:// | ||
- | * rozšířená koreference - viz přehled [[https:// | ||
- | * [[http:// | ||
- | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
- | |||
- | |||
- | ===== Automatické určování koreference v českých datech - přehled ===== | ||
- | * Dosavadní experimenty | ||
Line 105: | Line 167: | ||
- | + | ===== Tools needed | |
- | ===== Návrh hry - brainstorming | + | |
- | **26/5/08 Anja, Bára:** | + | |
- | | + | * conversion: csts <-> pml m_coref scheme |
- | * Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | + | |
- | | + | |
- | | + | |
- | | + | |
- | * bridging anaphora ... určitě ne v prototypu hry, (//pozn. AN// - ale možná potom, třeba jako další úroveň) | + | |
- | * Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (//pozn. AN// - Nabízím otázku typu " | + | |
- | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (//pozn. AN// - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???) | + | |
- | * Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | + | |
- | * Texty před hrou nějak zpracovat? Například, | + | |
- | * Hra kolika hráčů? | + | |
- | * Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | + | |
- | **26/6/08 Jirka:** | + | |
- | * JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu. Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, | + | |
- | * (11/2/09)BH: bohuzel nemame zadnou automatickou proceduru na predzpracovani | + | |
- | **11/2/09 Bára:** | + | |
- | * BH: | + | |
- | * //Oznac podstatna jmena (a/nebo zajmena), ktera k sobe patri// | + | |
- | * **Zakladni strategie: | + | |
- | * **Vyvoj partie:** | + | |
- | * Rychlejsi hrac muze v kteremkoli okamziku urceneho casu partii ukoncit. Pomalejsi hrac musi dodelat vsechny vety, ktere zpracoval rychlejsi hrac. | + | |
- | | + | |
- | * Casovy limit jeste nevyprsel a hraci chteji hrat dal: automaticky se natahne dalsi dokument, konkretne jeho prvni dve vety. | + | |
- | * **Pocitani skore:** Skore se bude pocitat pouze za dvojice, na kterych se oba hraci shodli. Jeste bych do skore zapocitala bonusove body pro toho, kdo byl rychlejsi. | + | |
- | * **Vystup:** dvojice, na kterych se hraci shodli a neshodli. Shoda bude prinosna, ale co delat s temi dvojicemi, ktere oznacil pouze jeden hrac? Muze se objevit jeste jedna sance na shodu, a to ta, ktera prijde z jine partie se stejnym dokumentem. Proto bude muset byt kladen duraz na rizene podsouvani dokumentu do partii. | + | |
- | * Kontrolni mechanismy, aby hraci nespojovali libovolna dve slova - vzhledem k navrhu na pocitani skore, tj. za shodu, budou hraci aspon castecne motivovani hrat smysluplne. | + |