Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playcoref [2008/05/30 23:48] ufal |
user:hladka:playcoref [2009/02/25 22:22] hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== Motivace ===== | + | ====== Motivace |
- | Na t-rovině PDT 2.0 proběhlo anotování koreference, | ||
- | Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, | + | Na t-rovině PDT 2.0 proběhlo anotování koreference, a sice viz níže. V anotování koreference |
- | ===== Motivační publikace ===== | + | Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, že HNED seženeme anotátory (kolik?), HNED je zacvičíme, HNED na ně seženeme peníze, |
- | * Návrh projektu na GAČR 2009 // | + | |
- | * [[http:// | + | |
- | * [[http:// | + | |
- | * Barbora Hladká: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | + | |
- | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, | + | |
+ | ====== Specification ====== | ||
Line 27: | Line 22: | ||
+ | ===== Strategy ===== | ||
+ | * **Hook up the words which refer to the same entity.** | ||
+ | * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **???????** | ||
+ | * Session time up to **???????** minutes. | ||
+ | * At the beginning, two first sentences of the document are displayed to each player. The players hook up the nouns and pronouns which refer to the same object independently of each other. If a player hooks up all the related words in the given sentences (s)he keeps in mind then (s)he asks for the next sentence of the document. The session goes on this way until the end of the session time. (// | ||
+ | * What my partner is doing? If (s)he hooks up the same pair of words as hooked up then the pair of words starts **??????? | ||
+ | * The players can re-hook up any word any time in the session. | ||
+ | * To design the game for a particular language the following data and tools are needed (or are welcome): | ||
+ | - corpus of manually anotated coreference | ||
+ | - POS tagger | ||
+ | - coreference resolution procedure | ||
Line 34: | Line 40: | ||
- | ===== Anotování koreference v českých datech - přehled ===== | ||
- | * PDT 2.0 [[http:// | ||
- | * rozšířená koreference - viz přehled [[https:// | ||
- | * ukázky anotovaných souborů | ||
- | * Anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko, Technická zpráva)[[https:// | ||
- | ===== Automatické určování koreference v českých datech - přehled ===== | ||
- | * Dosavadní experimenty | ||
+ | ===== Input Texts ===== | ||
+ | === Text Selection === | ||
+ | * CS data ^JM^ | ||
+ | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
+ | * more ' | ||
+ | * **EN** | ||
+ | * search the data that are available | ||
+ | === Coding === | ||
+ | * utf-8 | ||
+ | === Internal format === | ||
+ | * sgml ## //propose dtd file: include the element '' | ||
+ | === (Pre)processing === | ||
+ | * tagging ## //see Tools needed below// | ||
+ | * acr by Linh ## // dtto // | ||
+ | === Text handling === | ||
+ | * sentence by sentence | ||
+ | * supervised selection of documents for a session | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Scoring ===== | ||
+ | * '' | ||
+ | |||
+ | // w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo ' | ||
+ | |||
+ | |||
+ | |||
+ | ===== Output Data Needed ===== | ||
+ | * score list ## // | ||
+ | * documents after the '' | ||
+ | * session | ||
+ | * player_A_id, | ||
+ | * document(s) | ||
+ | * number of corrections by player_A and by player_B | ||
+ | * corrections by player_A and by player_B | ||
+ | |||
+ | |||
+ | ===== Design ===== | ||
+ | * What info to be displayed in the session? | ||
+ | * session time = elapsed time + remaining time | ||
+ | * how many sentences my partner has read so far | ||
+ | * running pts **???????** | ||
+ | * Visualization of the coreference pairs | ||
+ | * colors | ||
+ | * arrows | ||
+ | * ... | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Tools needed ===== | ||
+ | * tagger ^BH^ ## tool_chain (CAC2.0) | ||
+ | * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? '' | ||
+ | * conversion: csts <-> pml m_coref scheme | ||
+ | |||
+ | ====== Motivační publikace ====== | ||
+ | |||
+ | * Návrh projektu na GAČR 2009 // | ||
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | ||
+ | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, ([[http:// | ||
+ | |||
+ | |||
+ | ====== Anotování koreference v českých datech ====== | ||
+ | * PDT 2.0 [[http:// | ||
+ | * rozšířená koreference - viz přehled [[https:// | ||
+ | * [[http:// | ||
+ | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
+ | |||
+ | |||
+ | ===== Automatické určování koreference v českých datech - přehled ===== | ||
+ | * Dosavadní experimenty | ||
Line 56: | Line 131: | ||
===== Návrh hry - brainstorming ===== | ===== Návrh hry - brainstorming ===== | ||
- | 26/5/08 Anja, Bára: | + | **26/5/08 Anja, Bára:** |
* Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy | * Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy | ||
* Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | * Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | ||
Line 66: | Line 141: | ||
* Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (//pozn. AN// - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???) | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (//pozn. AN// - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???) | ||
* Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | * Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | ||
- | * Texty před hrou nějak zpracovat? Například, | + | * Texty před hrou nějak zpracovat? Například, |
* Hra kolika hráčů? | * Hra kolika hráčů? | ||
* Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | * Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | ||
+ | **26/6/08 Jirka:** | ||
+ | * JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu. Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, | ||
+ | * (11/ | ||
+ | **11/2/09 Bára:** | ||
+ | * BH: | ||
+ | * //Oznac podstatna jmena (a/nebo zajmena), ktera k sobe patri// | ||
+ | * **Zakladni strategie: | ||
+ | * **Vyvoj partie:** | ||
+ | * Rychlejsi hrac muze v kteremkoli okamziku urceneho casu partii ukoncit. Pomalejsi hrac musi dodelat vsechny vety, ktere zpracoval rychlejsi hrac. | ||
+ | * Vyprsel casovy limit. | ||
+ | * Casovy limit jeste nevyprsel a hraci chteji hrat dal: automaticky se natahne dalsi dokument, konkretne jeho prvni dve vety. | ||
+ | * **Pocitani skore:** Skore se bude pocitat pouze za dvojice, na kterych se oba hraci shodli. Jeste bych do skore zapocitala bonusove body pro toho, kdo byl rychlejsi. | ||
+ | * **Vystup:** dvojice, na kterych se hraci shodli a neshodli. Shoda bude prinosna, ale co delat s temi dvojicemi, ktere oznacil pouze jeden hrac? Muze se objevit jeste jedna sance na shodu, a to ta, ktera prijde z jine partie se stejnym dokumentem. Proto bude muset byt kladen duraz na rizene podsouvani dokumentu do partii. | ||
+ | * Kontrolni mechanismy, aby hraci nespojovali libovolna dve slova - vzhledem k navrhu na pocitani skore, tj. za shodu, budou hraci aspon castecne motivovani hrat smysluplne. |