Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:playcoref [2008/05/28 12:46] hladka |
user:hladka:playcoref [2009/02/25 22:29] hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ===== Motivace ===== | + | ====== Motivace |
- | Na t-rovině PDT 2.0 proběhlo anotování koreference, | ||
- | Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, | + | Na t-rovině PDT 2.0 proběhlo anotování koreference, a sice viz níže. V anotování koreference |
+ | Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), | ||
- | ===== Hraní | + | ====== Motivační publikace ====== |
- | * Vstup: Texty v povrchové podobě | + | |
- | * Jaké texty vybrat? Z PDT 2.0 - to by se asi hodilo, protože by sa pak nabízelo srovnání s anotací na tektogramatických stromech. | + | |
- | * Výstup hry: koreferenční řetízky | + | |
- | * gramatická koreference | + | |
- | * textová koreference | + | |
- | * bridging anaphora | + | |
- | * Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. | + | |
- | ===== Anotování koreference ===== | + | * Návrh projektu na GAČR 2009 // |
+ | * [[http:// | ||
+ | * [[http:// | ||
+ | * Barbora Hladká, Kiril Ribarov: //Play the Language: An Alternative Manner of Collecting Annotated data//, 2008, ([[http:// | ||
+ | * Luis von Ahn, Laura Dabish: //Labelling Images with a Computer Game//, 2004, ([[http:// | ||
+ | |||
+ | |||
+ | ====== Anotování koreference | ||
* PDT 2.0 [[http:// | * PDT 2.0 [[http:// | ||
* rozšířená koreference - viz přehled [[https:// | * rozšířená koreference - viz přehled [[https:// | ||
- | * ukázky anotovaných souborů | + | * [[http:// |
+ | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
- | ===== Automatické určování koreference ===== | ||
- | * Dosavadní experimenty | ||
- | ===== Dokumenty | + | |
- | | + | |
- | * [[http:// | + | ====== Automatické určování koreference v českých datech - přehled ====== |
- | | + | * Experiments so far |
- | | + | - Nguy Giang Linh: Návrh |
+ | - Nguy Giang Linh; Žabokrtský, | ||
+ | | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Návrh hry - brainstorming ====== | ||
+ | |||
+ | **26/5/08 Anja, Bára:** | ||
+ | * Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy | ||
+ | * Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech. | ||
+ | * Výstup hry: koreferenční řetízky | ||
+ | * gramatická koreference ... určitě ne v prototypu hru | ||
+ | * TEXTOVÁ KOREFERENCE ... v prototypu hry určitě | ||
+ | * bridging anaphora ... určitě ne v prototypu hry, (//pozn. AN// - ale možná potom, třeba jako další úroveň) | ||
+ | * Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (//pozn. AN// - Nabízím otázku typu " | ||
+ | * Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (//pozn. AN// - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???) | ||
+ | * Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (//pozn. AN// - pokud budeme hrát jenom textovou koreferenci, | ||
+ | * Texty před hrou nějak zpracovat? Například, | ||
+ | * Hra kolika hráčů? | ||
+ | * Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. | ||
+ | **26/6/08 Jirka:** | ||
+ | * JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu. Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, | ||
+ | * (11/ | ||
+ | **11/2/09 Bára:** | ||
+ | * BH: | ||
+ | * //Oznac podstatna jmena (a/nebo zajmena), ktera k sobe patri// | ||
+ | * **Zakladni strategie: | ||
+ | * **Vyvoj partie:** | ||
+ | * Rychlejsi hrac muze v kteremkoli okamziku urceneho casu partii ukoncit. Pomalejsi hrac musi dodelat vsechny vety, ktere zpracoval rychlejsi hrac. | ||
+ | * Vyprsel casovy limit. | ||
+ | * Casovy limit jeste nevyprsel a hraci chteji hrat dal: automaticky se natahne dalsi dokument, konkretne jeho prvni dve vety. | ||
+ | * **Pocitani skore:** Skore se bude pocitat pouze za dvojice, na kterych se oba hraci shodli. Jeste bych do skore zapocitala bonusove body pro toho, kdo byl rychlejsi. | ||
+ | * **Vystup:** dvojice, na kterych se hraci shodli a neshodli. Shoda bude prinosna, ale co delat s temi dvojicemi, ktere oznacil pouze jeden hrac? Muze se objevit jeste jedna sance na shodu, a to ta, ktera prijde z jine partie se stejnym dokumentem. Proto bude muset byt kladen duraz na rizene podsouvani dokumentu do partii. | ||
+ | * Kontrolni mechanismy, aby hraci nespojovali libovolna dve slova - vzhledem k navrhu na pocitani skore, tj. za shodu, budou hraci aspon castecne motivovani hrat smysluplne. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Specification ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Strategy ===== | ||
+ | * **Hook up the words which refer to the same entity.** | ||
+ | * A game of two players. Players are paired randomly. Computer as a player: automatic coreference resolution **??????? | ||
+ | * Session time up to **???????** minutes. | ||
+ | * At the beginning, two first sentences | ||
+ | * What my partner is doing? If (s)he hooks up the same pair of words as hooked up then the pair of words starts **??????? | ||
+ | * The players can re-hook up any word any time in the session. | ||
+ | * To design the game for a particular language the following | ||
+ | - corpus of manually anotated coreference | ||
+ | - POS tagger | ||
+ | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Input Texts ===== | ||
+ | |||
+ | === Text Selection === | ||
+ | * CS data ^JM^ | ||
+ | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
+ | * more ' | ||
+ | * **EN** | ||
+ | * search the data that are available | ||
+ | === Coding === | ||
+ | * utf-8 | ||
+ | |||
+ | === Internal format === | ||
+ | * sgml ## //propose dtd file: include the element '' | ||
+ | |||
+ | === (Pre)processing === | ||
+ | * tagging ## //see Tools needed below// | ||
+ | * acr by Linh ## // dtto // | ||
+ | |||
+ | === Text handling === | ||
+ | * sentence by sentence | ||
+ | * supervised selection of documents for a session | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Scoring ===== | ||
+ | * '' | ||
+ | |||
+ | // w1 by mela byt nejvyssi; w2 by mela urcite nejak zohlednit uspesnost automaticke procedury - uspesnost merenou na jakych datech?; w3: kdyz hracum budeme zobrazovat i ta slova, ktera oznacil protihrac, a ja je neoznacila, nebudeme je tim tlacit do vynucene shody? pro to, aby w3 bylo ' | ||
+ | |||
+ | |||
+ | |||
+ | ===== Output Data Needed ===== | ||
+ | * score list ## //player_id, pts, # | ||
+ | * documents after the '' | ||
+ | * session | ||
+ | * player_A_id, | ||
+ | * document(s) | ||
+ | * number of corrections by player_A and by player_B | ||
+ | * corrections by player_A and by player_B | ||
+ | |||
+ | |||
+ | ===== Design ===== | ||
+ | * What info to be displayed in the session? | ||
+ | * session time = elapsed time + remaining time | ||
+ | * how many sentences my partner has read so far | ||
+ | * running pts **??????? | ||
+ | * Visualization of the coreference pairs | ||
+ | * colors | ||
+ | * arrows | ||
+ | * ... | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Tools needed ===== | ||
+ | * tagger ^BH^ ## tool_chain (CAC2.0) | ||
+ | * Linh's coreference resolution procedure ^PS^ ## What type of input data the Linh's procedure works with? '' | ||
+ | * conversion: csts <-> pml m_coref scheme | ||
+ |