Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:hladka:playcoref [2009/03/09 10:41] hladka |
user:hladka:playcoref [2010/02/09 09:24] (current) hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== Play the Language: Play Coreference ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ====== Aktuality ====== | ||
+ | * COLING 2010, deadline **Apr 22, 2010** | ||
+ | * vyvěsit PlayCoref na LGame hratelnou ČESKY a ANGLICKY, proto | ||
+ | * nachystat anglická data - Jak jsme na tom? Nějaká jsme už dávali dohromady, ne? | ||
+ | * Honzu a Lenku připravit na zapojení angličtiny. | ||
+ | * zapojit pojmenované entity | ||
+ | * pro češtinu Jirka nachystal a poslal Lence data. BH: kontaktovat Lenku. | ||
+ | * Jirko, v rámci TectoMT je taky nejspíš anglický NE recognizer? | ||
+ | * Pavle mohl bys prosím kontaktovat kamaráda, který programuje hry v NY, ukázat mu [[ http:// | ||
+ | * BH a Honza Kohout. nachystat demo PlayCoref (jako např. [[http:// | ||
+ | * BH: připravit pravidla hry (jako např. [[http:// | ||
+ | * Zimní seminář v Hejnicích, krátká prezentace screenshotů alfa verze hry, 25.1.2010 | ||
+ | * Na úvodní stránce s výběrem počtu hráčů přidat počet on-line hráčů - tak vím, zda má smysl zvolit hru dvou hráčů a doufat v protihráče | ||
+ | * Na úvodní stránce je špatně čitelný ten velký kulatý font | ||
+ | * Dvě verze instrukcí: krátké pro rychlé seznámení a zahrání si, dlouhé pro ty, kdo se chtějí zlepšit a mít lepší skóre. | ||
+ | * **BH**: Souhlasim (tak tomu je ted i u Shannon game). Kratke instrukce maji format dema, dlouhe jsou jako text doplneny screenshots. | ||
+ | * Pokud to půjde, využít systému Recaptcha - část textu už použita dříve v jiné hře - už mám nějakou anotaci - mohu počítat skóre, zbytek textu nový, získávám nová data | ||
+ | * Anotace koreference musí probíhat na jmenných frázích - nelze propojit slova " | ||
+ | * Padlo několik návrhů k propadaci hry - např. Lucie nabízí, že hru zadá studentům jako povinnou součást výuky svého semináře | ||
+ | |||
+ | * Schůzka 24/9/2009 | ||
+ | * Sestava: studenti Jan Kohout, Lenka Studničná; | ||
+ | * Rozhodnutí: | ||
+ | * Lenka: implementace " | ||
+ | * Honza: implementace rozhraní ve spolupráci se studentkou Helenou Pouchovou | ||
+ | * My: data - zpracování dat ACR a procedurou detekující jmenné entity | ||
+ | * Termín: 30. října 2009 | ||
+ | * Plány: submitnout abstract na demo session na [[http:// | ||
+ | |||
+ | |||
====== Motivace ====== | ====== Motivace ====== | ||
Line 21: | Line 68: | ||
* [[http:// | * [[http:// | ||
* Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http:// | ||
+ | |||
+ | |||
Line 30: | Line 79: | ||
====== Automatické určování koreference v českých datech - přehled ====== | ====== Automatické určování koreference v českých datech - přehled ====== | ||
* Experiments with Czech so far | * Experiments with Czech so far | ||
+ | - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. TSD 2005. **Available: | ||
- Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available: | ||
- Nguy Giang Linh; Žabokrtský, | - Nguy Giang Linh; Žabokrtský, | ||
Line 93: | Line 143: | ||
- POS tagger | - POS tagger | ||
- coreference resolution procedure | - coreference resolution procedure | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 111: | Line 169: | ||
* Anja's data ## // PDT data that are currently being annotated for the extended coreference // | * Anja's data ## // PDT data that are currently being annotated for the extended coreference // | ||
* **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, | * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, | ||
- | | + | |
+ | ***BH (16/ | ||
* **EN** | * **EN** | ||
- | * search the data that are available | + | * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat. |
=== Coding === | === Coding === | ||
* utf-8 | * utf-8 | ||
Line 127: | Line 186: | ||
* sentence by sentence | * sentence by sentence | ||
* supervised selection of documents for a session | * supervised selection of documents for a session | ||
+ | |||
+ | |||
+ | |||
===== Scoring ===== | ===== Scoring ===== | ||
- | * '' | + | * '' |
**JM**: | **JM**: | ||
Line 167: | Line 229: | ||
* arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | * arrows (**JM**: to avoid too many arrows on the screen, possibly only if the mouse pointer hovers over a word, arrows that start or end at the word would be displayed) | ||
* ... | * ... | ||
+ | |||
+ | |||
+ | |||
===== Tools needed ===== | ===== Tools needed ===== | ||
* tagger ## tool_chain (CAC2.0) | * tagger ## tool_chain (CAC2.0) | ||
- | * Linh's coreference resolution procedure | + | * Linh's coreference resolution procedure - see TectoMT |
- | * conversion: csts <-> pml m_coref scheme | + | * vyzkouset |
+ | | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Kdo hru implementuje ===== | ||
+ | * Lenka Studničná vnitřek, [[http:// | ||
+ | * Poznámky BH: | ||
+ | - 1.1 Pokud není protihráč, | ||
+ | - 1.2 Dle designu hry. | ||
+ | - 2.1 použití termínu ´paralelních dat´je v daném kontextu lehce zavádějící (i když chápu, jak to autorka myslela) | ||
+ | - Jeden hráč se vzdá, další může samozřejmě pokračovat. Pro měření spolehlivosti hráče je zajímavé vědět i to, kolikrát vzdal. | ||
+ | - 2. Vstupní dokumenty budou zpracovány ACR. | ||
+ | - 3. V tabulce Matches_Players postrádám odkaz na soupeře. | ||
+ | - 3. Alternativy - Pokud budeme předkládat anotovaná data, může být obtížnost dokumentu vyjádřena přes počet přítomných koreferujících párů. | ||
+ | - 5. Víceslovné výrazy -- určitě na ně myslet v implementaci, | ||
Line 182: | Line 265: | ||
* [[http:// | * [[http:// | ||
* pracovni adresar ''/ | * pracovni adresar ''/ | ||
+ | * 23/3/09 - castecne jsem rozmyslela osnovu, podivejte se prosim na to a sve pripominky psat primo do latexovskeho zdrojaku |