Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:hladka:playcoref [2009/03/10 10:18] hladka |
user:hladka:playcoref [2009/03/17 08:14] hladka |
* [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny. | * [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/sentences_PlayCoref.html|ukázky anotovaných souborů]] ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny. |
* Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]]) | * Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/projekt_anotace.pdf|Technická zpráva]]) |
| |
| |
| |
====== Automatické určování koreference v českých datech - přehled ====== | ====== Automatické určování koreference v českých datech - přehled ====== |
* Experiments with Czech so far | * Experiments with Czech so far |
| - Kučová L., Žabokrtský Z.: Anaphora in Czech: Large Data and Experiments with Automatic Anaphora Resolution. **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/tsd2005-coref.pdf|pdf]] |
- Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available:** [[http://ufal.mff.cuni.cz/~hladka/ML/aca-diplomka.pdf|pdf]] | - Nguy Giang Linh: Návrh souboru pravidel pro analýzu anafor v českém jazyce (A set of rules for anaphora resolution in Czech), MFF UK 2006. **Available:** [[http://ufal.mff.cuni.cz/~hladka/ML/aca-diplomka.pdf|pdf]] |
- Nguy Giang Linh; Žabokrtský, Z.: Rule-based approach to pronominal anaphora resolution applied on the Prague Dependency Treebank 2.0 data. In Proceedings of DAARC 2007 (6th Discourse Anaphora and Anaphor Resolution Colloquium). **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/daarc-2007.pdf|pdf]] | - Nguy Giang Linh; Žabokrtský, Z.: Rule-based approach to pronominal anaphora resolution applied on the Prague Dependency Treebank 2.0 data. In Proceedings of DAARC 2007 (6th Discourse Anaphora and Anaphor Resolution Colloquium). **Available:** [[http://ufal.mff.cuni.cz/~zabokrtsky/papers/daarc-2007.pdf|pdf]] |
- POS tagger | - POS tagger |
- coreference resolution procedure | - coreference resolution procedure |
| |
| |
| |
| |
| |
| |
| |
| |
* **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, fantasy, thriller, romance, ...), maybe even the author or the very title. The available resources of free electronic books in Czech are scarce but there are plenty of free electronic books in English and other languages, e.g. [[http://www.gutenberg.org/wiki/Main_Page|Project Gutenberg]]. **BH**: It is a very nice idea but I would postpone it till the next versions of the PlayCoref game. However, we have already selected more user-friendly texts into the LGame db - see [[http://ufallab2.ms.mff.cuni.cz/lgame/|this page]]. So we can use them for the PlayCoref game as well. | * **JM**: It would be nice if the players could choose a domain of the texts to play on (science-fiction, fantasy, thriller, romance, ...), maybe even the author or the very title. The available resources of free electronic books in Czech are scarce but there are plenty of free electronic books in English and other languages, e.g. [[http://www.gutenberg.org/wiki/Main_Page|Project Gutenberg]]. **BH**: It is a very nice idea but I would postpone it till the next versions of the PlayCoref game. However, we have already selected more user-friendly texts into the LGame db - see [[http://ufallab2.ms.mff.cuni.cz/lgame/|this page]]. So we can use them for the PlayCoref game as well. |
***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference mezi uzly s tagy N nebo P. Data jsou v adresari: ''/net/work/projects/playlang/playcoref/data/02_bridging_playcoref/train-1''. Spocital jsem tabulku, ve ktere jsou tyto soubory z train-1 serazeny sestupne podle pomeru (pocet koref. sipek)/(pocet slov). [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/_text_coref_proportions.txt|Tabulka je tady]] ( prvni sloupec je pomer (pocet koref. sipek)/(pocet slov), druhy sloupec je nazev souboru, treti sloupec je pocet koref. sipek, ctvrty sloupec je pocet slov.) | ***JM (6/3/09)**: Predelal jsem data pro playcoref, ted obsahuji jenom koreference mezi uzly s tagy N nebo P. Data jsou v adresari: ''/net/work/projects/playlang/playcoref/data/02_bridging_playcoref/train-1''. Spocital jsem tabulku, ve ktere jsou tyto soubory z train-1 serazeny sestupne podle pomeru (pocet koref. sipek)/(pocet slov). [[http://ufal.mff.cuni.cz/~hladka/PlayCoref/_text_coref_proportions.txt|Tabulka je tady]] ( prvni sloupec je pomer (pocet koref. sipek)/(pocet slov), druhy sloupec je nazev souboru, treti sloupec je pocet koref. sipek, ctvrty sloupec je pocet slov.) |
| ***BH (16/3/09)**. Zajmena filtrovat i podle subPOS: **POVOLIT**: 1 (jejímž), 4 (která), 5, 6, 8 (svých, svůj), 9 (nimž), E, H, J, K, O, P, S (jejich, našemu), Y. **ZAMKNOUT**: 7 (zvratné se, si), D (to, tomto), L (všechny, všech), Q (čím, tím), W (ničeho, nic), Z |
* **EN** | * **EN** |
* search the data that are available | * search the data that are available; **BH (11/3/09)** Z dokumentace dat, ktera bychom meli mit, jsem nasla MUC6, ale nevidim tam data s koreferenci. Jirka zjisti, jestli jsou nekde jinde nebo jak jinak se k nim muzeme dostat. |
=== Coding === | === Coding === |
* utf-8 | * utf-8 |
* sentence by sentence | * sentence by sentence |
* supervised selection of documents for a session | * supervised selection of documents for a session |
| |
| |
| |
| |
| |
===== Scoring ===== | ===== Scoring ===== |
* ''pts_of_player_A = w1*(player_A's_output vs. automatic_annotation) + w2*(player_A's_output vs. player_B's_output) + speed_pts'' | * ''pts(A) = w1*ICA(A, acr) + w2*ICA (A,B) + speed_pts(A)'' |
| |
**JM**: | **JM**: |
| |
| |
| ===== Pro toho, kdo bude hru implementovat ===== |
| |
| |