====== Play the Language: Play Named-Entities ====== ===== Anotovani pojmenovanych entit v ceskych textech ===== * [[http://ufal.mff.cuni.cz/~zabokrtsky/reports/techrep-ne-2007.pdf| Sevcikova a kol. Technicka zprava]] ===== Automaticka detekce a klasifikace pojmenovanych entit v ceskych textech ===== * experimenty Oldricha Kruzy popsane v [[http://ufal.mff.cuni.cz/~zabokrtsky/reports/techrep-ne-2007.pdf| Sevcikova a kol. Technicka zprava]] * experimenty Jany Kravalove, viz [[http://ufal.mff.cuni.cz/~hladka/LGame/ner.pdf|clanek]]. ===== Specification ===== ==== Strategy ==== * Co se po hracich chce? Hledala bych nejaky funny prvek. * Co zamykat? * Jak predkladat dokument? Navic i dokument, ve kterem je uz vyznacena koreference? * Shoda? BH: Ja bych zatim zvolila strategii shodnou s PlayCoref, tj. nezakladat hru na shode; informovat hrace poctech NE oznacenych souperem. * Navrhnout kategorie NE. Cerpat z Sevcikova et al. === JM: Jedna možnost návrhu hry === * Hráčům by se předkládaly prosté texty bez koreference po větách (naopak, hráčům PlayCoref by se měly zobrazovat pojmenované entity). Nic bych nezamykal, nic bych nezvýrazňoval. * Hráč by označil pojmenovanou entitu podobně jako se vybírá část textu do bloku, tj. myší (vybírání by poskakovalo po celých slovech). Po označení pojmenované entity by se objevil seznam s možnými typy, ze kterých by hráč vybral ten správný. Až by označil všechny pojmenované entity ve větě, zmáčkl by tlačítko "hotovo". (Možnost ke zvážení: případně by předtím nějakým zaškrtávátkem explicitně naznačil, že ve větě není pojmenovaná entita.) * Umím si představit variantu hry na shodu i bez shody; preferoval bych tu shodu * Hra by trvala určenou dobu nebo by byl dán balík vět, který mají udělat. Pro jednotnou podobu s PlayCoref možná raději určený čas. * Kategorie viz níže. * Počítání skóre viz níže. ==== Input texts ==== * [[http://ufal.mff.cuni.cz/tectomt/releases/czech_named_entity_corpus_10/index.html|Czech named entity corpus 1.0]] ==== Kagegorie NE ==== JM: Vyšel bych z MUC-6 a navrhuji tyto kategorie (bez hierarchie): * Organizace * Osoba * Místo * Čas * Číslo (množství) Je ovšem potřeba projít článek JK a ZŽ a pokusit se namapovat jejich rozdělení na toto - především aby bylo úplné - aby každá jejich NE někam spadla. ==== Scoring ==== JM: Podobně jako u PlayCoref by skóre mělo být počítáno (např. lineární kombinací) z následujících tří položek: * shoda s automatickou procedurou - aby nám neoznačovali samé prázdné věty nebo vždy první slovo apod. * shoda s protihráčem (pokud hra nebude založená na shodě - pak by shoda byla samozřejmá) * rychlost/počet zpracovaných vět ==== Output data ==== * Vnitrni format. ==== Design ==== ==== Tools needed ==== * Tagger. * Procedura detekce a klasifikace NE.