This is an old revision of the document!
Table of Contents
Play the Language: Play Named-Entities
Anotovani pojmenovanych entit v ceskych textech
Automaticka detekce a klasifikace pojmenovanych entit v ceskych textech
- experimenty Oldricha Kruzy popsane v Sevcikova a kol. Technicka zprava
- experimenty Jany Kravalove, viz clanek.
Specification
Strategy
- Co se po hracich chce? Hledala bych nejaky funny prvek.
- Co zamykat?
- Jak predkladat dokument? Navic i dokument, ve kterem je uz vyznacena koreference?
- Shoda? BH: Ja bych zatim zvolila strategii shodnou s PlayCoref, tj. nezakladat hru na shode; informovat hrace poctech NE oznacenych souperem.
- Navrhnout kategorie NE. Cerpat z Sevcikova et al.
JM: Jedna možnost návrhu hry
- Hráčům by se předkládaly prosté texty bez koreference po větách (naopak, hráčům PlayCoref by se měly zobrazovat pojmenované entity). Nic bych nezamykal, nic bych nezvýrazňoval.
- Hráč by označil pojmenované entity podobně jako se vybírá část textu do bloku, tj. myší (vybírání by poskakovalo po celých slovech), plus potvrzením nějakou klávesou nebo tlačítkem (možnost ke zvážení: případně by nějakým zaškrtávátkem naznačil, když ve větě není pojmenovaná entita). Pak by zmáčkl tlačítko “hotovo”.
- Umím si představit variantu hry na shodu i bez shody; preferoval bych tu shodu
- Hra by trvala určenou dobu nebo by byl dán balík vět, který mají udělat. Pro jednotnou podobu s PlayCoref možná raději určený čas.
- Kategorie viz níže.
- Počítání skóre viz níže.
Input texts
Kagegorie NE
JM: Vyšel bych z MUC-6 a navrhuji tyto kategorie (bez hierarchie):
- Organizace
- Osoba
- Místo
- Čas
- Číslo (množství)
Je ovšem potřeba projít článek JK a ZŽ a pokusit se namapovat jejich rozdělení na toto - především aby bylo úplné - aby každá NE někam spadla.
Scoring
JM: Podobně jako u PlayCoref by skóre mělo být počítáno (např. lineární kombinací) z následujících tří položek:
- shoda s automatickou procedurou - aby nám neoznačovali samé prázdné věty nebo vždy první slovo apod.
- shoda s protihráčem (pokud hra nebude založená na shodě - pak by shoda byla samozřejmá)
- rychlost/počet zpracovaných vět
Output data
- Vnitrni format.
Design
Tools needed
- Tagger.
- Procedura detekce a klasifikace NE.