This is an old revision of the document!
Table of Contents
Motivace
Na t-rovině PDT 2.0 proběhlo anotování koreference, a sice … V anotování koreference je potřeba pokračovat i s ohledem na její automatické určování metodami strojového učení.
Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, že HNED seženeme anotátory (kolik?), HNED je zacvičíme, HNED na ně seženeme peníze, … Tak HNED to nebude, že ano:-))) Zvolme tedy takový způsob anotace, pro který rychle (HNED to nebude ani v tomto případě) seženeme dostatek anotátorů - anotátory nebudeme muset zacvičovat. Vymysleme hru.
Hraní - brainstorming
26/5/08 Anja, Bára:
- Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy
- Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech.
- Výstup hry: koreferenční řetízky
- gramatická koreference … určitě ne v prototypu hru
- TEXTOVÁ KOREFERENCE … v prototypu hry určitě
- bridging anaphora … určitě ne v prototypu hry, (pozn. AN - ale možná potom, třeba jako další úroveň)
- Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (pozn. AN - Nabízím otázku typu “Označte slova, která pojmenují stejný objekt” třeba stylisticky úpravenou - odkazují na stejnou věc, předmět, osobu, pojem apod. Tím bychom měli na výstupu rozšířenou textovou koreferenci)
- Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě?
- Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou?
- Texty před hrou nějak zpracovat? Například, že by se věta automaticky označkovala a všechna substantiva (i zájmena?) by se zvýraznila. Hráči by pak přetahovali pouze takto označená slova.
- Hra kolika hráčů?
- Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. Co přesně pošleme na výstup? Návrh řešení: do bodů se oběma hráčům započítá pouze jednička, ale do dat, která budou přesně kopírovat partii, se uloží i všechny ostatní dvojice, na kterých se hráči přímo neshodli. Protože s daným textem budou hrát i jiní hráči, pro naše výstupy se budou porovnávat řetízky ze všech partií, při kterých se s ním hrálo. (Pozn. AN - co třeba vzít pro nase vystupy nejdelsi retizky, na kterych se hraci shodli = tj. pokud mame pary AC, ABD, a ABCD, vzit to ABCD?)
Anotování koreference
- rozšířená koreference - viz přehled https://wiki.ufal.ms.mff.cuni.cz/user:hladka:data
- ukázky anotovaných souborů
Automatické určování koreference
- Dosavadní experimenty
Dokumenty
- Návrh projektu na GAČR 2009 Automatické určování koreference v textech na základě dat anotovaných netradiční metodou ## automatické určování koreference metodou strojového učení na textech, resp. jejich lineární podobě;