user:hladka:playcoref [ufal wiki]

This is an old revision of the document!

Motivace
Motivační publikace
Anotování koreference v českých datech
Automatické určování koreference v českých datech - přehled
Návrh hry - brainstorming

Motivace

Na t-rovině PDT 2.0 proběhlo anotování koreference, a sice viz níže. V anotování koreference je potřeba pokračovat i s ohledem na její automatické určování metodami strojového učení.

Určitě chceme mít jakékoli anotace, pro které se rozhodneme (tedy i koreferenční), PRÁVĚ TEĎ. To znamená, že HNED seženeme anotátory (kolik?), HNED je zacvičíme, HNED na ně seženeme peníze, … Tak HNED to nebude, že ano:-) Zvolme tedy takový způsob anotace, pro který rychle (HNED to nebude ani v tomto případě) seženeme dostatek anotátorů - anotátory nebudeme muset zacvičovat, protože si budou “jenom” hrát.

Motivační publikace

Návrh projektu na GAČR 2009 Automatické určování koreference v textech na základě dat anotovaných netradiční metodou ## automatické určování koreference metodou strojového učení na textech v jejich lineární podobě;
- česky
- anglicky
Barbora Hladká, Kiril Ribarov: Play the Language: An Alternative Manner of Collecting Annotated data, 2008, (pdf) ## o portálu jazykových her LGame
Luis von Ahn, Laura Dabish: Labelling Images with a Computer Game, 2004, (pdf) ## nálepkování obrázků hrou ESP

Anotování koreference v českých datech

PDT 2.0 odkaz do tektogramatického manuálu
rozšířená koreference - viz přehled https://wiki.ufal.ms.mff.cuni.cz/user:hladka:data
ukázky anotovaných souborů ## ještě k těmto výpisům doplním tektogramatické stromy - někdy jsou k pochopení barviček důležité. Nicméně už z těchto ukázek vyplývá, že budeme muset začít s beletrií a podle zkušeností zkusit noviny.
Projekt anotace rozšířené textové koreference a bridging vztahů v PDT. (Anja Nedolužko: Technická zpráva)

Automatické určování koreference v českých datech - přehled

Dosavadní experimenty

Návrh hry - brainstorming

26/5/08 Anja, Bára:

Vstup: Texty v povrchové podobě, tedy NE tektogramatické stromy
- Jaké texty vybrat? Z PDT 2.0? - to by se asi hodilo, protože pak by se nabízelo srovnání s anotací na tektogramatických stromech.
Výstup hry: koreferenční řetízky
- gramatická koreference … určitě ne v prototypu hru
- TEXTOVÁ KOREFERENCE … v prototypu hry určitě
- bridging anaphora … určitě ne v prototypu hry, (pozn. AN - ale možná potom, třeba jako další úroveň)
Jak instruovat hráče, aby označovali koreferenční řetízky? Mějme na paměti to, že hráči nesmí být zatíženi jakýmkoli lingvistickým termínem a že by měl při hraní využívat pouze základní vlastnosti tvarosloví a syntaxe. (pozn. AN - Nabízím otázku typu “Označte slova, která pojmenují stejný objekt” třeba stylisticky úpravenou - odkazují na stejnou věc, předmět, osobu, pojem apod. Tím bychom měli na výstupu rozšířenou textovou koreferenci)
Jak hráčům servírovat texty? Určitě po částech. Na úvod jim zobrazit první čtyři (méně asi ne) věty a následně větu po větě? (pozn. AN - celý text se ke hráči ale stejně nedostane? Nebo jo? Co když má 70 vět? Budeme členit ten text na prolínající se kousky a pak ho zase slepovat? ???)
Jak budou hráči označovat slova, která k sobě patří? Technicky by měli mít možnost libovolné slovo uchopit a přetáhnout ho přes jiné, ke kterému patří. Různé koreferenční řetízky by se odlišovaly barvou? (pozn. AN - pokud budeme hrát jenom textovou koreferenci, barvičky jsou určitě nejlepším řešením. Vět na vstupu máme jen málo, takže barvy stačí. Jakmile tam dáme bridging, to už tak nepůjde, protože barvy se budou křížit - jedno slovo se může zůčastnit více vztahů. Ale bridging zatím neděláme, takže je to v pořádku)
Texty před hrou nějak zpracovat? Například, že by se věta automaticky označkovala a všechna substantiva (i zájmena?) by se zvýraznila. Hráči by pak přetahovali pouze takto označená slova. (pozn. AN - pokud to není technicky moc složité, možná by stálo za to spojit dohromady celé NP, tj. aby např. “japonský pán” - “pán z Japonska”, nebo “ekonomická nauka” - “ekonomická věda” - “ekonomie” byly zvýrazněny jako jedna jednotka. Jinak hrač nespojí slovo “věda” se slovem “ekonomie” a bude to ztráta informace. Navíc, takové předznačkování nám dává výhodu před stromovým zobrazením, kde koreferenci můžeme označovat jenom mezi jednotlivými úzly. Další přehlednější příklady dopíšu, až se na ně narazím) (pozn. BH - ano, naše úloha velmi těsně souvisí s NP. Původně jsem si myslela, že bychom pro hraní mohli vzít i data, na kterých Magda Ševčíková a Zdeněk Žabokrtský vedli ruční klasifikaci NP. Bohužel nemohli, protože oni náhodně vybrali určité množství vět ČNK - tedy nepracovali na souvislém textu, což zase potřebujeme my.)
Hra kolika hráčů?
Hra je postavena na shodě hráčů. Jak naložit s koreferenčními řetízky od jednotlivých hráčů? Př. hráč A označí řetízek ´ABCD´a hráč B ´ACD´. Prostým porovnáním řetízků zaznamenali shodu v ´CD´. Ale i ´AB´ a ´BC´ (co ´AC´?) mohou být správně. Co přesně pošleme na výstup? Návrh řešení: do bodů se oběma hráčům započítá pouze jednička, ale do dat, která budou přesně kopírovat partii, se uloží i všechny ostatní dvojice, na kterých se hráči přímo neshodli. Protože s daným textem budou hrát i jiní hráči, pro naše výstupy se budou porovnávat řetízky ze všech partií, při kterých se s ním hrálo. (Pozn. AN - co třeba vzít pro nase vystupy nejdelsi retizky, na kterych se hraci shodli = tj. pokud mame pary AC, ABD, a ABCD, vzit to ABCD?)
JM: Ja bych navrhoval jednodussi variantu hry. Hraci by nemeli za ukol urcit vsechny koreferencni retizky ve vete, ale jen jeden k danemu slovu.

Veta by se nejprve predzpracovala automatickou metodou na odhalovani koreferenci, ktera by byla zamerena na recall, tedy aby nic neprehledla. Tim by vznikli kandidati
na slova, na ktera vedou koreferencni sipky. Hraci by byla prezentovana veta se zvyraznenym timto slovem. Jeho ukolem by bylo oznacit vsechna dalsi slova ve vete, ktera
na toto slovo odkazuji. Na vyzadani by dostal prvni vetu z kontextu, na dalsi vyzadani vzdy dalsi jednu. Tak by se dalo merit, jak velky kontext clovek potrebuje.
Asi to musi byt hra pro nejmene dva protihrace, aby bylo mozno hrace ohodnotit (shoda s protihracem). Problem teto varianty mozna je, ze by hraci mohli mit tendenci
po oznaceni prvniho slova vysledek povazovat za hotovy. Druhou moznosti je oznacovat to opacne, ke kteremu slovu odkazuje zvyraznene slovo.
Hralo by se na cas, do te doby, nez nastane shoda hracu a hraci oznaci vysledek za hotovy. Kdo to mel prvni, vyhrava. Jak bylo receno na schuzi, stridaly by se nahodne vety, u kterych koreferenci zname, s novymi vetami. Tak se zajisti, ze hraci nebudou podvadet - kdo bude prilis casto neuspesny na znamych vetach, ten podvadi.
u kterych

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

Motivace

Motivační publikace

Anotování koreference v českých datech

Automatické určování koreference v českých datech - přehled

Návrh hry - brainstorming