[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Anotace rozšířené koreference

Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.

Dokumenty

Anotátoři

* JK: Jan Křiván
* RO: Radek Ocelák
* JP: Jiří Pergler
* AN: Аня Hедолужко

Diskuze

problém diskuze, řešení techn.pozn.
schůzka_6.11 řetězec Petr – to dítě – Petr: opačný vztah hyperonymie. řetězec Petr – to dítě {coref_text, typ SYN na “Petr”} – Petr {coref_text, typ SYN na “dítě“}. ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení. ————– RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec.
JP: Proč se “Petr - to dítě” anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER.
schůzka_6.11 adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.) řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky)
schůzka_6.11 „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení. je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST, protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční.
dotaz RO Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují. Př. nadpis “Cizinec jako našinec”, v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat? Někde se to ale jako antecedent dá brát - když je třeba v nadpisu “Václav Klaus”. AN: myslím, že by se to stejně melo anotovat - jiný nástroj pro propojení nadpisu a textu článku nemáme a je dobře to mít propojené. Také technicky záhlaví jde potom vždy oddělit
dotaz JP Jakým typem koreference spojovat uzly, z nichž jeden je vyjádřen zkratkou (např. ČR - Česká republika, ODS - Občanská demokratická strana)? Anotuji to jako SYN, i když se pochopitelně nabízí i typ 0. AN: raději SYN

Data

Train-1

data # souborů # vět # slov anotátor odesláno vráceno soubory
data_20081016_Anja.zip 28 479 7190 AN 16.10.2008 - cmpr9410_001 - lnd94103_106
data_20081016_Radek_Ocelak.zip 31 498 8922 RO 16.10.2008 10.11.2008 lnd94103_116 - ln94202_75
data_20081016_Jan_Krivan.zip 31 496 9305 JK 16.10.2008 - ln94202_84 - ln94204_78
data_20081016_Jiri_Pergler.zip 24 246 4068 JP 16.10.2008 6.11.2008 ln94204_87 - ln94206_29
data_20081105_test_shody.zip 3 41 585 AN 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 RO 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JK 5.11.2008 - ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JP 5.11.2008 16.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081106_Radek_Ocelak.zip 41 816 13178 RO 6.11.2008 - ln94206_47, ln94206_65 - ln94209_50
data_20081106_Jan_Krivan.zip 63 801 14566 JK 6.11.2008 - ln94209_6 - ln95047_051
data_20081106_Jiri_Pergler.zip 19 404 6862 JP 6.11.2008 - ln95047_061 - ln95048_102

Zajimavé/problematické řetězce

RO: “Jak se vám zamlouvá Pragobanka Cup?” “V tomhle termínu takováhle akce chyběla.”
Byl bych pro to, označovat “Cup” - text. kor. O - “takováhle”. Zatímco zájmeno k ní odkazuje, “akce” už s ní koreferenční není. (Je to něco jiného než “tato akce”.)
JP: A co třeba vést z uzlu “akce” bridging šipku typu SUB_SET (na “cup”)? Vypadá to sice trochu divně vzhledem k tomu, že “akce” je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu “takováhle” jasnou referenci.

RO: “Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo.” - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo “po revoluci roku 1848”.

JP: “Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem.” Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.)

JP: “Kdo volil Hnutí za demokratické Slovensko (…), volil Moskvu…” Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP “Rusko” v předchozím textu.

Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení)

Honza Krivan, 8.10.2008

1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.

2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole… To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny.


[ Back to the navigation ] [ Back to the content ]