[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Anotace rozšířené koreference

Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.

Dokumenty

Anotátoři

* JK: Jan Křiván
* RO: Radek Ocelák
* JP: Jiří Pergler
* AN: Аня Hедолужко

Diskuze

problém diskuze, řešení techn.pozn.
schůzka_6.11 řetězec Petr – to dítě – Petr: opačný vztah hyperonymie. řetězec Petr – to dítě {coref_text, typ SYN na “Petr”} – Petr {coref_text, typ SYN na “dítě“}. ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení. ————– RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec.
JP: Proč se “Petr - to dítě” anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER.
schůzka_6.11 adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.) řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky)
schůzka_6.11 „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení. je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST, protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční.
dotaz RO Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují. Př. nadpis “Cizinec jako našinec”, v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat? Někde se to ale jako antecedent dá brát - když je třeba v nadpisu “Václav Klaus”.

Data

Train-1

data # souborů # vět # slov anotátor odesláno vráceno soubory
data_20081016_Anja.zip 28 479 7190 AN 16.10.2008 - cmpr9410_001 - lnd94103_106
data_20081016_Radek_Ocelak.zip 31 498 8922 RO 16.10.2008 10.11.2008 lnd94103_116 - ln94202_75
data_20081016_Jan_Krivan.zip 31 496 9305 JK 16.10.2008 - ln94202_84 - ln94204_78
data_20081016_Jiri_Pergler.zip 24 246 4068 JP 16.10.2008 6.11.2008 ln94204_87 - ln94206_29
data_20081105_test_shody.zip 3 41 585 AN 5.11.2008 - ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 RO 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JK 5.11.2008 - ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JP 5.11.2008 - ln94206_38, ln94206_56, mf920922_044
data_20081106_Radek_Ocelak.zip 41 816 13178 RO 6.11.2008 - ln94206_47, ln94206_65 - ln94209_50
data_20081106_Jan_Krivan.zip 63 801 14566 JK 6.11.2008 - ln94209_6 - ln95047_051
data_20081106_Jiri_Pergler.zip 19 404 6862 JP 6.11.2008 - ln95047_061 - ln95048_102

Zajimavé/problematické řetězce

“Jak se vám zamlouvá Pragobanka Cup?” “V tomhle termínu takováhle akce chyběla.”
Byl bych pro to, označovat “Cup” - text. kor. O - “takováhle”. Zatímco zájmeno k ní odkazuje, “akce” už s ní koreferenční není. (Je to něco jiného než “tato akce”.)
JP: A co třeba vést z uzlu “akce” bridging šipku typu SUB_SET (na “cup”)? Vypadá to sice trochu divně vzhledem k tomu, že “akce” je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu “takováhle” jasnou referenci.


[ Back to the navigation ] [ Back to the content ]