[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Anotace rozšířené koreference

Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.

Dokumenty

Anotátoři

* JK: Jan Křivan
* RO: Radek Ocelák
* JP: Jiří Pergler
* AN: Аня Hедолужко

Diskuze

viz zde

Data

Train-1

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081016_Anja.zip 28 479 7190 AN 16.10.2008 8.12.2008 cmpr9410_001 - lnd94103_106
data_20081016_Radek_Ocelak.zip 31 498 8922 RO 16.10.2008 10.11.2008 lnd94103_116 - ln94202_75
data_20081016_Jan_Krivan.zip 31 496 9305 JK 16.10.2008 2.12.2008 ln94202_84 - ln94204_78
data_20081016_Jiri_Pergler.zip 24 246 4068 JP 16.10.2008 6.11.2008 ln94204_87 - ln94206_29
data_20081105_test_shody.zip 3 41 585 AN 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 RO 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JK 5.11.2008 2.12.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JP 5.11.2008 16.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081106_Radek_Ocelak.zip 41 816 13178 RO 6.11.2008 3.12.2008 ln94206_47, ln94206_65 - ln94209_50
data_20081106_Jan_Krivan.zip 63 801 14566 JK 6.11.2008 20.1.2009 ln94209_6 - ln95047_051
data_20081106_Jiri_Pergler.zip 19 404 6862 JP 6.11.2008 1.12.2008 ln95047_061 - ln95048_102
data_20081106_nahrada_Radek_Ocelak.zip 8 76 1343 RO 26.11.2008 3.12.2008 mf920922_054 - mf920922_125 náhrada za 83 vět (1610 slov) souboru ln94208_11
soubor ln94208_11 1 83 1610 AN - 1.12.2008 ln94208_11

Train-1/2

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081202_Radek_Ocelak.zip 57 1029 15554 RO 2.12.2008 4.1.2009 mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028 po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla

Train-2

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081202_Jan_Krivan.zip 63 1010 15951 JK 2.12.2008 - cmpr9415_038 - ln94203_89, lnd*
data_20081202_Jiri_Pergler.zip 30 502 8505 JP 2.12.2008 23.12.2008 ln94203_98 - ln94205_84 po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla
data_20081208_Anja.zip 30 510 8454 AN 8.12.2008 - ln94205_93 - ln94207_93
data_20090106_Radek_Ocelak.zip 76 1005 17067 RO 7.1.2009 - ln94208_101 - ln95046_096
data_20090106_Jiri_Pergler.zip 39 503 8997 JP 7.1.2009 20.1.2009 ln95046_106 - ln95049_058
data_20090119_Jiri_Pergler.zip 40 498 7910 JP 19.1.2009 25.1.2009 ln95049_068 - ln95049_138, mf920922_005 - mf930709_055 zbytek do tisíce vět

Zajimavé/problematické řetězce

AN: posloupnost “heroinů” (Ind94103_086):
(1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s heroinem a hospitalizací ze stejného důvodu .
(2) Jen za rok 1992 stoupla v New Yorku “ návštěvnost ” oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků této drogy .
(3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry .
(4) Od té doby ( tj . přibližně po třicet let ) byl černý trh tímto opiátem přehlcován , a tak jeho cena logicky výrazně poklesla .
(5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě .
(6) Současný heroin je také mnohem čistší a jemnější než dříve .
(7) V běžném vzorku sedmdesátých let byla pouze 3 - 4 procenta čisté suroviny .
(8) Nyní jsou k dostání balíčky obsahující až 80 procent čistého heroinu .
(9) Droga je tedy tak účinná , že ten , kdo ji užívá , se snadno dostane do “ pohody ” kouřením nebo šňupáním .

Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci.

RO: “Jak se vám zamlouvá Pragobanka Cup?” “V tomhle termínu takováhle akce chyběla.”
Byl bych pro to, označovat “Cup” - text. kor. O - “takováhle”. Zatímco zájmeno k ní odkazuje, “akce” už s ní koreferenční není. (Je to něco jiného než “tato akce”.)
JP: A co třeba vést z uzlu “akce” bridging šipku typu SUB_SET (na “cup”)? Vypadá to sice trochu divně vzhledem k tomu, že “akce” je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu “takováhle” jasnou referenci.

RO: “Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo.” - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo “po revoluci roku 1848”.

JP: “Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem.” Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.)

JP: “Kdo volil Hnutí za demokratické Slovensko (…), volil Moskvu…” Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP “Rusko” v předchozím textu.

Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení)

Honza Krivan, 8.10.2008

1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.

2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole… To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny.


[ Back to the navigation ] [ Back to the content ]