This is an old revision of the document!
Table of Contents
Anotace rozšířené koreference
Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.
Dokumenty
Anotátoři
* JK: Jan Křivan
* RO: Radek Ocelák
* JP: Jiří Pergler
* AN: Аня Hедолужко
Diskuze
viz zde
Data
Train-1
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | 8.12.2008 | cmpr9410_001 - lnd94103_106 | |
data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | |
data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | |
data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | |
data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | |
data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | 20.1.2009 | ln94209_6 - ln95047_051 | |
data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | |
data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 |
soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 |
Train-1/2
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | 4.1.2009 | mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028 | po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla |
Train-2
data | # souborů | # vět | # slov | anotátor | odesláno | vráceno | soubory | poznámka |
---|---|---|---|---|---|---|---|---|
data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | - | cmpr9415_038 - ln94203_89, lnd* | |
data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | 23.12.2008 | ln94203_98 - ln94205_84 | po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla |
data_20081208_Anja.zip | 30 | 510 | 8454 | AN | 8.12.2008 | - | ln94205_93 - ln94207_93 | |
data_20090106_Radek_Ocelak.zip | 76 | 1005 | 17067 | RO | 7.1.2009 | - | ln94208_101 - ln95046_096 | |
data_20090106_Jiri_Pergler.zip | 39 | 503 | 8997 | JP | 7.1.2009 | 20.1.2009 | ln95046_106 - ln95049_058 | |
data_20090119_Jiri_Pergler.zip | 40 | 498 | 7910 | JP | 19.1.2009 | 25.1.2009 | ln95049_068 - ln95049_138, mf920922_005 - mf930709_055 | zbytek do tisíce vět |
Zajimavé/problematické řetězce
AN: posloupnost “heroinů” (Ind94103_086):
(1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s heroinem a hospitalizací ze stejného důvodu .
(2) Jen za rok 1992 stoupla v New Yorku “ návštěvnost ” oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků této drogy .
(3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry .
(4) Od té doby ( tj . přibližně po třicet let ) byl černý trh tímto opiátem přehlcován , a tak jeho cena logicky výrazně poklesla .
(5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě .
(6) Současný heroin je také mnohem čistší a jemnější než dříve .
(7) V běžném vzorku sedmdesátých let byla pouze 3 - 4 procenta čisté suroviny .
(8) Nyní jsou k dostání balíčky obsahující až 80 procent čistého heroinu .
(9) Droga je tedy tak účinná , že ten , kdo ji užívá , se snadno dostane do “ pohody ” kouřením nebo šňupáním .
Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci.
RO: “Jak se vám zamlouvá Pragobanka Cup?” “V tomhle termínu takováhle akce chyběla.”
Byl bych pro to, označovat “Cup” - text. kor. O - “takováhle”. Zatímco zájmeno k ní odkazuje, “akce” už s ní koreferenční není. (Je to něco jiného než “tato akce”.)
JP: A co třeba vést z uzlu “akce” bridging šipku typu SUB_SET (na “cup”)? Vypadá to sice trochu divně vzhledem k tomu, že “akce” je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu “takováhle” jasnou referenci.
RO: “Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo.” - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo “po revoluci roku 1848”.
JP: “Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem.” Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.)
JP: “Kdo volil Hnutí za demokratické Slovensko (…), volil Moskvu…” Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP “Rusko” v předchozím textu.
Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení)
Honza Krivan, 8.10.2008
1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.
2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole… To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny.