Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
anotace-rozsirene-koreference [2009/03/16 10:31] mirovsky |
anotace-rozsirene-koreference [2012/04/11 15:57] (current) ufal |
||
---|---|---|---|
Line 2: | Line 2: | ||
Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. | Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. | ||
+ | ===== PDT 2.0 ===== | ||
+ | [[PDT 2.0]] na samostatne strance | ||
+ | ===== Anotace textove koreference na PEDT ===== | ||
+ | [[PEDT]] na samostatne strance | ||
Line 14: | Line 18: | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Dokumenty ===== | ||
- | * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]] | ||
- | * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]] | ||
- | * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]] | ||
- | * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF]] (nekoreferenční anafora - metajazyk, //takový// apod.) | ||
- | * Mezianotatorska neshoda [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/neshoda.pdf | PDF]] | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Anotátoři ===== | ||
- | |||
- | * **JK**: * Jan Křivan | ||
- | * **RO**: Radek Ocelák | ||
- | * **JP**: Jiří Pergler | ||
- | * **AN**: Аня Hедолужко | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Diskuze ===== | ||
- | |||
- | [[Diskuze]] na samostatné stránce. | ||
- | |||
- | |||
- | |||
- | ===== Data ===== | ||
- | |||
- | [[Přehled o anotovaných datech]] na samostatné stránce. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Zajimavé/problematické řetězce ===== | ||
- | **JP: K nejasné hranici mezi koreferencí a bridgingem -- posloupnost "vod":** | ||
- | //(1) V podmínkách ČR je však možné, aby na veřejné vodovody, které jsou schopny zajistit nezávadnou a kontrolovanou pitnou __vodu__, bylo připojeno 92 až 95 procent obyvatel. | ||
- | (2) Pražané snížili spotřebu __vody__. | ||
- | (3) Spotřeba pitné __vody__ v Praze výrazně klesla, nyní je na úrovni let 1982 a 1983. | ||
- | (4) Pro Prahu __ji__ vyrábí vodárny Želivka, Káraný a Podolí. | ||
- | (5) Největší podíl (60 procent) má vodárna využívající __vodu__ z vodního díla Želivka.// | ||
- | Vodu v první větě jsem chápal jako generickou. Otázka je, jak je to ve druhé a třetí větě -- logicky jde jakoby jen o určitou "část generické vody" (tj. o tu vodu, která je spotřebována v Praze), nicméně podle struktury vět se podle mě i v těchto případech dá ta voda chápat jako generická. Např. v té větě (3) se nemluví o "spotřebě vody spotřebované v Praze", ale jen o "pražské spotřebě vody". Tak nevím, všechny "vody" ve větách (1)--(3) jsem spojil koreferencí NR. Ve čtvrté větě se už podle mě jasně mluví o té konkrétní "pražské vodě", připojil jsem ji proto jako SUB. A v páté větě jde jednoznačně o podmnožinu "obecné vody", jinou než ve větě (4). Ty hranice jsou holt nejasné. | ||
- | |||
- | **JP: Příklad na vztah SET--SUB u uzlu s nespecifickou a uzlu se specifickou referencí:** | ||
- | //O významu přímých investic se můžeme přesvědčit z prvních praktických příkladů. Nejde jenom o samotný příliv peněz, ale také o vytváření pracovních __příležitostí__, zvyšování kvalifikace pracovních sil, zavádění know-how. [...] Celkem dokončené projekty vedly k vytvoření 3500 pracovních __míst__.// | ||
- | |||
- | **AN:** posloupnost "heroinů" (Ind94103_086): | ||
- | (1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu . | ||
- | (2) Jen za rok 1992 stoupla v New Yorku " návštěvnost " oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků __této drogy__ . | ||
- | (3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry . | ||
- | (4) Od té doby ( tj . přibližně po třicet let ) byl černý trh __tímto opiátem__ přehlcován , a tak __jeho__ cena logicky výrazně poklesla . | ||
- | (5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě . | ||
- | (6) Současný __heroin__ je také mnohem čistší a jemnější než dříve . | ||
- | (7) V běžném __vzorku__ sedmdesátých let byla pouze 3 - 4 procenta čisté __suroviny__ . | ||
- | (8) Nyní jsou k dostání __balíčky__ obsahující až 80 procent čistého __heroinu__ . | ||
- | (9) __Droga__ je tedy tak účinná , že ten , kdo __ji__ užívá , se snadno dostane do " pohody " kouřením nebo šňupáním . | ||
- | |||
- | Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci. | ||
- | |||
- | |||
- | **RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla." | ||
- | Byl bych pro to, označovat "Cup" - text. kor. O - "takováhle". Zatímco zájmeno k ní odkazuje, "akce" už s ní koreferenční není. (Je to něco jiného než "tato akce".) | ||
- | **JP:** A co třeba vést z uzlu "akce" bridging šipku typu SUB_SET (na "cup")? Vypadá to sice trochu divně vzhledem k tomu, že "akce" je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu "takováhle" jasnou referenci. | ||
- | |||
- | **RO:** "Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo." - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo "po revoluci roku 1848". | ||
- | |||
- | **JP:** "Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem." Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.) | ||
- | |||
- | **JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu. | ||
- | |||
- | |||
- | **RO:** "Společnosti k tomu účelu zvlášť zřízené mohou provozovat loterie...". "K tomu účelu" je sice koreferenční s "provozovat loterie", ale anotuji jako SEGM, protože "společnosti" taky visí na slovese a koreferencí by tu vzniklo asi nevhodné zacyklení. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Rozšíření TrEdu ===== | ||
- | |||
- | Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory: | ||
- | |||
- | [[Rozsireni Tredu|Rozšíření TrEdu]] - na samostatné stránce | ||