Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
anotace-rozsirene-koreference [2009/02/12 17:04] ufal |
anotace-rozsirene-koreference [2009/02/17 13:15] ufal |
* **JP**: Jiří Pergler | * **JP**: Jiří Pergler |
* **AN**: Аня Hедолужко | * **AN**: Аня Hедолужко |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| |
| ^ problém ^ diskuze, řešení ^ techn.pozn. ^ | | ^ problém ^ diskuze, řešení ^ techn.pozn. ^ |
^ JP, 12.2. | typ dnes v 16 hodin | //"Třídenní koncert nazvaný Trutnov 87 - 94 začíná dnes v 16 hodin v trutnovském letním kině Na bojišti."// Anotuje se nějak vztah mezi //dnes// a //hodin//? Vzhledem k tomu, že v případech typu //u nás doma// se anotuje identická koreference, mi přijde logické označovat v tomto případě vztah PART. | | | ^ JP, 17.2. | nejasná hranice typů 0/NR | Pokud se nepletu, tak se v zásadě předpokládá, že v rámci jednoho koreferenčního řetězce se uplatňuje vždy jen jeden typ identické koreference. V praxi to ale ne vždy platí -- zejména tehdy, když se v řetězci střídají různá synonyma. Např. u dvojice //Češi// -- //tento národ// má první výraz generickou referenci, druhý specifickou. Co s takovými případy? | | |
| ^ JP, 16.2. | "ve stejném období tohoto roku" -- typ ANOF? | Do případného typu ANOF bychom mohli zařadit ten typ "ve stejném období tohoto roku", který jsme kdysi řešili a rozhodli se ho považovat za typ REST. Např. //V prvním pololetí vyrobili provozovatelé vodovodů a kanalizací více než 495 milionů metrů krychlových pitné vody. Je to o 10.19 % méně než ve stejném období roku 1993.// | | |
| ^ JP, 16.2. | předanotovaná koreference tam, kde by podle významu měl být bridging REST | //I vyspělé země se stabilizovanou daňovou soustavou, jako je Spolková republika Německo, Belgie, Švédsko, odhadují ve svých zemích podíl stínové ekonomiky na HDP od devíti do třinácti procent, __země Středomoří dokonce na dvacet až třicet procent__, říká Tomáš Dub a dodává: Osobně si myslím, že se podíl šedé ekonomiky na HDP u nás pohybuje tak okolo 15 procent.// Podtržená část je v tektogramatickém stromě reprezentována mimojiné několika rekonstruovanými uzly: uzlem s lemmatem "odhadovat" a příslušným patientem tohoto slovesa. Tento rekonstruovaný patiens původní anotace označuje jako koreferenční s uzlem "podíl". Významově však jde o jiný podíl, protože to je podíl v jiné zemi. Takový případ by se tedy měl jednoznačně anotovat jako REST. Má se tedy původní koreference zrušit a nahradit bridgingem? Podobná situace je např. ve větě //Podle jeho slov je však její podíl na českém HDP zřejmě nižší než v okolních postkomunistických zemích, kde podle jeho osobního odhadu může dosahovat až čtyřiceti procent.//\\ (Mimochodem, ta první věta je zjevně napsaná logicky špatně, takže ve spojení "svých zemích" jsou oba uzly, spojené závislostí s funktorem APP, koreferenční. Ale to jenom tak na okraj.) | | |
| ^ JP, 13.2. | "každý z nich" | Jak se nakonec anotuje "každý z nich"? Kdyby tam bylo "některý z nich", byla by od zájmena koreference na antecedent a mezi "některý" a "z nich" by byl SET. Ale u "každý z nich"? Analogicky by to bylo koreference od zájmena k antecedentu a k tomu ještě koreference mezi "některý" a "z nich"... | | |
| ^ JP, 13.2. | typ "u nás" | Jak je to s anotací výrazů typu "u nás"? Předpokládal jsem, že se neanotují, protože jde o zájmeno v první osobě, nicméně v manuálu se u typu "tady v Praze" uvádí i příklad "u nás doma"... | | |
| ^ JP, 12.2. | typ dnes v 16 hodin | //"Třídenní koncert nazvaný Trutnov 87 - 94 začíná dnes v 16 hodin v trutnovském letním kině Na bojišti."// Anotuje se nějak vztah mezi //dnes// a //hodin//? Vzhledem k tomu, že v případech typu //u nás doma// se anotuje identická koreference, mi přijde logické označovat v tomto případě vztah SET (a podle dohody by případně šel i PART). | | |
^ JP, 8.2. | poptávka -- nulový zájem | //"Sběrné suroviny se chovají podle poptávky. Příčinou nulového zájmu o starý papír..."// Označuje se v tomto případě nějaký vztah mezi //poptávkou// a //nulovým zájmem//? Napadá mě anotovat to jako SET--SUB, tj. chápat //poptávku// jako potenciální množinu, do které by patřily prvky //nízká poptávka//, //vysoký zájem// apod. (V tomto případě jde ještě navíc o to, že ta //poptávka// je myšlená obecně, zatímco v případě //nulového zájmu// jde o poptávku po papíře.) Je to podobné jako ten případ //inflace// -- //tříprocentní inflace//, který jsme ale, pokud vím, zatím nevyřešili. | | | ^ JP, 8.2. | poptávka -- nulový zájem | //"Sběrné suroviny se chovají podle poptávky. Příčinou nulového zájmu o starý papír..."// Označuje se v tomto případě nějaký vztah mezi //poptávkou// a //nulovým zájmem//? Napadá mě anotovat to jako SET--SUB, tj. chápat //poptávku// jako potenciální množinu, do které by patřily prvky //nízká poptávka//, //vysoký zájem// apod. (V tomto případě jde ještě navíc o to, že ta //poptávka// je myšlená obecně, zatímco v případě //nulového zájmu// jde o poptávku po papíře.) Je to podobné jako ten případ //inflace// -- //tříprocentní inflace//, který jsme ale, pokud vím, zatím nevyřešili. | | |
^ AN 3.2. | výsledky schůzky | **1)** SET/PART - viz dole; **2)** Nekoreferencni anafora - viz dole a nahoře seznam; **3)** Pokud uzel má funktor APP, MAT, AUTH nebo PAT, jeho bridging vzth s přímým rodičem neanotujeme. Pokud však má funktor DIR1 nebo jiný, naopak anotujeme, přičemž v rámci té jedné věty (jeden ze stavkujících podníků - podník SET na jeden); **4)** resili moznost anotace anaforickych adjektic typu "tamni", "zdejsi" a rozhodli, ze je anotovat nebudeme; **5)** v typech identicke textove koreference jsme zrusili typy SYN a ER. Co bylo SYN, ted je nula, ER - castecne do bridgingu, do nereferencni anafory; **6)** koreferenci znacime jenom u vybranych adverbii, hlavne //tam, tady, zde, tehdy, tak// - rozepisu to v manualku; **7)** resili a nevyresili velky problem textove koreference na kontejner nebo na zavisly clen (//__Milion stavkujicich__ vysli na ulice - __pocet stavkujicich__ - __stavkujici__ jsou proti tomu, aby//) ... jeste to rozepisu pozdeji; **8)** ministr - vlada (SET) vs. premier - vlada (FUNCT); **9)** pokud je vyber z vice antecedentu, bridging vzdy vede na ten nejblizsi; **10)** typ "před válkou" -- "po válce" se anotuje jako identická koreference. | | | ^ AN 3.2. | výsledky schůzky | **1)** SET/PART - viz dole; **2)** Nekoreferencni anafora - viz dole a nahoře seznam; **3)** Pokud uzel má funktor APP, MAT, AUTH nebo PAT, jeho bridging vzth s přímým rodičem neanotujeme. Pokud však má funktor DIR1 nebo jiný, naopak anotujeme, přičemž v rámci té jedné věty (jeden ze stavkujících podníků - podník SET na jeden); **4)** resili moznost anotace anaforickych adjektic typu "tamni", "zdejsi" a rozhodli, ze je anotovat nebudeme; **5)** v typech identicke textove koreference jsme zrusili typy SYN a ER. Co bylo SYN, ted je nula, ER - castecne do bridgingu, do nereferencni anafory; **6)** koreferenci znacime jenom u vybranych adverbii, hlavne //tam, tady, zde, tehdy, tak// - rozepisu to v manualku; **7)** resili a nevyresili velky problem textove koreference na kontejner nebo na zavisly clen (//__Milion stavkujicich__ vysli na ulice - __pocet stavkujicich__ - __stavkujici__ jsou proti tomu, aby//) ... jeste to rozepisu pozdeji; **8)** ministr - vlada (SET) vs. premier - vlada (FUNCT); **9)** pokud je vyber z vice antecedentu, bridging vzdy vede na ten nejblizsi; **10)** typ "před válkou" -- "po válce" se anotuje jako identická koreference. | | |
| |
[[Přehled o anotovaných datech]] na samostatné stránce. | [[Přehled o anotovaných datech]] na samostatné stránce. |
| |
| |
| |
| |
===== Zajimavé/problematické řetězce ===== | ===== Zajimavé/problematické řetězce ===== |
**JP: Příklad na vztah SET--SUB u uzlu s nespecifickou a uzlu se specifickou referencí:** //O významu přímých investic se můžeme přesvědčit z prvních praktických příkladů. Nejde jenom o samotný příliv peněz, ale také o vytváření pracovních **příležitostí**, zvyšování kvalifikace pracovních sil, zavádění know-how. [...] Celkem dokončené projekty vedly k vytvoření 3500 pracovních **míst**.// | **JP: K nejasné hranici mezi koreferencí a bridgingem -- posloupnost "vod":** |
| //(1) V podmínkách ČR je však možné, aby na veřejné vodovody, které jsou schopny zajistit nezávadnou a kontrolovanou pitnou __vodu__, bylo připojeno 92 až 95 procent obyvatel. |
| (2) Pražané snížili spotřebu __vody__. |
| (3) Spotřeba pitné __vody__ v Praze výrazně klesla, nyní je na úrovni let 1982 a 1983. |
| (4) Pro Prahu __ji__ vyrábí vodárny Želivka, Káraný a Podolí. |
| (5) Největší podíl (60 procent) má vodárna využívající __vodu__ z vodního díla Želivka.// |
| Vodu v první větě jsem chápal jako generickou. Otázka je, jak je to ve druhé a třetí větě -- logicky jde jakoby jen o určitou "část generické vody" (tj. o tu vodu, která je spotřebována v Praze), nicméně podle struktury vět se podle mě i v těchto případech dá ta voda chápat jako generická. Např. v té větě (3) se nemluví o "spotřebě vody spotřebované v Praze", ale jen o "pražské spotřebě vody". Tak nevím, všechny "vody" ve větách (1)--(3) jsem spojil koreferencí NR. Ve čtvrté větě se už podle mě jasně mluví o té konkrétní "pražské vodě", připojil jsem ji proto jako SUB. A v páté větě jde jednoznačně o podmnožinu "obecné vody", jinou než ve větě (4). Ty hranice jsou holt nejasné. |
| |
| **JP: Příklad na vztah SET--SUB u uzlu s nespecifickou a uzlu se specifickou referencí:** //O významu přímých investic se můžeme přesvědčit z prvních praktických příkladů. Nejde jenom o samotný příliv peněz, ale také o vytváření pracovních __příležitostí__, zvyšování kvalifikace pracovních sil, zavádění know-how. [...] Celkem dokončené projekty vedly k vytvoření 3500 pracovních __míst__.// |
| |
**AN:** posloupnost "heroinů" (Ind94103_086): | **AN:** posloupnost "heroinů" (Ind94103_086): |