Diskuze k anotaci rozšířené textové koreference a bridging anafory
problém | diskuze, řešení | techn.pozn. | |
---|---|---|---|
JP, 27.9. | Uzly s lemmatem Oblfm | Mají se anotovat uzly s lemmatem Oblfm, když je tam jasná koreference? Např. ve větě Korunu všemu nasadil ministr Dlouhý tvrzením, že nebyl hodnější ten, kdo vstoupil do KSČ v r. 1963 a byl vyhozen v r. 1969 či 1970 než ten, kdo vstoupil v r. 1977 a vystoupil v r. 1989 jako on. u doplnění sloves “vyhodit”, “vstoupit” a “vystoupit”. | |
RO, 28.3. | postup při chybách ve stromě | Co v principu děláme, když je ve stromě evidentní chyba, např. kousek visí někde úplně jinde, než má viset? Anotujeme jakoby podle pořadí v textu s tím, že to bude ve stromě vypadat nestandardně? Nebo v takovém případě anotaci vynecháváme? JP: To by mě taky zajímalo. Že někde něco visí jinde, než by mělo, se občas stává, a je proto třeba rozhodnout, jestli se řídit podle smyslu, nebo podle té interpretace, kterou nabízí anotace (což ale občas není úplně možné, protože taková interpretace někdy vůbec smysl nedává). Na jinou evidentní chybu jsem narazil teď: Nátlak na bosenské Srby musí pokračovat. Nemůže být ale uplatňován přes Slobodana Miloševiče, i když jeho prsty v Bosně sahají velmi daleko. Ve druhé větě má patiens lemma #Gen, přestože by evidentně měl mít #PersPron (koreferenční s “nátlak”. Pokud bych se měl řídit podle smyslu, udělal bych tam koreferenci, pokud podle chybné anotace, tak nic, protože u lemmatu #Gen se nic neanotuje. A další pěkná chyba: “Hradec Králové” jsem našel anotovaný tak, že řídící uzel je “Králová” a na něm visí “Hradec” s funktorem RSTR. AN: Anotovat podle smyslu a chzbu hlasti mailem JM, ktery do dale preposle Honzovi Stepankovi | |
JP, 2. 3. | Vztah “USA” – “Američané” | Jaký je vztah mezi výrazy ve větách Jestliže schůzka v Camp Davidu a následný izraelsko-egyptský mír přišel zjevně o deset let dříve, a to ještě jen kvůli silnému tlaku Američanů, pro summit mezi Izraelem a Sýrií by mohla být nyní ideální doba. USA udělaly v celém mírovém procesu rozhodující krok, když dostrkaly země Blízkého východu k prvnímu společnému jednání v Madridu? Byl bych asi pro v takových případech dávat koreferenci typu 0. RO: Podle mě je tu možné i normální chápání stát-jeho obyvatelé, tak bych radši nechal REST a nekomplikoval to. Radši se v takových případech trošku držet té formy, pokud to není jednoznačně proti smyslu, jinak se zas nikdy neshodnem, kde přesně je ta hranice, kdy je ještě obyvatelské jméno koreferenční se státem. | |
JP, 2. 3. | Vztah “Japonsko” – “Tokio” | Pokud vím, dohodli jsme se, že v případech, kdy název hlavního města referuje ke státu, budeme takový výraz anotovat jako koreferenční s tím státem. Možná by ale bylo přesnější tam dávat vztah P-FUNCT. Např. ve větě Japonské síly se na Filipínách vzdaly v roce 1945, těsně předtím, než Tokio kapitulovalo. Co vy na to? A další hezký příklad: Vyloučení bývalé Jugoslávie z Organizace spojených národů (OSN) je ospravedlňováno tím, že Bělehrad již nereprezentuje stát, který zanikl. Tady by ta koreference byla hodně problematická, protože by tam musela vzniknout konstrukce typu “x nereprezentuje x”. RO: Já myslím, že tak jsme se dohodli už původně. Aspoň já tam v takových případech P-FUNCT standardně dávám, určitě to není koreference, ale třeba “Rusko-Moskva” jako stát-jeho vedoucí místa. | |
RO 26. 1. | “zaměstnanci” - “každý zaměstnanec” | Už jsme se dohodli, jestli v podobném užití označujeme koreferenci, nebo SET-SUB? JP: Já tam dávám rozhodně koreferenci. RO Mám tu obzvlášť zapeklitý případ: “Výkonný výbor ČMFS se sešel k prvnímu jednání. Kromě rozdělení kompetencí mezi jednotlivé členy připravil odvolací dopis (…) předseda k dělení kompetencí mezi členy výkonného výboru uvedl: Naším záměrem je rovnoměrně rozložit úkoly na všechny členy.” Nestálo by ještě za to vytvořit nějakou kategorii pro tenhle distributivní pohled na tutéž entitu? Jak koreference, tak SUB-SET mi tu přijdou dost divné. JP: V distributivnosti obecně určitě problém je, ale tohle mi přijde ještě docela dobré. Dal bych koreferenci typu 0 jenom mezi “výbor” a “výbor”, a všechny “členy” bych propojil taky koreferencí typu 0. Tady myslím problém není - vždyť je tu možné všechny ty členy substituovat spojením “jednotlivé členy”. Horší je to v takových případech jako “všichni účastníci dohromady mají hodně, ale každý účastník jednotlivě nemá nic”. | |
RO 26. 1. | “stát”- “republika” jako FUNCT-P? | Někdy se objevuje uzel “stát” jako výrazně nekoreferenční s “ČR”, “republika” apod., např. když jde o financování ze státního rozpočtu (a ne z regionálních rozpočtů), státní sféru (x soukromou sféru). Dávám tam pak “stát” jako FUNCT, souhlasíte? JP: Jo, to jsem si taky říkal, že by se mohlo… | |
JP, 18. 12. | koreference s větným antecedentem typu NR | Slibovaný příklad: “Novinář se činovníka ptá na to, na co by se ptal občan, kdyby měl k tomu možnost. Činovníkovi je to mnohdy nepříjemné, obtěžuje ho to.” U obou zájmen dávám typ NR, antecedentem je generická propozice s generalizací nad situacemi, tj. jde o opakované ptaní, které je ve druhé větě pojímáno genericky. | |
AN, 13. 11. | vysledky schuzky | 1) titulky: anotujeme, typ vztahu podle smyslu. Pokud vyrazna viceznacnost, tak mozna chapat titulek “generictejsim” zpusobem 2) NR u #PersPron: pokud puvodni zajmenna koreference je genericka, menime typ O na NR 3) koreference v predikacnich konstrukcich: zustava, jak bylo, t.j. standardni predikaci mezi subjektem a jmennou casti prisudku neanotujeme. Avsak pokud jmenna cast prisudku neprisuzuje vlastnost, ale ma vlastni referenci, muze klidne slouzit jako antecedent koreferencniho vztahu. Strucne receno, zachazime s predikacni casti jako se slovesem: neni predmetem anotace koreference, ale pokud musi, muze byt antecedentem. 4) koreference adjektiv typu vladni, statni: anotovat, pokud maji specificky referent (typ 0) a neanotovat u generickych (NR) a v jinych pripadech. RO ad 2 - ale jen v případech, kde řetězec dál pokračuje? U všech PersPron to přece rozhodovat nemůžem, je jich moc; a pak je zas otázka, jestli má smysl to dělat jen u některých.. JP: Já to dělám u všech… RO: U všech? Tak já to taky zkusím, ale bojím se, že si všeho nevšimnu - už jsem si dost zvykl jít po textu a na PersProny se nekoukat. | |
RO, 13. 11. | “jeden z X” | Značíme častou konstrukci “jeden z (nejúspěšnějších podnikatelů…)” jako SUB-SET? Já jsem to zatím dělal, protože tam je funktor DIR1 a tou podmnožinou se to upřesní, ale nevím. JP: Jasně, značíme, to už jsme někdy řešili. AN: jo, jo , znacime | |
JP, 26.10. | Různé “důvěry” | Nejvíce důvěry vkládají občané ČR ve své nejbližší okolí a v sebe samé. Nejméně důvěry vkládají občané České republiky do politiků. Důvěru píšícím novinářům vyslovilo 58 procent obyvatel, starostům a primátorům 43 procent dotázaných. Vyšší procento důvěry v politiky se vyskytuje u potenciálních voličů ODS než u voličů opozičních stran. Jaké jsou vztahy mezi těmi důvěrami? U posledních dvou vět je to poměrně jasnější, protože tam ty důvěry mají nějaké vlastní argumenty, které jsou s něčím koreferenční (s novináři či politiky). U prvních dvou vět by se to snad dalo označit za generickou, obecnou důvěru, která se v něco vkládá, ale problém je v tom, že to “nejvíce” a “nejméně” tam figuruje jako rozvití těch důvěr, takže koreferenci tam asi značit nelze. AN: Ja bych to vubec neznacila. | |
JP, 26.10. | Nejasná extenze u generických NP | Celý článek pojednává o průzkumu mezi lidmi o tom, komu nejvíce důvěřují. A jsou tam věty typu “Lidé důvěřují více svým partnerům než sobě samým. Jaký je tady vztah mezi “lidmi” a “partnery”? Teoreticky vzato by tam mohla být dokonce i koreference, protože ty množiny jsou prakticky asi totožné, i když v jednotlivých případech ty jejich prvky nikdy totožné nejsou. Podobných vět je v tom článku hodně, např. ty, kde by se mohla označovat podmnožina (Svému nejbližšímu nadřízenému věří 67 procent lidí. Nejméně důvěry vkládají občané České republiky do politiků.) Já jsem tam nikde neoznačoval nic, protože by to bylo dost šílené, ale to asi není úplně dobrý argument… RO V tom druhém případě bych asi klidně vyznačil aspoň koreferenci 0 mezi “lidí”-“občané”. V prvním případě bych neznačil nic, stejně je vztah už naznačen skrz to “svým”. Extenze je důležitá, ale nemůžem ji brát vždycky úplně, občas je záměr textu jinej. | |
JP, 8.10. | Obrat v loňském roce vs. obrat letos | Její obrat podle předběžných výsledků činí za loňský rok téměř 1133 miliardy korun, zisk před zdaněním je vypočten na 64.8 miliónu korun. Letos by se měl obrat pohybovat okolo 1.2 miliardy korun a zisk by měl zůstat na úrovni roku 1994. Má se anotovat nějaký vztah mezi obraty a mezi zisky? Ve skutečnosti to koreferenční není, i když syntaktická struktura se tváří, jako kdyby bylo (to časové určení tam nefunguje jako rozvití substantiva, ale jako doplnění slovesa), a možná by to tak i šlo chápat, pokud by se to bralo jako nereferenční. V případě, že by to ve druhé větě bylo pronominalizované, byl by tam zřejmě typ ANAF, ale v tomhle případě to anafora asi není. Pak se nabízí ještě REST… | |
RO, 8.10. | Příklad mísení specifické a nespecifické reference v jednom řetězci | Shodli jsme se kdysi, že je někdy nutné spojovat typ O a NR do jednoho řetězce, dobrý příklad je: “Po schůzce Moravčík-Boross. … Setkání (typ 0) premiérů Maďarska a Slovenska, které se uskutečnilo v neděli večer… … Proto začal premiér Boross projevovat zájem o setkání (NR) s Moravčíkem. … A tak se setkání (NR) Moravčík-Borros nejdřív odložilo, pak se uvažovalo o jeho zrušení, ale jelikož měli oba premiéři na schůzce (NR) zájem, dohodli se na kompromisu. … Schůzka (typ 0) byla, ale neformální.” Mísí se tam pohled na věc (schůzka) jakožto už proběhlou (specifikovanou) / jakožto teprve budoucí a nepříliš určenou. Je samozřejmě otázka, jestli jde ještě o tutéž entitu, ale koheze textu evidentně stojí na tom, že jde o schůzku mezi premiéry. Ale takových případů bychom asi měli mít co nejmíň, na tom se málokdy shodnem. AN: Vyborny priklad! JP: Podobný případ je: Podle včerejších slov Evžena Teršla z firmy Trade Center měli squateři stejnou možnost získat Ladronku jako jiné organizace. Museli vyhotovit architektonickou studii stavby a projekt na její využití. To squateři již jako nadace Ladronka učinili. Stavební část projektu prý pro ně vypracovali studenti 3. ročníku Fakulty architektury ČVUT. Ale nejsem si moc jistý, že by se tyto případy měly anotovat jako koreferenční… | –>M |
RO, 2.10. | případ koreference NR? | “Zvolen patriarcha. Patriarchou Československé církve husitské byl na příštích sedm let zvolen Josef Špak.” - Anotuju podobné případy jako NR mezi patriarcha-patriarcha, je to dobře? AN: Jo, je to takove funkcni pouyiti, rozhodne blizsi generickemu nez referencnimu | |
RO, 27.9. | CONTRAST | Častý typ kontrastu je takovýto: “Zatímco v Čechách bude slunečno, na Moravě se dají čekat bouřky.” Tj. kontrast vyjádřený už mezivětným funktorem a dva kontrastní páry Čechy-Morava a slunečno-bouřky. Označujeme je v takovém typickém příkladě oba? Nebo označujeme jen ještě výraznější kontrast? JP: Já to u podobných případů dělám oboje. AN: hmm… pokud je uz v synatakticke stukture funktor ADVS, tak to nema smysl oznacovat vubec | |
JP, 15.9. | případ pronominalizace s problematickou koreferencí | Za předpokladu, že se nynějšího zasedání Sejmu účastní všech 460 poslanců - což je ovšem předpoklad čistě teoretický, protože jen málokdy jsou přítomni všichni - by jich muselo pro novelizovaný zákon hlasovat 306. Jak řešit vztah zájmena “jich”? V předchozí anotaci je tam označená koreference k předchozím poslancům, ale v podstatě je to spíš podmnožina, i když není to moc jasné. Taky jsem přemýšlel, jestli by nešlo dát koreferenci k “jich” a podmnožinu k “306”, ale to má funktor COMPL, takže to by asi nebylo moc logické. (A mimochodem, v následující větě je pak výraz “taková většina”, který na tuto větu odkazuje – co s ním?) RO Byl bych tady pro SET-SUB, řešili jsme to už ke 4. 5. A “taková většina” asi klidně ANAF, neřekl bych, že tam jde o přesný počet poslanců, spíš o podobně velký. AN: taky jsem pro SET_SUB a ANAF | |
JP, 14.9. | spojení “není tomu tak” | Jak řešit referenci a koreferenci výrazů “tomu” a “tak”? Např. Pro některé druhy dat a způsoby jejich zpracování jsou střediskové počítače (angl. mainframe) - a celá organizace práce kolem nich - dosud tím nejvhodnějším známým prostředkem. V mnoha jiných případech tomu tak ovšem není. Intuitivně se mi zdá, že jsou oba ty výrazy nějakým způsobem koreferenční s celou předchozí větou. RO U toho můžou být ještě různé druhy - zatímco tady to podle mě jasná koreference není (anotoval bych nejspíš od “tomu” SEGM a od “tak” ANAF na sloveso přechozí věty), tak v jiném příkladě: “Za loňský rok dosáhly dánské investice v ČR pouze 13 miliónů DKK. Je tomu tak i proto, že…” mi to přijde jako pěkný typ 0 (od “tomu” byl už předanotovaný, od “tak” jsem ho označil). JP: Čili tam pak vznikne koreference mezi “tomu” a “tak”? RO: Jo. Ale nevím, co v tom prvním případě - možná lepší, než co jsem psal, by byla koreference NR mezi slovesem-“tomu”-“tak”; abychom to měli trochu jednotnější - buď jde o tutéž situaci (a pak typ 0), nebo o něco jako “stejnou situaci v jiném případě” (a pak NR). AN: A co je tam v syntakticke strukture? Neni mezi tomu a tak predikativni vztah> (jeden ACT, druhy PAT)? Pak by se koreference s tim, co je PAT (tak) neoznacovala vubec a TO bz se bud propojilo zajmennou koreferenci nebo prip. ANAF. Odkaz na segment bzch tam nedavala. JP: Ne, je to nějak jinak, nepamatuju si to teď přesně, ale tuším, že “tomu” je ACT a “tak” má MANN… AN: v tom pripade je to specifika syntakticke anotace (logicka struktura teto konstrukce je myslim predikativni) a muzeme to anotovat jak jste to nabidli - spise 0-0 v druhem pripade a veta - tomu.ANAF. - tak.coref_na_tomu v prvnim. JP: Spíš jenom taková zajímavost: teď jsem narazil ještě na příbuzný případ: “je tomu naopak”. | ling.zajimavost |
RO, 28.8. | vztah různých časových určení, vztah SET-SUB | Pár otázek: Anotujeme systematicky různá časová určení v textech? Jako např. letošní rok - letos - minulý týden - nyní - červenec - 15. červenec… Já to v poslední době celkem pravidelně dělám, dávám tam vztahy koreference a WHOLE-PART, protože je to celkem jednoznačný případ části. +++ Anotujeme vztah množina-podmnožina v následujících typech případů? (Neumím posoudit, jestli ten vztah vyplývá ze syntaktické informace, nebo ne.) “Slavia patří ke 3 nejúspěšnějším klubům ligové historie.” / “Zúčastní se špičkové české kluby, jako např. Slavia a Baník.” A tam, kde mají A, B, C společný řídící uzel a jsou všechny podmnožinami D, anotujeme SET-SUB na ten řídící uzel, nebo zvlášť na každý člen A, B, C? JP: Ta časová určení dělám podobně, i když ne asi úplně důsledně. U obou těch příkladových vět to označuji a u toho posledního to dělám dost nahodile. RO: Tak dobře, dělejme to všechno. Ty časy je sice těžké všechny zachytit, ale zase je většinou dost jasné, jaký přesně vztah mezi nimi je. A to poslední bychom mohli nějak sjednotit, je toho hodně. RO To anotování podmnožin (SET-SUB a WHOLE-PARTpodle mě můžeme udělat dvojím způsobem - 1) pravidelně označovat řídící uzel, pokud je to CONJ (u jiných funktorů bych to radši nedělal), a jednotlivé uzly vždy tehdy, pokud to CONJ není - ušetřila by se tím občas práce u dlouhých výčtů. 2) Můžeme označovat vždy jen jednotlivé uzly - to by bylo jednotnější a asi s menším počtem neshod (spojující uzel by se prostě neoznačoval nikdy), na druhé straně je to občas nějaká práce navíc. Anjo? AN tak ten posledni pripad s A-B-C bych nabizela resit tak, ze pokud vsechny tri dohromady jsou porad jeste podmnozinou D, pak vest SUBSET mezi CONJ a D. Pokud A+B+C=D, pak koreferenci na spojku. Tedz variantu 1). | deska patri k deskam –> M |
RO, 30.7. | časový vztah PART-WHOLE? | Možná bychom mohli rozšířit skupinu PART-WHOLE o případy jednoznačných časových úseků, jako např. “utkání” - “první poločas” - “21. minuta” nebo “tento týden” - “úterý”. Vágnější případy samozřejmě raději ponechat v SUB-SET. AN: souhlasim pro vsechny jasne pripady | –> M |
AN, 7.5. | zapis ze schuzky | 1) vztah PART snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme Brusel - Belgie a Belgie - Evropa, nikoli Brusel - Evropa 2) vztah FUNCT definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. FUNCT jsou napr. pary trenér-mužstvo, premiér-vláda apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - … vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu hráč-mužstvo a ministr-vláda nejsou FUNCT ale SUB, protoze nejsou unikatni. Pokud nazev funkce je v kontextu jmena tuto funkci vykonavaciho (ministr zemedelstvi Lux), sipka FUNCTu vede od “ministr”, nikoliv od Luxu. Uzel “Lux” je propojen s vladou SUBSETem. Pokud vztah FUNCT je mezi primou zavislosti s APP, neoznacujeme ho (premierka vlady) 3) REST pro “misto - obyvatel” oznacujeme i v pripadech, kdy neni pojmenovana entita, cili nejenom u Polsko - Polak, ale take u Polsko - verejnost a zeme - verejnost v pripade ze jde opravdu o misto a jeho obyvatele 4) koreference u sloves nemenime, abychom neplodili koreferenci mezi slovesy samotnymi 5)smer sipky je vzdy podle vztahu v textu, nikoliv podle poradi uzlu ve strome 6)milion a kontejnery anotujeme stejne, cili milion a tisic se anotuji jako kontejnery a ne jako cislovky. Co visi pod nim se anotuje podle smyslu, cili Polaci v Miloin Polaku a Polaci si zvolili prezidenta nejsou koreferencni, zatimco v Miloin Polaku a tito Polaci si neuvedomili ze druhe Polaci jsou koreferencni s milionem 7) Evropska unie se anotuje jako unie statu Evropy nikoliv jako Ceska Republika, cili evropska se koreferuje s Evropou a unie poue s unii. | |
JP, 5.5. | aféra Susko | Mám text s nadpisem “Slovenská aféra Susko”. Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem “Susko” v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově “aféra”, tj. jde zřejmě jen o název aféry. AN: souhlasim. Spojovala bych to ale v pripade, pokud bych melo jiny funktor nez ID | |
JP, 4.5. | problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: V ČR podniká 80 zásilkových firem, nejvíce v Praze, kde jich působí 35. První nákup realizovala v severních Čechách, postupně ho pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a [ACT] [PAT] z Evropské unie o 2.1 mld Kč. Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. AN: takova pronominalizace vetsinou je anaforicka, takze ANAF je tu na miste. Pokud tam vidite jasny subset, tak to urcite taky jde | |
JP, 18.4. | vražda – obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz “čin” ve spojení “obivnění z trestného činu vraždy” chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. (2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky zastřelil dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného činu vraždy a omezování domovní svobody. (4) Čin vykonal v opilosti. “Čin” ve větě (4) je určitě koreferenční se “zastřelil” ve větě (2). Jde o to, jestli je s tím koreferenční i “čin” ve větě (3). RO Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | |
JP, 15.4. | technické záležitosti | 1) Automatické propojování stejných lemmat: Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. AN: to je chyba - pisu to Jirkovi 2) Automatické přesměrování bridging antecedentů: Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. AN: usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . RO Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.) | |
JP, 15.4. | Malta – maltský tým | V kontextu, kdy v textu máme výrazy “Malta” a “maltský tým” a “Malta” referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? AN: nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. JP: (4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s Maltou. (21) Malťané ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském týmu jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů). Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? RO Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě “čeští fotbalisté odletěli na Maltu” paralelně vedle řetězce referujícího k týmu. Nebo ne? JP: Tzn. v tomto případě je důvod ten, že “maltský” ve spojení “maltský” tým nereferuje k týmu, ale ke státu Malta? A dále - kdyby tam někde bylo spojení “maltský útočník”, tak “maltský” referuje k týmu a ne ke státu? A ještě jeden případ - jak by se řešila koreference adjektiva ve spojení “maltský stát”? RO U útočníka to “maltský” může podle mě referovat k obojímu, je to různý výklad; v některých jiných kontextech, kde se nebude vůbec mluvit o “Maltě” jako týmu (řekněme “maltský útočník XY přestoupil z Madridu do Barcelony”), je to jednoznačně k zemi. “Maltský stát” bych v současnosti řešil jako “Českou republiku”, do řetězce zapojoval jen řídící jméno, protože to je stejně koreferenční s tím, k čemu by případně referovalo to adjektivum. | |
JP, 15.4. | Siegl – další reprezentanti | “Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl Siegl, který společně s dalšími sparťanskými reprezentanty včera zrušil stav mlčenlivosti vůči novinářům.” Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo “dalšími” bylo “ostatními”? V tomto druhém případě bych to tam zařadil, v tom prvním nevím… AN: nespada. Nezaradila bych ani ten druhy pripad | |
RO, 30. 3. | město - fotbalový tým | Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. “Jablonec porazil České Budějovice 2:1.” Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští”, a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem. Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. JP: Taky to tak už dělám. A podobně v případech jako “Česká republika porazila Německo” – když v takovém případě výraz “Češi” refereuje k týmu, označuji ho jako koreferenční s “Česká republika” a neoznačuji tam žádný vztah typu místo–obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. “český” vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník–hráč je zřejmě SET–SUB, vztah Baník–trenér zřejmě P–FUNCT. Co ale v případě, že kromě “Baník” a “hráč” je tam ještě “kádr”? Pak je zřejmě lepší propojovat “hráče” vztahem SET–SUB s “kádrem” než s “Baníkem”. Jaký je pak ale vztah mezi Baníkem a kádrem? RO: “Baník” a “kádr” bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k “Baník” - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco “kádr”, “sestava” apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti (“Baník porazil Slavii”) s Baníkem ve významu celého klubu i s vedením a finančním zázemím (“Baník nakoupil posily”), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým “Rakousko” z roku 1958 a “Rakousko” z roku 1990 jsem spojoval koreferencí NR. JP: Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru – já jsem vztah Baník–kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET–SUB. A vzhledem k tomu jsem pak ten vztah SET–SUB od hráčů odkazoval na kádr. RO U těch týmů z různých dob jsem si říkal, že to je něco jako “loňská inflace” - “letošní inflace”, kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna… Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco “kádr” jen občas; takže bychom občas narazili na “kádr” až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat… anebo předem kontrolovat článek, jestli se v něm nevyskytne “mužstvo” nebo “kádr”. To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně. JP: V podobných případech, kdy se ten mezistupeň vyskytne až někde na konci, ho jenom odkazuji jako podmnožinu příslušné nadřazené entity a předchozí vztahy nechávám, jak jsou. Podle mě to tak i celkem odpovídá logice endoforického odkazování. Vycházím taky z toho, že pokud se něco takhle oanotuje jako zanořené podmnožiny, tak se při počítačovém zpracování dá snadno pracovat s tím, že je vztah podmnožiny tranzitivní, tedy že když tam budeme mít “hráče” jako podmnožinu “kádru”, tak se dá automaticky určit, že je “hráč” zároveň i podmnožinou Baníku. A proto nevadí, že se takoví hráči občas odkazují ke kádru a občas přímo k Baníku. | –>M |
RO, 27. 3. | nějaký podnik - stejný podnik | Ujišťuju se - když je na počátku specificky nevybraná entita a pak se odkazuje stále na tutéž, řadíme do do NR? Př. “Například muž, který pracuje v nějakém velkém podniku, se zakouká do sekretářky ve stejném podniku a začnou se scházet v nějaké kavárničcce stranou od toho úřadu”. Pokud ano, je to něco jiného než třeba koreference většiny abstrakt, takže bude dobře to výslovně uvádět jako jistý podtyp NR. AN:je to moc slozity teoreticky problem - vsichni to resi a nemuzou vyresit. Davame tam zatim NR, a tu podskupinu vymezim AN2: porad o tom premyslim a nenachazim zadne argumenty, proc to tak vlastne delame. Pokud na jeden (i kdyz nevybrany) objekt referuje znovu, tak je to v podstate stejna situace jako kdyz se proste mluvi o neexistujicim objektu, jako o dinozaurovi nebo o nejake pohadkove postave. Diskurzem se vytvari fiktivni svet a v tom svete to uz jako by existuje. Tedy asi nejrozumejsi reseni je anotovat takove pripady jako nula. | +M |
RO, 27. 3. | technické drobnosti | Mohli bychom příležitostně požádat Jiřího o úpravu programu, aby se v případě, kdy klávesou T nebo B zadáme šipku a pak nepotvrdíme konkrétní typ a zavřeme nabídku křížkem, žádná šipka nezakreslovala? Taky by byla příjemná možnost pohybovat se v horním okně kolečkem myši, protože Tred pořád někdy trochu nesmyslně roluje. AN: napsala jsem o tom Jirkovi | |
RO, 26. 3. | P-FUNCT | Díval jsem se na záznam prezentace, že zavládla skepse k typu P-FUNCT. Já bych se ho rád zastal, řekl bych, že intuitivně už jsme si ho vymezili docela dobře. Je to podle mě něco jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. Proto trenér-mužstvo a premiér-vláda jsou funct, ale hráč-mužstvo a ministr-vláda SUB. Znovu bych teda navrhnul, aby ta entita ve funkci nemusel být jen jedinec, ale taky unikátní úřad, typ vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha. Z příkladů uváděných na prezentaci by opravdu farář-fara nemělo být nic (to je jako pes-bouda, maximálně REST:-)), ale farnost-farář už by byl P-FUNCT. Právník-kancelář nebo advokát-advokátní kancelář pravděpodobně nic, popř. rest (není to unikátní a není to už ani přibližně podmnožina nebo část); kdyby to byl ředitel nebo tajemník-advokátní kancelář, tak FUNCT. AN: jo, je to tak. S tim fara - farar, to je moje jazykova chyba (chybne jsem chapala slovo “fara”) | |
JP, 21.3. | typ “řekl to…” | Často se stává, že se v textu objeví spojení “řekl to XX”, přičemž zájmeno to odkazuje k celé předcházející větě. V rámci předchozí anotace pronominální koreference je to řečeno jako bridging, ale asi to není úplně správné a někde to dokonce může způsobovat problémy, např. zde: “Kuchyňským nožem ubodal v noci z neděle na pondělí třiačtyřicetiletý J. S. v kuchyni bytu v Pekařské ulici svou o jedenáct let mladší manželku. LN to sdělil vyšetřovatel Krajského úřadu vyšetřování. Motivem činu, který pachatel sám ohlásil, byly déletrvající manželské neshody.” Výraz “to” ve druhé větě je zde anotován jako koreferenční s řídícím slovesem předcházející věty. Slovo “činu” ve třetí větě je pak koreferenční se slovesem “ubodal”, ovšem nikoli s tím “to”. Nebylo by tedy dobré tyto případy opravovat na bridging ANAF? Vím, že Radek jinde psal, že by to příliš komplikovalo situaci, protože např. v případě konstrukce “zmínil se o tom XX” by to podle významu naopak muselo zůstat jako koreference a byl by v tom chaos. Možná by se to ale dalo rozlišovat substitučním testem – v případě, že jde zájmeno “to” nahradit spojením “tuto větu”, je to ANAF, pokud ne (jako třeba u toho zmínil se – nejde říct “zmínil se o této větě”), je to koreference… AN: Souhlasim s Jirkou - ne vsude, ale podle smyslu pokud to patri pod ANAF, tak bych to opravovala. RO Moc se mi to nezdá, resp. není podle mě tak jednoznačné, že to zájmeno odkazuje na výpověď o situaci, a nikoli na situaci samu. Např. ten vyšetřovatel z případu určitě prostě informoval o situaci, aniž použil přesně danou větu (takže ani pro “říct” ten test moc nesedí. Jako metajazyk bych to snad bral jen v případě, že by předchozí věta byla v uvozovkách jako citace.) Takhle bychom jenom zkomplikovali shodu, která je teď automatická: co kdyby tam místo “řekl to” bylo “prohlásil to”, “oznámil to”, “sdělil to”, “zmínil se o tom”, “naznačil to”? Těžko bychom se ve všech případech shodli. Já bych tenhle typ do ANAFu nedával, podle mě je tam vždy nějaký odkaz k situaci samé. AN: mas pravdu, tim se to moc komplikuje. Tak ten pripad s kuchynskym nozem zustane viset jako problem, ale snad se to casto neopakuje. | +M |
AN 6.3. | vysledky schuzky 5.3. | 1) dohodli jsme se neanotovat casti pojmenovanych entit, pokud samy nejsou pojmenovana entita (Oddeleni pro vyzkum … vyzkum, ministerstvo zemedelstvi - zemedelstvi, ale anotovat ustavni soud CR - CR) 2) musim presne vymezit typ PART - jako ze anotujeme pokoj - strop, Nemecko - Berlin, mesto - ulice, ale ne mesto - dum, mesto - muzeum. K tomu by se hodil nejaky dobry otazkovy test. RO: co třeba otázka “je to část území?” - to by zařadilo stát-město; stát-region; město-ulice; např. oblast-jezero apod., ne už město-dům. Ale možná to nestačí na vyloučení případu město-parkoviště, pokud to nechceme. 3) zavedli jsme skupinu ANAF pro nekoreferencni anaforicky vztah 4) technicke pozadavkyA: “predanotace stejnych lemmat v danem souboru” - jde o to, ze nechceme redanotovat vsechna stejna lemmata toho mazani sipek bude s velkou pravdepodobnosti vic, nez jejich zavedeni. Chceme ale toto: Pokud otevreme soubor a vidime, ze vsechny (valna vetsina) uzly s danym stejnym lemmatem jsou koreferencni, tak je muzeme propojit jednim krokem. Treba v jednom souboru spojit vsechny uzly s lemmatem “dite”, nebo “Durych”. 5) technicke pozadavkyB: Dalsi vec se tyka zbarevneni bridgingu. Momentalne mame, ze se barene ukazuji uzly, ktere jsou spojene s oznacenym a dale retezove nahoru. Chteli bychom to trochu zmenit. U textove koreference by to zustalo jak to je. U bridging by se zmenilo to, ze by se neukazal cely retezec, ale jenom ten uzel, ktery je propojen bridgingem s danym uzlem. To je to zuzeni. Na druhou stranu chteli bychom k tomu taky neco pridat, a to aby se blede modre oznacovaly vsechny bridgingy napojene na dany textove koreferencni retezec (ale primo, ne retezove). 6) odkaz typu segm neni vzdy koreferencni. Napr. cely text a pak “podobne problemy resime…” jeste neco? | +M |
AN 28.2. | casti pojmenovanych entit | jak na to ted koukam, asi mame zavst pravidlo, neanotovat casti pojmenovanych entit v samostatnych koreferencnich retezcich. Snad to usnadni praci. Jeste to upresnim a probereme to nekdy na schuzce. | +M |
RO 22.2. | počítače, kopírky - vše | Zájmeno “vše”/“všechno” není v základní pronominální anotaci, ale někdy je koreferenční: “X daroval Y počítače, kopírky apod. Vše v hodnotě 1 milión.” Myslím že to můžeme anotovat standardním způsobem. AN: urcite. Diky! | +M |
RO, 22.2. | město - stát; ulice-město | Podle dosavadních domluv byl typ město-stát PART-WHOLE, jak teď? Na jednu stranu to není úplně čistá část, na druhou je to pěkně ohraničená skupina případů, takže bych ji navrhoval nechat v PART-WHOLE. A platí, že případ město-ulice/náměstí… neanotujeme nijak? AN: mesto - stat: urcite PART-WHOLE. Mesto - ulice - popradve nevim. Rikali jsme, ze neanotujeme “mesto-museum”, ale ulice by docela mohlo. | |
AN, 19.2. | anotace koreference generickych NP typu “zvyseni mezd” | anotujte maximalne - u zvyseni a u mezd. Snad tak dosahneme vetsi shody a z hlediska duslednosti je to asi nejspravnejsi reseni. Totez v pripade vahani, jestli NP je pojimana v ruznych casovych usecich, ale vyrazne anaforicky a bez kontrastu, treba DPH tehdy a tehdy apod. | |
JP, 18.2. | bridging u uzlů s funktorem RSTR | Napadlo mě, jestli mezi ty funktory, u kterých se neanotuje bridging v případě přímé závislosti (APP, MAT, PAT, AUTH), nezařadit ještě RSTR. Takový vztah se objevuje poměrně často, což je způsobeno tím, že se do koreferenčních řetězců zapojují adjektiva vytvořená od vlastních názvů. V takových případech je pak potřeba anotovat bridging mezi členy dvojic, jako např. “české město”, “maďarský prezident” apod. AN: Jasne, zaradime. Tim se nam tam dostanou i priklady typu cesky stat, ktere by take nemeli byt anotovany. Predanotace - zakazat RSTR? JP: No, jestli to chápu správně a pokud by se to dělalo stejně jako u těch funktorů APP apod., tak by se např. u dvojice “Maďarsko – maďarský prezident” anotovala koreference mezi “Maďarsko” a “maďarský”, jen by se nově neanotoval žádný bridging na “prezidenta” (stejně jako by to bylo u dvojice “Maďarsko – prezident Maďarska”). A v tom případě není důvod rušit žádnou předanotaci. Akorát je otázka, co v takovém případě dělat s výrazy typu “Česká republika”, příp. “ČR”… | +M |
JP, 17.2. | nejasná hranice typů 0/NR | Pokud se nepletu, tak se v zásadě předpokládá, že v rámci jednoho koreferenčního řetězce se uplatňuje vždy jen jeden typ identické koreference. V praxi to ale ne vždy platí – zejména tehdy, když se v řetězci střídají různá synonyma. Např. u dvojice Češi – tento národ má první výraz generickou referenci, druhý specifickou. Co s takovými případy? AN: zachovavat nejednotnost - je zajimava, orientovat se pritom na posledni vyskyt (druhy clen paru) - pokud je specificky, tak nula, jinak - NR | |
JP, 16.2. | “ve stejném období tohoto roku” – typ ANOF? | Do případného typu ANOF bychom mohli zařadit ten typ “ve stejném období tohoto roku”, který jsme kdysi řešili a rozhodli se ho považovat za typ REST. Např. V prvním pololetí vyrobili provozovatelé vodovodů a kanalizací více než 495 milionů metrů krychlových pitné vody. Je to o 10.19 % méně než ve stejném období roku 1993. AN: No jo, to je takove hranicni. Neni tam uplne zretelne vyjadren anaforicky odkaz. Musim to promyslet. | |
JP, 16.2. | předanotovaná koreference tam, kde by podle významu měl být bridging REST | I vyspělé země se stabilizovanou daňovou soustavou, jako je Spolková republika Německo, Belgie, Švédsko, odhadují ve svých zemích podíl stínové ekonomiky na HDP od devíti do třinácti procent, země Středomoří dokonce na dvacet až třicet procent, říká Tomáš Dub a dodává: Osobně si myslím, že se podíl šedé ekonomiky na HDP u nás pohybuje tak okolo 15 procent. Podtržená část je v tektogramatickém stromě reprezentována mimojiné několika rekonstruovanými uzly: uzlem s lemmatem “odhadovat” a příslušným patientem tohoto slovesa. Tento rekonstruovaný patiens původní anotace označuje jako koreferenční s uzlem “podíl”. Významově však jde o jiný podíl, protože to je podíl v jiné zemi. Takový případ by se tedy měl jednoznačně anotovat jako REST. Má se tedy původní koreference zrušit a nahradit bridgingem? Podobná situace je např. ve větě Podle jeho slov je však její podíl na českém HDP zřejmě nižší než v okolních postkomunistických zemích, kde podle jeho osobního odhadu může dosahovat až čtyřiceti procent. (Mimochodem, ta první věta je zjevně napsaná logicky špatně, takže ve spojení “svých zemích” jsou oba uzly, spojené závislostí s funktorem APP, koreferenční. Ale to jenom tak na okraj.) AN: spis bych rekla ze opravit. Snad takovych pripadu nebude moc | |
JP, 13.2. | “každý z nich” | Jak se nakonec anotuje “každý z nich”? Kdyby tam bylo “některý z nich”, byla by od zájmena koreference na antecedent a mezi “některý” a “z nich” by byl SET. Ale u “každý z nich”? Analogicky by to bylo koreference od zájmena k antecedentu a k tomu ještě koreference mezi “některý” a “z nich”… AN: nevim. kazde reseni vypada dost neintuitivne. Chtelo by to nejakou konvenci. Meli jste toho vic? jak jste to resili? | –> S |
JP, 13.2. | typ “u nás” | Jak je to s anotací výrazů typu “u nás”? Předpokládal jsem, že se neanotují, protože jde o zájmeno v první osobě, nicméně v manuálu se u typu “tady v Praze” uvádí i příklad “u nás doma”… AN: Pardon, chyba v manualu, nebudeme ty 1/2 osoby dusledne anotovat | |
JP, 12.2. | typ dnes v 16 hodin | “Třídenní koncert nazvaný Trutnov 87 - 94 začíná dnes v 16 hodin v trutnovském letním kině Na bojišti.” Anotuje se nějak vztah mezi dnes a hodin? Vzhledem k tomu, že v případech typu u nás doma se anotuje identická koreference, mi přijde logické označovat v tomto případě vztah SET (a podle dohody by případně šel i PART). AN: Neanotovala bych to vubec, prijde mi to zbytecne | +M |
JP, 8.2. | poptávka – nulový zájem | “Sběrné suroviny se chovají podle poptávky. Příčinou nulového zájmu o starý papír…” Označuje se v tomto případě nějaký vztah mezi poptávkou a nulovým zájmem? Napadá mě anotovat to jako SET–SUB, tj. chápat poptávku jako potenciální množinu, do které by patřily prvky nízká poptávka, vysoký zájem apod. (V tomto případě jde ještě navíc o to, že ta poptávka je myšlená obecně, zatímco v případě nulového zájmu jde o poptávku po papíře.) Je to podobné jako ten případ inflace – tříprocentní inflace, který jsme ale, pokud vím, zatím nevyřešili. RO Pokud něco, tak SUB-SET, ale už je to podle mě na hranici toho, co ještě anotovat. Těžko tu vymyslíme pravidlo, případy se každý trochu liší; bude to asi vždycky na individuálním posouzení. AN: to bych uz neanotovala, prilis hluboke, individ. chapani | |
AN 3.2. | výsledky schůzky | 1) SET/PART - viz dole; 2) Nekoreferencni anafora - viz dole a nahoře seznam; 3) Pokud uzel má funktor APP, MAT, AUTH nebo PAT, jeho bridging vzth s přímým rodičem neanotujeme. Pokud však má funktor DIR1 nebo jiný, naopak anotujeme, přičemž v rámci té jedné věty (jeden ze stavkujících podníků - podník SET na jeden); 4) resili moznost anotace anaforickych adjektic typu “tamni”, “zdejsi” a rozhodli, ze je anotovat nebudeme; 5) v typech identicke textove koreference jsme zrusili typy SYN a ER. Co bylo SYN, ted je nula, ER - castecne do bridgingu, do nereferencni anafory; 6) koreferenci znacime jenom u vybranych adverbii, hlavne tam, tady, zde, tehdy, tak - rozepisu to v manualku; 7) resili a nevyresili velky problem textove koreference na kontejner nebo na zavisly clen (Milion stavkujicich vysli na ulice - pocet stavkujicich - stavkujici jsou proti tomu, aby) … jeste to rozepisu pozdeji; 8) ministr - vlada (SET) vs. premier - vlada (FUNCT); 9) pokud je vyber z vice antecedentu, bridging vzdy vede na ten nejblizsi; 10) typ “před válkou” – “po válce” se anotuje jako identická koreference. | –> M |
RO 28.1. | bridging “souřadnost”? | Zdá se mi, že by se občas hodila kategorie bridgingu, kterou už kdysi navrhoval Honza, něco jako vztah společného členství v množině. Občas se do textu nějak uvádí B, které je jaksi souřadné s A, např. “trh zlata” - “trh ropy”, “poslanec A” - “poslanec B” a když tam není kontrast ani zahrnující pojem, zatím to můžeme označit leda REST. (Musela by se asi určit priorita: pokud je tam něco nadřazeného (u těch poslanců třeba sněmovna), tak SET-SUB nebo PART-WHOLE, a tahle souřadnost jen v případě, že SET/WHOLE chybí, abychom nemuseli připojovat členy podmnožiny k množině a pak ještě mezi sebou.) Ale navrhoval bych to zavést asi jen v případě, že by to neznamenalo pomalejší práci Tredu. AN: Spis se bojim, ze to zpomali vasi praci - vyhledavat elementy mnoziny, a pak jeste hledat preference, jestli tam je nadrazeny clen apod. Co myslite? JP: Mně to přijde jako celkem zbytečné, protože ten významový vztah se mi tam nezdá tak těsný, resp. zdá se mi volnější než některé jiné vztahy, které se taky neanotují (např. ten vztah ČR – vláda). Někdy navíc jdou tyto vztahy označit jako CONTRAST. RO: Dobře, já na tom netrvám. Takže aspoň výrazné případy tohohle, pokud tam není kontrast, můžou jít do REST. OK? AN: urcite muzou | |
RO 28.1. | obecný - jednotlivý případ SET-SUB | Ujišťuju se, kdyžtak mě prosím opravte: Vztah obecný případ - jednotlivý případ anotujeme jako bridging SET-SUB. Např. “Nový VW Golf je vybaven motorem o síle…” - “Dostali jsme možnost se novým golfem projet.” Je to myslím logické už proto, že první výskyt bychom anotovali jako koreferenci s “Nové golfy”, a pak by vztah SET-SUB byl nesporný. Totéž je možno i na úrovni abstraktnějších jmen? Vymýšlím si příklad: “Trestní sazba za zpronevěru je x let.” - “Zpronevěra, které se dopustil XY…” Opět SET-SUB? JP: Já to tak dělám, i když nevím, jestli je to úplně správně, zrovna jsem se na to chtěl na schůzce zeptat. Připadá mi, že je to přece jen trochu něco jiného než klasický vztah SET-SUB, a tak mě napadlo, jestli by protiklad SET/PART, který se mi poslední dobou často zdá trochu problematický, nešlo využít právě k tomuto rozlišení - např. SET používat pro to obecné-konkrétní, zatímco pro běžné případy vyhradit PART. Ale to je spíš jenom takový nápad, než že bych si za tím nějak stál, navíc nevím, jestli má v této fázi anotace dělat takové změny… RO: Účelné změny podle mě rozhodně smysl mají, právě proto, že jsme celkem na začátku a devět desetin korpusu podle nich můžeme ještě udělat. Tenhle návrh mi přijde docela dobrý (taky jen předběžně). AN: Taky bych podobne priklady anotuju jako SET-SUB. Co se tyce takoveho rozdeleni SET a PART, nejsem si jista, ze to ten problem zjednodusi. Probereme to na schuzce - sbirejte priklady, pokud se znovu objevi AN: na schuzce bylo dohodnuto, ze to zustava v zasade beze zmen. Vztah “obecný - jednotlivý případ” anotujeme jako SET-SUB. Problematicke pripady zarazujeme spise do SET nez do PART, v PART zustavaji jenom uplna jasne. | |
JP, 16.1. | uzly s funktorem INTF | Má se anotovat koreference u uzlů s funktorem INTF? Narazil jsem na to ve větě “Vím, že je to ode mne, laika v dotyčném oboru, velmi odvážné, pouštět se do polemik s renomovanými experty.” AN: neanotovat - správně nebo nesprávně, ale je to označeno atomický uzel, falešný subjekt apod. tedy nemůže mít referenci a koreferovat | |
RO 4.1. | “za Prahou” - “tu” | Pokud vím, máme anotovat i anaforická adverbia typu “tady”, “zde”. Narazil jsem na problematický případ: “za Prahou” - “části města” - “tu”. “Město” je koreferenční s “Praha”, “tu” neznamená “v Praze”, nýbrž “za Prahou”, ale když to odkážu k “za Prahou”, automaticky se to spojí s “město”. Řešit segmentovou koreferencí? Anebo je to další příklad toho, že kde je jasná anafora, nedá se vždy mluvit zároveň o jasné koreferenci, a argument pro částečné odlišení těchhle vztahů? JP: To je obecný problém, jak anotovat výrazy s předložkou. Kromě místních určení se to často týká ještě určení časových. Tak např. výrazy “před válkou” a “po válce”. Oba tyto výrazy jsou reprezentovány uzly s lemmatem “válka”, rozdíl mezi nimi je zachycen pouze subfunktorem (before/after). Je tedy otázka, jak anotovat vzájemný vztah. Kdyby se vycházelo z lemmatu toho uzlu, je to koreference, kdyby se brala v úvahu i informace ze subfunktoru, je to bridging contrast. V tom případě by se ale nemohla značit koreference ani mezi uzly “před válkou” a “válka” (např. ve větě, kde by “válka” byla podmětem) a ani mezi uzly “za Prahou” a “město”. Další pěkný příklad je dvojice “před začátkem utkání” a “při rozcvičování”. Zde je situace obrácená - když se vezme v úvahu i význam předložky, zachycený subfunktorem, je to koreference, nicméně mezi referenty samotných substantiv žádný označitelný vztah není. AN: Krásné příklady!!! Jenom teoreticky se to vyřešit nedá, musíme se jenom dopmluvit, aby to bylo jednotně. Jak jste to anotovali? Nabizí se mi spíše to řešení orientovat se na holá jména bez předložek, aby vždy byla propojená Praha a Praha. Na škodu skutečné koreference. | –> M, EH |
JP, 23.12. | technický problém s gramatickou koreferencí | Narazil jsem na problém související s propojením textové a gramatické koreference: “…očekávají návštěvu sparťanského prezidenta Macha s manažerem Nehodou, kteří by měli podat vysvětlení. (…) Musí zasáhnout manažer nebo prezident klubu.” V první větě je výraz “který” koreferentní jak s “Machem”, tak s “Nehodou”, a protože jde o koreferenci gramatickou, nelze ji nahradit bridgingem. Problém je, že o několik vět dále jsou uzly “manažer” a “prezident”, které jsou každý zvlášť koreferentní s “Nehodou” a “Machem”, což ale nejde zaznačit, protože koreference se v obou případech automaticky odkazuje na uzel “který”, v důsledku čehož je pak “prezident” označen jako koreferentní s “manažerem”. Řešil jsem to tak, že jsem vedl od “manažera” a “prezidenta” bridging na “který”, což ale není ideální. AN: Jirko, bylo to jenom jednou? Melo by se to spis vyresit technicky. Pokud se to opakuje, meli bychom umet rucne zrusit automaticke propojeni retezcu. JP: Zatím jsem se s tím setkal jenom jednou, takže to asi nebude tak častý případ. Vyřešit by to mělo jít jednoduše tím, že by v případě, že od jedoho uzlu vede víc než jedna koreferenční (ne bridgingová) šipka, pro tento uzel neplatilo to automatické propojování. | –> JM |
JP, 23.12. | bridging typ FUNCT | Kde všude se dá použít vztah FUNCT? Zatím je to pokud vím tak, že u typu FUNCT musí být na jedné straně vztahu výraz s rysem [+person]. Nešlo by to rozšířit i na jiné případy? Např. by podle mě bylo vhodné nějak jednotně označovat vztahy typu “Česká republika - vláda”, “ČR - poslanecká sněmovna” nebo “Praha - radnice”. A vzhledem k tomu, že tyto vztahy jsou významově blízké vztahům anotovaným jako FUNCT (a taky vzheldem k tomu, že tento typ není alespoň v mém případě tolik vytížen), se mi zdá vhodné používat typ FUNCT i pro ně. Pak mám ještě otázku, jestli jde jako FUNCT označovat i vztahy typu “ČR - předseda vlády”, které jsou poněkud významově volnější. AN: ty vztahy bych neanotovala vubec, myslim, ze jsem to psala i v manualu, je to prilis vagni, prilis zalezi na znalostech sveta a pripomina sirokou semantickou sit | |
JP, 23.12. | výraz “obdobně” | Jak řešit tento případ? “SAPO byl silně zastaralý ještě před svým dokončením; hlavní zájem VÚMS se tou dobou soustředil již na další projekt, elektronkový počítač 1. generace EPOS 1. Ten bohužel dopadl obdobně; byl opuštěn ve stadiu nedokončeného funkčního modelu…” Výraz “obdobně” odkazuje na předchozí kontext, ale zřejmě to není koreference a ani není úplně jednoznačné, k čemu ho odkázat. Kromě toho by se u něj ještě dala označovat kataforická koreference na celou část věty za středníkem (která je v příslušném souboru vedena jako samostatná věta). Udělal jsem to tak, že jsem tam označil tuto kataforu a zároveň jsem dal bridging vztah typu rest na sloveso “být” v předchozí větě. AN: Proc ne? I kdybych ten REST bych asi neanotovala | |
JP, 22.12. | výraz “potom” | Anotuje se nějaký vztah u výrazu “potom”? Např. Zátah však pouze znepříjemnil život několika gangsterům zadrženým na 48 hodin - potom museli být pro nedostatek důkazů propuštěni. - je tu určitě nějaký vztah mezi “potom” a “48 hodin”, je ale otázka, jestli zrovna koreference… Podobně je tomu u výrazu “proto”. AN: Ani potom ani proto neanotujte. Neni to ani koreference, ale spise diskurzivni vztah, ktery je uz bud zachycen strukturou stromu a funktory anebo se bude anotovat zvlast pri anotaci dizkurzu, ktera se prave chysta Sarkou Zikanovou a kol. - viz na https://wiki.ufal.ms.mff.cuni.cz/projekt-anotace-diskurzu | |
RO, 20.12. | anafora x koreference | Shodli jsme se s Jirkou, že se nám zdá, že se v anotaci možná málo zohledňuje principiální rozdíl mezi anaforou a koreferencí. Nevím přesně jak, ale možná bychom s pomocí tohohle rozlišení mohli některé věci líp řešit. Je pravda, že většinou platí “kde je anafora, tam je i koreference”, ale není to tak všude. Třeba v tom případě “Jak se vám zamlouvá Pragobanka Cup?” “Takováhle akce u nás chyběla” je “takováhle” anaforické, ale “takováhle akce” není koreferenční. Podobně výrazy “tak” nebo “tolik” můžou myslím být anaforické a přitom nezakládat koreferenci. Taky “segmentovou koreferenci” myslím v podstatě anotujeme tehdy, jestliže je tam anaforický výraz, jako třeba to Jirkovo “tehdy”. JP: Jako další příklad může sloužit dvojice “v roce 1987” - “tehdejší podoba nezávislé scény”, na kterou jsem právě narazil. Na rozdíl od výrazu “tehdy” má výraz “tehdejší” adjektivní platnost, takže z něho zřejmě nejde odkazovat vůbec, a celá NP není koreferenční vůbec s ničím, takže nejde použít ani ten segment. Problém tedy vidím hlavně u výrazů s funkcí adjektiv, dalším příkladem může být např. “tamní”. AN: No jo, se vsim souhlasim. Krasne priklady! Ale co se da delat? Nemuzume prece delat dve paralelni anotace - anafory a koreference. Proto jsme se domluvili na tom, ze zakladni vztah bude koreference, i kdyby nebyla anaforicka. Tim prichazime o anaforu, ktera neni koreferencni. Nevim, jestli je to spravne reseni - nektera jina pracoviste se zakladaji vic na anaforu, protoze v anglictine urcite NP jsou vyznaceny clenem a je z toho jednoduseji vychazet. RO: Myslím, že by se to řešit dalo: ona ta anafora v 90% případů koreferenci slouží, takže by bylo opravdu zbytečné vést je separovaně, ale pro ten zbytek bychom mohli zavést kategorii (mezi bridgingem, aby se to nekomplikovalo?) “anaforický odkaz, který nezakládá koreferenci”, protože kde se to vyskytne, má to na koherenci textu velký vliv. Vešla by se tam minimálně ta adjektiva (takový, tamní, tehdejší, podobný, obdobný), ale taky případ “instituce X” - “ve světě tyto instituce financuje stát” (=jiné instituce typu instituce X); třeba i výrazy “tolik”, “tehdy”, “tak”, “takto”, protože reference je u nich sporná; zatím u nich myslím označujeme koreferenci, jenom když předchází substantivní vyjádření typu “roku 1990”, “tímto způsobem”, což je spíš menšina případů. Jediný problém by byl stanovit, na jaký uzel je odkazovat - snad na NP v případě “takový”, “obdobný”, “tamní” a na řídící sloveso v případě, kdy jde o nějaký aspekt celé situace a neumíme to vztáhnout k některému objektu… JP: Možná by to šlo řešit i tou kategorií REST… Další příklad je z textu na shodu: “V Bavorsku” – “zdejší odboráři”. Jinak v případě těch dalších výrazů jako “tehdy” a “takto” myslím problém není, ty mají referenci a dá se u nich anotovat koreference. A v případě, že není kam odkázat, se zde dá použít segment. AN: Ted kdyz o tom premyslim, vubec se mi ta zvlastni bridging skupinka nezda spatna. Probereme to taky na schuzce. AN: Na schuzce jsme se dohodli zatim tu skupinku nezavadit, takove priklady anotovat jako REST a psat je do seznamu na https://wiki.ufal.ms.mff.cuni.cz/priklady-k-zatim-nezavedene-bridging-skupine-anof. | –> EH |
RO, 20.12. | katafora | Je možné vést v případě katafory šipku náležitě, čili opačným směrem? Občas se to objeví; nevím, jestli jsme to už řešili. AN: pri katafore je sipka dopredu, cili opacnym smerem nez normalne | |
RO, 20.12. | koreference 0 x SYN | Pořád nemáme jasno, co se anotuje jako typ 0 a co jako SYN. Měli jsme kritérium, že pokud se řídící jméno celé fráze shoduje, je to 0, pokud se liší, je to SYN; ale na minulé schůzce jsme to zase jakýmsi případem narušili - řídící jméno se shodovalo, ale přesto jsme rozhodli, že to bude SYN. (Nepamatuju si, co to bylo; víte někdo?) Druhá věc je, že pokud určíme nějaké takové formální kritérium, pak se to může snadno rozlišit automaticky a pro ruční anotaci by úplně stačila jedna kategorie. Co s tím? JP: Co to bylo, si nepamatuju, nicméně nabízí se to v případě nějakých ustálených spojení (nebo jde-li přímo o vlastní jména), např. “Česká republika” - “naše republika”. V některých případech se zase nabízí anotovat jako typ 0, přestože řídící uzel není stejný, např. “firma Struktura” - “Struktura”. AN: Nechme to zatim jak je. Na ten pripad se taky nepamatuju. Asi mate pravdu… Nakonec budou ty skupiny dve - NR bych prece jen nechala RO: Jojo, na NR se určitě hodí na to generické užití. Co se týče 0 x SYN, nemyslím, že by nemělo smysl rozlišovat to, co rozlišujeme, ale v případě, že by totéž šlo automaticky (a já myslím že ano - rozlišit, jestli se řídící uzel koreferujících výrazů lexikálně shoduje nebo liší), možná bychom tu distinkci mohli využít spíš na něco, co počítač rozlišit neumí. Nevím, jestli by to v praxi fungovalo a šlo určovat, ale napadlo mě odlišit případy, kdy je nové pojmenování nějak sémanticky obohacené, přináší novou informaci o denotátu (novou buď proti všem předchozím jeho pojmenováním, nebo proti informacím obsaženým v celém předchozím textu). Např. “Michael Schumacher vyhrál další závod Formule 1…” - “Schumacher” (nic nového) - “…, říká jezdec”(informace nová proti předchozímu pojmenování / stará vzhledem k celému předchozímu kontextu) - “loňský mistr světa” (nová informace). AN: souhlasim, taky mi to prijde logicke | |
JP, 19.12. | typ “jde o…” | “Ve čtvrtém kole druhé vlny kuponové privatizace do včerejšího odpoledne odevzdali občané Podniku výpočetní techniky zatím 1592000 kuponů. Jde o předběžné údaje, protože stále docházejí kupony ze vzdálenějších pošt.” Má se anotovat koreferenční vztah mezi slovem “údaje” a počtem kuponů? Významově ta konstrukce odpovídá konstrukci “jsou to předběžné údaje”, kde by se “údaje” jako koreferenční neanotovaly (anotoval by se uzel “to”), ovšem v tomto případě má sloveso “jít” pouze jeden aktant (aktor “údaje”). AN: V danem priklade bych to anotovala - proc ne, kdyz to struktura nezakazuje? RO Taky jsem pro, jen bych raději odkazoval “údaje” na to “1592000”, nikoliv na “kupóny” - možná se tím trochu míň míchá objektový jazyk s metajazykem. Mimochodem se mi zdá, že to je častější problém; docela možný (byť vymyšlený) příklad: “Povstalci zaútočili na vládní jednotky.” Nechť následuje buď 1) “Tento útok si vyžádal čtyři oběti.”, nebo 2) “Tuto zprávu přinesla agentura X.” Pokud se nepletu, anotujeme jak “tento útok”, tak “tuto zprávu” jako koref. ER, i když se v jednom případě denotuje útok, ve druhém informace o něm. Nevadí to? JP: No, to může být docela problém, hlavně pokud by ten řetězec měl nějak pokračovat. Příklad: “Povstalci zaútočili na vládní jednotky. Tuto zprávu přinesla agentura X. Útok si vyžádal čtyři oběti.” Pak by se jak zpráva, tak útok odkázaly na to sloveso, čímž by se vytvořil jeden koreferenční řetězec, podle kterého by byly “zpráva” a “útok” koreferenční, což by němělo být. Řešením by mohlo být používat ten typ ER právě a jen pro ty metajazykové případy (což by byly dvě mouchy jednou ranou, protože by tím ten typ ER dostal jednoznačné vymezení). Ovšem ten případ, který jsem popsal, by to neřešilo. Mohlo by ho to ale řešit, kdyby se v případě typu ER zrušil ten princip, že Tred automaticky vytváří jeden dlouhý řetězec. Akorát by se tím v tomto případě trochu zrušil princip tranzitivity koreference. RO: To zní zajímavě, nějakou takovouhle kategorii metajazykové koreference by asi stálo za to zavést. Měl bych k ní po ruce skutečný příklad: “Je to vůbec definitivní příměří? IRA se vyhnula ve svém prohlášení tomuto výrazu a místo něj zvolila bezpodmínečný klid zbraní.” AN: Ten typ ER rozhodne pokladejte za takovou metajazykovou kategorii. Je to i v manualku. Na ostatni otazky zatim neodpovidam - premyslim. | |
JP, 16.12. | Česko - český stát a český - český stát | Jenom se chci ujistit, že to chápu správně: V případě dvojice “Česko - český stát” je správným řešením zrušit přednastavenou koreferenci “Česko - český” a místo ní vytvořit koreferenci “Česko - stát”. A podobně v případě dvojice “český - český stát”, tj. nepropojovat “český - český”, ale “český - stát”. Je to tak? AN: Ano, chapes to spravne | |
AN, 3.12 | “nekoreferencni koreference” typu NR | neoznačujeme pokud extence (dosah, možné denotáty) daných NP mají různý dosah, čili nejsou koreferenční, i když o nereferenčních jmenných frázích to není úplně logické tvrzení. Např. v násl. příkladě jsou dvě generické jména, ze kterých druhé je „specifičtější“ než první, tj. odkazuje na omezenější množinu, třídu denotátu. Srov. (17) Stali jsme se také [dodavatel]dodavatelem Unileveru a dokázali splnit jeho zvýšené požadavky na kvalitu . (25)U detergentu Toto jsme například řešili problém s udržením stálé kvality (tady – kvality pouze detergentu), protože jednotlivé partie byly nevyvážené . JP: Takže chápu-li to správně, ve větách “Podle náměstka Svobody potvrdilo společné jednání správnost úsilí našeho ministerstva o decentralizaci v rozhodování, kam půjdou finanční prostředky. V Nizozemsku jsou finance spravovány centrálně, ale rozhodování o tom, na co budou použity, přísluší mnoha uměleckým fondům.” se neoznačuje vůbec žádný vztah mezi finančními prostředky a financemi? V případě abstraktních pojmenování podle mě toto rozlišování dosahu někdy docela komplikuje situaci. Např. teď jsem anotoval článek pojednávající o tom, že Česko pravděpodobně převezme nizozemský model financování kultury, a kdyby se to mělo dělat důsledně, tak by se u všech výrazů s lemmatem “kultura” (které se tam vyskytovaly dost často) muselo rozlišovat, jestli jde o kulturu obecně, nebo o kulturu v Nizozemsku, nebo o kulturu v Česku, přestože je toto slovo většinou použito v dost abstraktním významu (podobně je tomu i s výrazy “financování” nebo “kulturní politika” - takto to možná vypadá, že je vždy jasné, jestli jde o nizozemskou, nebo českou kulturní politiku, ale když se v textu píše o tom, že Češi a Nizozemci spolu debatují o kulturní politice, tak vzniká zase potřeba vytvořit ještě třetí kategorii, tj. kulturní politiku v naprosto obecném významu). A taky by se pak měly řešit nějaké bridging vztahy typu část-celek mezi kulturou v Česku a Nizozemsku a kulturou obecně. V podobných případech, kdy jsou nějaké výrazy použity na vysokém stupni abstrakce, je podle mě rozlišování toho významového dosahu dost sporné (u té kultury je možné říct, že jde o totéž, jen na jiném místě) a vede to k tomu, že se neoznačují některé vztahy, které docela výrazně přispívají ke koherenci textu. AN: Koreferenci mezi finanční prostředky a finance bych neanotovala. Mas urcite pravdu, ze u tech abstrakt je rozlisovani takoveho toho dosahu a vubec koreference je slozity a neodonoznacny, prave proto bych tam koreferenci anotovala jenom v uplne jasnych pripadech. Co treba si predstavit situaci, ze cestina ma clen a navic, ze ho pouziva s abstaktnimi a generickymi NP. A pak si u toho problematickeho paru zamyslet, jestli “koreferujici” clen by byl s clenem (potom anotovat) nebo bez nej (potom neanotovat). Mozna je to ale blbost. U kultury si nejsem jista, potrebovala bych videt vetsi kontext. RO Dlouho už přemýšlím, že by bylo dobré zavést zvláštní kategorii pro věci tohohle typu, kde sice z nějakých důvodů nejde tvrdit koreference nebo některý z vymezených typů bridging, zato to jasně přispívá ke koherenci textu. Třeba proto, že se to lexikálně opakuje, s nějakým významovým posunem. (Občas už jsem tak využil REST, ale nevím, jestli je to schválené.) Třeba ten případ “kulturní politika” vs. “nizozemská kulturní politika” - nemůžem tam určit identitu, možná ani vztah celek-část, ale jednoznačně víme, že to přispívá k textové koherenci, a proč tu informaci tedy nezachovat? (Např. Daneš v Mluvnici češtiny 3 uvádí “známost”, významovou příbuznost referentů jako další důležitý prostředek koherence vedle identity referentů.) Samozřejmě by se to muselo dělat velmi uměřeně, nespojovat všechno možné; ale myslím že toho jsme schopni. Asi by nebylo třeba zavádět nic dalšího - stačí říct jasně, že tyhle případy spadají do REST. Byla by to přiznaně trochu subjektivní kategorie - “anotátorovi se to zdálo důležité pro koherenci textu”, ale lepší než to neznačit vůbec. AN: Urcite to schvaluju jako REST! Absolutne souhlasim. | |
JP | predikát vs. subjekt | “Prvotní apoštolská církev byla chudá. Přesto i ona měla jakousi finanční organizaci, dokonce svého pokladníka. Problémem je, že tímto prokazatelně prvním křesťanským ekonomem byl Jidáš Iškariotský. Neblahé stigma Ježíšova zrádce jako by se nad církevním majetkem vznášelo dodnes.” Problematická je třetí věta: je tam koreference se slovem pokladník ve druhé větě, nicméně je otázka, od kterého z uzlů vést šipku. Trochu se tu nabízí vést ji od uzlu ekonom - mluví pro to jednak aktuální členění, jednak (především) výraz tímto. Nicméně je to predikát, čili správnější asi bude vést koreferenci od uzlu Iškariotský. AN: To je identifikacni veta a obe jeji casti jsou referencni. V takovém případě anotaci podléhají obě části predikačního vztahu, ale přesto neanotujeme koreferenci mezi subjektem a jmennou částí přísudku – jejich koreference je dána syntaktickou strukturou stromu a může být podle potřeby dodělána automaticky. “Prvotní apoštolská církev byla chudá. Přesto i ona měla jakousi finanční organizaci, dokonce svého pokladníka. Problémem je, že tímto prokazatelně prvním křesťanským ekonomem {coref_text na “pokladník”} byl Jidáš Iškariotský.{žádná koreferenční šipka} Neblahé stigma Ježíšova zrádce {coref_text na “Jidáš Iškariotský”} jako by se nad církevním majetkem vznášelo dodnes. | |
AN, 10.12. | koreference u #Gen | prosim neoznacujte - nedelalo se to systematicky, nam se to take systematicky nepovede | |
JP, 7.12. | typ předhusitská církev - tehdy | “Předhusitská církev si k obhospodařování darovaného majetku postupně vybudovala rozsáhlý správní aparát, v němž připadla důležitá role výběrčím desátků - děkanům. Tehdy se také definitivně oddělila správa ekonomická (in temporalibus, tj. ve věcech časných) od duchovní (in spiritualibus).” K čemu odkázat slovo “tehdy”? Referuje to k předhusitskému období, ovšem v předchozím kontextu máme jenom předhusitskou církev. Napadá mě jedině odkázat to na adjektivum, což ale není ideální. AN: Co třeba segm, jako v manualku “v té době”? | |
dotaz, AN, 7.12 | typ koreference virus HIV - v tomto směru | Příklad: Jehly přenášející virus HIV jsou příliš velkým rizikem . A právě to , že dnešní heroin je v tomto směru relativně bezpečný , způsobuje jeho zvyšující se oblibu . Kam byste vztahli v tomto směru? A čím? RO : Vztáhl bych to k uzlu “přenášející/přenášet”, ten heroin je asi bezpečný, pokud jde o přenášení viru HIV. Takže koreference ER, nebo SYN, pokud ER zrušíme. AN: Diky! | |
AN, 3.12 | „zaměstnanci – každý ze zaměstnanců“ | Poněvadž „každý“ v tektogramatickém stromě má substantivní platnost, v konstrukci „každý ze zaměstnanců“ anotujeme koreferenci od něj, PP „ze zaměstnanců“ necháváme bez šipky, jako závislý uzel. Srov. (13)Podle přesvědčení majitelů dosáhla prosperity zejména proto , že zaměstnává lidi , na které { coref_gram, na „člověk“} se může spolehnout . (14) Kritéria výběru jsou přísná . (15) Každý { coref_text, typ=0 na „který“} ze zaměstnanců musí být odborníkem .. | +M |
AN, 3.12 | bridging na spojku | Je možné však i bridging na spojku, pokud je to ze sémantického hlediska logičtější. Srov. Saldo běžného účtu platební bilance podle odhadu dosáhlo vloni cca 600 mil . USD , tj . téměř 2 % HDP . I když letos a {bridging, typ_CONTRAST na „vloni“} příští rok je nutné počítat se zpomalením růstu vývozu a zrychlením růstu dovozu , prognózujeme , že saldo přesto zůstane kladné ve výši 300 - 600 mil . USD ročně . | +M |
schůzka_2.12 | bridging na spojku nebo nepropojeny koreferencni retezec | pripad Pert a Pavel - vlastnici - Petr a Pavel - Petr. Od posledniho Petra delame identickou sipku na predchoziho Petra. Ztraci se navaznost, ale zachova se koreference. | –> M |
schůzka_2.12 | oznacovani casti NE | podle smyslu - pokud cast NE ma nejakou slusnou referenci, tak to oznacime. Pokud ne, radeji nechame neoznacene. Ceske Budejovice - Ceske Budejovice: spojime jenom Budejovice, ne Ceske; ale pokud je v nazvu neco, co potom prirozene vstupuje do samostatneho referencniho retezce, oznacime to. Napr. (nejaky hezky priklad?) | +M |
schůzka_2.12 | nekoreferencni nebo neuplne koreferenci NP s nespecifickou referenci, vetsinou abstraktni nebo dejova, vyjadrene casto stejnym lexemem a porad se opakujici (inflace ve trech vyznamech prez cely text) | NEVIME, RESIME. - 1) skoda neoznacit, ke kohezi prispivaji. 2) tezke, dlouhe a nejednoznacne reseni, co je koreferencni, co ne, co je treba cast-celek 3) zadny stroj ty drobne rozdily nikdy neodhali | |
schůzka_2.12 | segm | pokud chceme odkazat na segment textu (treba i uvnitr jedne vety), ktery neni technicky zachytitelny, davame “segm”. Nesmime s tim vsak prehanet. Musi byt opravdu pritomny jednoznacny anaforicky odkaz. Napr. segm oznacime v pripade Šedesát tři vězňů , kteří vykonávají trest odnětí svobody v České republice , požádalo za první půlrok o předání do věznic na území Slovenska. Informoval o tom včera tiskový mluvčí generálního ředitelství Vězeňské služby ČR Eduard Vacek. Dodal, že loni podalo tuto žádost 200 odsouzených. Take v Chtěl jsem být největším ekonomem na světě, největším milencem na světě a největším jezdcem na světě. Vzhledem k pokročilému věku třetí cíl už nestihnu. | –> zmenit v M |
schůzka_2.12 | vztah v paru Karel Dyba - ministerstvo, pokud neni primo uvedeno, ze Dyba je ministr, a vime to jenom ze znalosti sveta | zadny | +M |
schůzka_2.12 | bridging vztah v paru ministr Karel Dyba - ministerstvo | propojime ministr a ministerstvo vztahem FUNCT_P (duvody - 1) u bridging nemusime dodrzovat retezec, takze neni potreba vest nasilne na ridici uzel; 2) bridging vztahy se snazime pokud mozno oznacovat u slov, ktera ty vyznamy maji v lexikalni semantice) | +M |
schůzka_2.12 | odkaz typu exoph | dodáváme pouze v případě opravdové exoforiké deixe (ukazani prstem), nikoliv jakykoli mimojazykovy odkaz. Např. oznacujeme v dialogu “tahle budova je Sternbergsky palac”, nikoliv vvsak konstrukce typu “pristi rok”, “v soucasne dobe” apod. | +M |
schůzka_6.11 | řetězec Petr – to dítě – Petr: opačný vztah hyperonymie. | řetězec Petr – to dítě {coref_text, typ SYN na “Petr”} – Petr {coref_text, typ SYN na “dítě“}. ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení. ————– RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec. JP: Proč se “Petr - to dítě” anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER. AN: tak to ER asi zrusime, co myslite? Petr - to dite v podstate taky neni zadna poradna hyperonymie, jenom jinak pojmenovany objekt, a podobnych pripadu, ktere znacime SYN je spousta. Ostatni pripady z teto skupinky se rozdeli na 0, SYN a NR | |
schůzka_6.11 | adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.) | řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky) | OK |
schůzka_6.11 | „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení. | je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST, protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční. | +M |
dotaz RO | Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují. Př. nadpis “Cizinec jako našinec”, v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat? Někde se to ale jako antecedent dá brát - když je třeba v nadpisu “Václav Klaus”. | AN: myslím, že by se to stejně melo anotovat - jiný nástroj pro propojení nadpisu a textu článku nemáme a je dobře to mít propojené. Také technicky záhlaví jde potom vždy oddělit | OK |
dotaz JP | Jakým typem koreference spojovat uzly, z nichž jeden je vyjádřen zkratkou (např. ČR - Česká republika, ODS - Občanská demokratická strana)? Anotuji to jako SYN, i když se pochopitelně nabízí i typ 0. | AN: raději SYN | +M |
dotaz JP | Jak anotovat tento případ? V jedné větě je ”…někdejší ministr vnitra Barák…“, o několik vět dál je “do funkce ministra vnitra nastoupil Rudolf Barák…”. Jako typ 0 se samozřejmě propojí Barák-Barák. Ale co s uzly “ministr” a “ministra” (příp. “funkce”)? Prozatím to nespojuji, ale taky by bylo možné to projit např. koreferencí typu NR. | AN: nepropojovala bych to - v pozici antecedenta 'ministr' visi jako zavisky na Barak, navic 'ministry' tady nejsou koreferencni | OK |
dotaz JK | Jak řešíte koreference na pomezí SYN a 0? Mám na mysli takové případy, kdy jsou propojeny dva totožné uzly, ale jejich poduzly se liší (případně chybějí). Např. dvojice: společnost - akciová společnost - společnost Incheba; Vlček - ředitel J. Vlček - Jiří Vlček; ministr financí - ministr - tento ministr atd. | AN: vždy jako typ 0 | +M |