Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
diskuze [2009/04/20 21:02] ufal |
diskuze [2010/09/27 12:08] (current) ufal |
| |
| ^ problém ^ diskuze, řešení ^ techn.pozn. ^ | | ^ problém ^ diskuze, řešení ^ techn.pozn. ^ |
| ^ JP, 27.9. | Uzly s lemmatem Oblfm | Mají se anotovat uzly s lemmatem Oblfm, když je tam jasná koreference? Např. ve větě //Korunu všemu nasadil ministr Dlouhý tvrzením, že nebyl hodnější ten, kdo vstoupil do KSČ v r. 1963 a byl vyhozen v r. 1969 či 1970 než ten, kdo vstoupil v r. 1977 a vystoupil v r. 1989 jako on.// u doplnění sloves "vyhodit", "vstoupit" a "vystoupit". | | |
| ^ RO, 28.3. |postup při chybách ve stromě | Co v principu děláme, když je ve stromě evidentní chyba, např. kousek visí někde úplně jinde, než má viset? Anotujeme jakoby podle pořadí v textu s tím, že to bude ve stromě vypadat nestandardně? Nebo v takovém případě anotaci vynecháváme? **JP:** To by mě taky zajímalo. Že někde něco visí jinde, než by mělo, se občas stává, a je proto třeba rozhodnout, jestli se řídit podle smyslu, nebo podle té interpretace, kterou nabízí anotace (což ale občas není úplně možné, protože taková interpretace někdy vůbec smysl nedává). Na jinou evidentní chybu jsem narazil teď: //Nátlak na bosenské Srby musí pokračovat. Nemůže být ale uplatňován přes Slobodana Miloševiče, i když jeho prsty v Bosně sahají velmi daleko.// Ve druhé větě má patiens lemma #Gen, přestože by evidentně měl mít #PersPron (koreferenční s "nátlak". Pokud bych se měl řídit podle smyslu, udělal bych tam koreferenci, pokud podle chybné anotace, tak nic, protože u lemmatu #Gen se nic neanotuje. A další pěkná chyba: "Hradec Králové" jsem našel anotovaný tak, že řídící uzel je "Králová" a na něm visí "Hradec" s funktorem RSTR. **AN:** Anotovat podle smyslu a chzbu hlasti mailem JM, ktery do dale preposle Honzovi Stepankovi | | |
| ^JP, 2. 3.| Vztah "USA" -- "Američané" | Jaký je vztah mezi výrazy ve větách //Jestliže schůzka v Camp Davidu a následný izraelsko-egyptský mír přišel zjevně o deset let dříve, a to ještě jen kvůli silnému tlaku __Američanů__, pro summit mezi Izraelem a Sýrií by mohla být nyní ideální doba. __USA__ udělaly v celém mírovém procesu rozhodující krok, když dostrkaly země Blízkého východu k prvnímu společnému jednání v Madridu//? Byl bych asi pro v takových případech dávat koreferenci typu 0. **RO:** Podle mě je tu možné i normální chápání stát-jeho obyvatelé, tak bych radši nechal REST a nekomplikoval to. Radši se v takových případech trošku držet té formy, pokud to není jednoznačně proti smyslu, jinak se zas nikdy neshodnem, kde přesně je ta hranice, kdy je ještě obyvatelské jméno koreferenční se státem.| | |
| ^JP, 2. 3.| Vztah "Japonsko" -- "Tokio" | Pokud vím, dohodli jsme se, že v případech, kdy název hlavního města referuje ke státu, budeme takový výraz anotovat jako koreferenční s tím státem. Možná by ale bylo přesnější tam dávat vztah P-FUNCT. Např. ve větě //__Japonské__ síly se na Filipínách vzdaly v roce 1945, těsně předtím, než __Tokio__ kapitulovalo.// Co vy na to? A další hezký příklad: //Vyloučení __bývalé Jugoslávie__ z Organizace spojených národů (OSN) je ospravedlňováno tím, že __Bělehrad__ již nereprezentuje __stát, který zanikl__.// Tady by ta koreference byla hodně problematická, protože by tam musela vzniknout konstrukce typu "x nereprezentuje x". **RO:** Já myslím, že tak jsme se dohodli už původně. Aspoň já tam v takových případech P-FUNCT standardně dávám, určitě to není koreference, ale třeba "Rusko-Moskva" jako stát-jeho vedoucí místa.| | |
| ^RO 26. 1.| "zaměstnanci" - "každý zaměstnanec" | Už jsme se dohodli, jestli v podobném užití označujeme koreferenci, nebo SET-SUB? **JP:** Já tam dávám rozhodně koreferenci. **RO** Mám tu obzvlášť zapeklitý případ: "Výkonný __výbor__ ČMFS se sešel k prvnímu jednání. Kromě rozdělení kompetencí mezi __jednotlivé členy__ připravil odvolací dopis (...) předseda k dělení kompetencí mezi __členy__ __výkonného výboru__ uvedl: Naším záměrem je rovnoměrně rozložit úkoly na __všechny členy__." Nestálo by ještě za to vytvořit nějakou kategorii pro tenhle distributivní pohled na tutéž entitu? Jak koreference, tak SUB-SET mi tu přijdou dost divné. **JP:** V distributivnosti obecně určitě problém je, ale tohle mi přijde ještě docela dobré. Dal bych koreferenci typu 0 jenom mezi "výbor" a "výbor", a všechny "členy" bych propojil taky koreferencí typu 0. Tady myslím problém není - vždyť je tu možné všechny ty členy substituovat spojením "jednotlivé členy". Horší je to v takových případech jako "všichni účastníci dohromady mají hodně, ale každý účastník jednotlivě nemá nic". | | |
| ^RO 26. 1.| "stát"- "republika" jako FUNCT-P? | Někdy se objevuje uzel "stát" jako výrazně nekoreferenční s "ČR", "republika" apod., např. když jde o financování ze státního rozpočtu (a ne z regionálních rozpočtů), státní sféru (x soukromou sféru). Dávám tam pak "stát" jako FUNCT, souhlasíte? **JP:** Jo, to jsem si taky říkal, že by se mohlo... | | |
| ^JP, 18. 12.| koreference s větným antecedentem typu NR | Slibovaný příklad: //"__Novinář se činovníka ptá na to, na co by se ptal občan, kdyby měl k tomu možnost.__ Činovníkovi je __to__ mnohdy nepříjemné, obtěžuje ho __to__."// U obou zájmen dávám typ NR, antecedentem je generická propozice s generalizací nad situacemi, tj. jde o opakované ptaní, které je ve druhé větě pojímáno genericky. | | |
| ^AN, 13. 11.| vysledky schuzky | **1) titulky: ** anotujeme, typ vztahu podle smyslu. Pokud vyrazna viceznacnost, tak mozna chapat titulek "generictejsim" zpusobem\\ **2) NR u #PersPron: ** pokud puvodni zajmenna koreference je genericka, menime typ O na NR\\ **3) koreference v predikacnich konstrukcich: ** zustava, jak bylo, t.j. standardni predikaci mezi subjektem a jmennou casti prisudku neanotujeme. Avsak pokud jmenna cast prisudku neprisuzuje vlastnost, ale ma vlastni referenci, muze klidne slouzit jako antecedent koreferencniho vztahu. Strucne receno, zachazime s predikacni casti jako se slovesem: neni predmetem anotace koreference, ale pokud musi, muze byt antecedentem.\\ **4) koreference adjektiv typu //vladni, statni//: ** anotovat, pokud maji specificky referent (typ 0) a neanotovat u generickych (NR) a v jinych pripadech. **RO** ad 2 - ale jen v případech, kde řetězec dál pokračuje? U všech PersPron to přece rozhodovat nemůžem, je jich moc; a pak je zas otázka, jestli má smysl to dělat jen u některých.. **JP:** Já to dělám u všech... **RO:** U všech? Tak já to taky zkusím, ale bojím se, že si všeho nevšimnu - už jsem si dost zvykl jít po textu a na PersProny se nekoukat. | | |
| ^RO, 13. 11.| "jeden z X" | Značíme častou konstrukci "jeden z (nejúspěšnějších podnikatelů...)" jako SUB-SET? Já jsem to zatím dělal, protože tam je funktor DIR1 a tou podmnožinou se to upřesní, ale nevím. **JP:** Jasně, značíme, to už jsme někdy řešili. **AN**: jo, jo , znacime | | |
| ^JP, 26.10.| Různé "důvěry" | //Nejvíce důvěry vkládají občané ČR ve své nejbližší okolí a v sebe samé. Nejméně důvěry vkládají občané České republiky do politiků. Důvěru píšícím novinářům vyslovilo 58 procent obyvatel, starostům a primátorům 43 procent dotázaných. Vyšší procento důvěry v politiky se vyskytuje u potenciálních voličů ODS než u voličů opozičních stran.// Jaké jsou vztahy mezi těmi důvěrami? U posledních dvou vět je to poměrně jasnější, protože tam ty důvěry mají nějaké vlastní argumenty, které jsou s něčím koreferenční (s novináři či politiky). U prvních dvou vět by se to snad dalo označit za generickou, obecnou důvěru, která se v něco vkládá, ale problém je v tom, že to "nejvíce" a "nejméně" tam figuruje jako rozvití těch důvěr, takže koreferenci tam asi značit nelze. **AN**: Ja bych to vubec neznacila. | | |
| ^JP, 26.10.| Nejasná extenze u generických NP | Celý článek pojednává o průzkumu mezi lidmi o tom, komu nejvíce důvěřují. A jsou tam věty typu //"Lidé důvěřují více svým partnerům než sobě samým.// Jaký je tady vztah mezi "lidmi" a "partnery"? Teoreticky vzato by tam mohla být dokonce i koreference, protože ty množiny jsou prakticky asi totožné, i když v jednotlivých případech ty jejich prvky nikdy totožné nejsou. Podobných vět je v tom článku hodně, např. ty, kde by se mohla označovat podmnožina (//Svému nejbližšímu nadřízenému věří 67 procent lidí. Nejméně důvěry vkládají občané České republiky do politiků.//) Já jsem tam nikde neoznačoval nic, protože by to bylo dost šílené, ale to asi není úplně dobrý argument... **RO** V tom druhém případě bych asi klidně vyznačil aspoň koreferenci 0 mezi "lidí"-"občané". V prvním případě bych neznačil nic, stejně je vztah už naznačen skrz to "svým". Extenze je důležitá, ale nemůžem ji brát vždycky úplně, občas je záměr textu jinej. | | |
| ^JP, 8.10.| Obrat v loňském roce vs. obrat letos | //Její __obrat__ podle předběžných výsledků činí za loňský rok téměř 1133 miliardy korun, __zisk__ před zdaněním je vypočten na 64.8 miliónu korun. Letos by se měl __obrat__ pohybovat okolo 1.2 miliardy korun a __zisk__ by měl zůstat na úrovni roku 1994.// Má se anotovat nějaký vztah mezi obraty a mezi zisky? Ve skutečnosti to koreferenční není, i když syntaktická struktura se tváří, jako kdyby bylo (to časové určení tam nefunguje jako rozvití substantiva, ale jako doplnění slovesa), a možná by to tak i šlo chápat, pokud by se to bralo jako nereferenční. V případě, že by to ve druhé větě bylo pronominalizované, byl by tam zřejmě typ ANAF, ale v tomhle případě to anafora asi není. Pak se nabízí ještě REST... | | |
| ^RO, 8.10.| Příklad mísení specifické a nespecifické reference v jednom řetězci | Shodli jsme se kdysi, že je někdy nutné spojovat typ O a NR do jednoho řetězce, dobrý příklad je: "Po **schůzce** Moravčík-Boross. ... **Setkání** (typ 0) premiérů Maďarska a Slovenska, které se uskutečnilo v neděli večer... ... Proto začal premiér Boross projevovat zájem o **setkání** (NR) s Moravčíkem. ... A tak se **setkání** (NR) Moravčík-Borros nejdřív odložilo, pak se uvažovalo o jeho zrušení, ale jelikož měli oba premiéři na **schůzce** (NR) zájem, dohodli se na kompromisu. ... **Schůzka** (typ 0) byla, ale neformální." Mísí se tam pohled na věc (schůzka) jakožto už proběhlou (specifikovanou) / jakožto teprve budoucí a nepříliš určenou. Je samozřejmě otázka, jestli jde ještě o tutéž entitu, ale koheze textu evidentně stojí na tom, že jde o schůzku mezi premiéry. Ale takových případů bychom asi měli mít co nejmíň, na tom se málokdy shodnem. **AN**: Vyborny priklad! **JP:** Podobný případ je: //Podle včerejších slov Evžena Teršla z firmy Trade Center měli squateři stejnou možnost získat Ladronku jako jiné organizace. Museli vyhotovit architektonickou studii stavby a __projekt__ na její využití. To squateři již jako nadace Ladronka učinili. Stavební část __projektu__ prý pro ně vypracovali studenti 3. ročníku Fakulty architektury ČVUT.// Ale nejsem si moc jistý, že by se tyto případy měly anotovat jako koreferenční... |-->M | |
| ^RO, 2.10.| případ koreference NR? | "Zvolen patriarcha. Patriarchou Československé církve husitské byl na příštích sedm let zvolen Josef Špak." - Anotuju podobné případy jako NR mezi patriarcha-patriarcha, je to dobře? **AN**: Jo, je to takove funkcni pouyiti, rozhodne blizsi generickemu nez referencnimu | | |
| ^RO, 27.9.| CONTRAST | Častý typ kontrastu je takovýto: "Zatímco v Čechách bude slunečno, na Moravě se dají čekat bouřky." Tj. kontrast vyjádřený už mezivětným funktorem a dva kontrastní páry Čechy-Morava a slunečno-bouřky. Označujeme je v takovém typickém příkladě oba? Nebo označujeme jen ještě výraznější kontrast? **JP:** Já to u podobných případů dělám oboje. **AN**: hmm... pokud je uz v synatakticke stukture funktor ADVS, tak to nema smysl oznacovat vubec | | |
| ^JP, 15.9. | případ pronominalizace s problematickou koreferencí | //Za předpokladu, že se nynějšího zasedání Sejmu účastní všech __460 poslanců__ - což je ovšem předpoklad čistě teoretický, protože jen málokdy jsou přítomni __všichni__ - by __jich__ muselo pro novelizovaný zákon hlasovat 306.// Jak řešit vztah zájmena "jich"? V předchozí anotaci je tam označená koreference k předchozím poslancům, ale v podstatě je to spíš podmnožina, i když není to moc jasné. Taky jsem přemýšlel, jestli by nešlo dát koreferenci k "jich" a podmnožinu k "306", ale to má funktor COMPL, takže to by asi nebylo moc logické. (A mimochodem, v následující větě je pak výraz "taková většina", který na tuto větu odkazuje -- co s ním?) **RO** Byl bych tady pro SET-SUB, řešili jsme to už ke 4. 5. A "taková většina" asi klidně ANAF, neřekl bych, že tam jde o přesný počet poslanců, spíš o podobně velký. **AN**: taky jsem pro SET_SUB a ANAF | | |
| ^JP, 14.9. | spojení "není tomu tak" | Jak řešit referenci a koreferenci výrazů "tomu" a "tak"? Např. //Pro některé druhy dat a způsoby jejich zpracování jsou střediskové počítače (angl. mainframe) - a celá organizace práce kolem nich - dosud tím nejvhodnějším známým prostředkem. V mnoha jiných případech __tomu__ __tak__ ovšem není.// Intuitivně se mi zdá, že jsou oba ty výrazy nějakým způsobem koreferenční s celou předchozí větou. **RO** U toho můžou být ještě různé druhy - zatímco tady to podle mě jasná koreference není (anotoval bych nejspíš od "tomu" SEGM a od "tak" ANAF na sloveso přechozí věty), tak v jiném příkladě: "Za loňský rok dosáhly dánské investice v ČR pouze 13 miliónů DKK. Je tomu tak i proto, že..." mi to přijde jako pěkný typ 0 (od "tomu" byl už předanotovaný, od "tak" jsem ho označil). **JP:** Čili tam pak vznikne koreference mezi "tomu" a "tak"? **RO:** Jo. Ale nevím, co v tom prvním případě - možná lepší, než co jsem psal, by byla koreference NR mezi slovesem-"tomu"-"tak"; abychom to měli trochu jednotnější - buď jde o tutéž situaci (a pak typ 0), nebo o něco jako "stejnou situaci v jiném případě" (a pak NR). **AN**: A co je tam v syntakticke strukture? Neni mezi tomu a tak predikativni vztah> (jeden ACT, druhy PAT)? Pak by se koreference s tim, co je PAT (//tak//) neoznacovala vubec a TO bz se bud propojilo zajmennou koreferenci nebo prip. ANAF. Odkaz na segment bzch tam nedavala. **JP:** Ne, je to nějak jinak, nepamatuju si to teď přesně, ale tuším, že "tomu" je ACT a "tak" má MANN... **AN**: v tom pripade je to specifika syntakticke anotace (logicka struktura teto konstrukce je myslim predikativni) a muzeme to anotovat jak jste to nabidli - spise 0-0 v druhem pripade a veta - tomu.ANAF. - tak.coref_na_tomu v prvnim. **JP:** Spíš jenom taková zajímavost: teď jsem narazil ještě na příbuzný případ: "je tomu naopak". | ling.zajimavost| |
| ^RO, 28.8. | vztah různých časových určení, vztah SET-SUB| Pár otázek: Anotujeme systematicky různá časová určení v textech? Jako např. letošní rok - letos - minulý týden - nyní - červenec - 15. červenec... Já to v poslední době celkem pravidelně dělám, dávám tam vztahy koreference a WHOLE-PART, protože je to celkem jednoznačný případ části. +++ Anotujeme vztah množina-podmnožina v následujících typech případů? (Neumím posoudit, jestli ten vztah vyplývá ze syntaktické informace, nebo ne.) "Slavia patří ke 3 nejúspěšnějším klubům ligové historie." / "Zúčastní se špičkové české kluby, jako např. Slavia a Baník." A tam, kde mají A, B, C společný řídící uzel a jsou všechny podmnožinami D, anotujeme SET-SUB na ten řídící uzel, nebo zvlášť na každý člen A, B, C? **JP:** Ta časová určení dělám podobně, i když ne asi úplně důsledně. U obou těch příkladových vět to označuji a u toho posledního to dělám dost nahodile. **RO:** Tak dobře, dělejme to všechno. Ty časy je sice těžké všechny zachytit, ale zase je většinou dost jasné, jaký přesně vztah mezi nimi je. A to poslední bychom mohli nějak sjednotit, je toho hodně. **RO** To anotování podmnožin (SET-SUB a WHOLE-PARTpodle mě můžeme udělat dvojím způsobem - 1) pravidelně označovat řídící uzel, pokud je to CONJ (u jiných funktorů bych to radši nedělal), a jednotlivé uzly vždy tehdy, pokud to CONJ není - ušetřila by se tím občas práce u dlouhých výčtů. 2) Můžeme označovat vždy jen jednotlivé uzly - to by bylo jednotnější a asi s menším počtem neshod (spojující uzel by se prostě neoznačoval nikdy), na druhé straně je to občas nějaká práce navíc. Anjo? **AN** tak ten posledni pripad s A-B-C bych nabizela resit tak, ze pokud vsechny tri dohromady jsou porad jeste podmnozinou D, pak vest SUBSET mezi CONJ a D. Pokud A+B+C=D, pak koreferenci na spojku. Tedz variantu 1). | deska patri k deskam --> M| |
| ^RO, 30.7. | časový vztah PART-WHOLE?| Možná bychom mohli rozšířit skupinu PART-WHOLE o případy jednoznačných časových úseků, jako např. "utkání" - "první poločas" - "21. minuta" nebo "tento týden" - "úterý". Vágnější případy samozřejmě raději ponechat v SUB-SET. **AN**: souhlasim pro vsechny jasne pripady|--> M | |
| ^ AN, 7.5. | zapis ze schuzky| **1) vztah PART ** snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme //Brusel - Belgie// a //Belgie - Evropa//, nikoli //Brusel - Evropa//\\ **2) vztah FUNCT** definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. FUNCT jsou napr. pary //trenér-mužstvo, premiér-vláda// apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ //vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha// apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - ... vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu //hráč-mužstvo// a //ministr-vláda// nejsou FUNCT ale SUB, protoze nejsou unikatni. Pokud nazev funkce je v kontextu jmena tuto funkci vykonavaciho (ministr zemedelstvi Lux), sipka FUNCTu vede od "ministr", nikoliv od Luxu. Uzel "Lux" je propojen s vladou SUBSETem. Pokud vztah FUNCT je mezi primou zavislosti s APP, neoznacujeme ho (premierka vlady)\\ **3) REST pro "misto - obyvatel"** oznacujeme i v pripadech, kdy neni pojmenovana entita, cili nejenom u //Polsko - Polak//, ale take u //Polsko - verejnost// a //zeme - verejnost// v pripade ze jde opravdu o misto a jeho obyvatele \\ **4) koreference u sloves** nemenime, abychom neplodili koreferenci mezi slovesy samotnymi \\ **5)smer sipky** je vzdy podle vztahu v textu, nikoliv podle poradi uzlu ve strome \\ **6)milion a kontejnery** anotujeme stejne, cili //milion// a //tisic// se anotuji jako kontejnery a ne jako cislovky. Co visi pod nim se anotuje podle smyslu, cili //Polaci// v //Miloin Polaku// a //Polaci si zvolili prezidenta// nejsou koreferencni, zatimco v //Miloin Polaku// a //tito Polaci si neuvedomili ze// druhe Polaci jsou koreferencni s milionem \\ **7) Evropska unie** se anotuje jako unie statu Evropy nikoliv jako Ceska Republika, cili //evropska// se koreferuje s Evropou a //unie// poue s unii. | | |
| ^ JP, 5.5.| aféra Susko | Mám text s nadpisem "Slovenská aféra Susko". Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem "Susko" v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově "aféra", tj. jde zřejmě jen o název aféry. **AN:** souhlasim. Spojovala bych to ale v pripade, pokud bych melo jiny funktor nez ID | | |
| ^ JP, 4.5.| problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. **AN:** takova pronominalizace vetsinou je anaforicka, takze ANAF je tu na miste. Pokud tam vidite jasny subset, tak to urcite taky jde| | |
^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | | ^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | |
^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | | ^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | |
^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. **JP:** //(4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s __Maltou__. (21) __Malťané__ ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském __týmu__ jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů).// Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? **RO** Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě "čeští fotbalisté odletěli na Maltu" paralelně vedle řetězce referujícího k týmu. Nebo ne? **JP:** Tzn. v tomto případě je důvod ten, že "maltský" ve spojení "maltský" tým nereferuje k týmu, ale ke státu Malta? A dále - kdyby tam někde bylo spojení "maltský útočník", tak "maltský" referuje k týmu a ne ke státu? A ještě jeden případ - jak by se řešila koreference adjektiva ve spojení "maltský stát"?| | | ^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. **JP:** //(4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s __Maltou__. (21) __Malťané__ ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském __týmu__ jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů).// Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? **RO** Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě "čeští fotbalisté odletěli na Maltu" paralelně vedle řetězce referujícího k týmu. Nebo ne? **JP:** Tzn. v tomto případě je důvod ten, že "maltský" ve spojení "maltský" tým nereferuje k týmu, ale ke státu Malta? A dále - kdyby tam někde bylo spojení "maltský útočník", tak "maltský" referuje k týmu a ne ke státu? A ještě jeden případ - jak by se řešila koreference adjektiva ve spojení "maltský stát"? **RO** U útočníka to "maltský" může podle mě referovat k obojímu, je to různý výklad; v některých jiných kontextech, kde se nebude vůbec mluvit o "Maltě" jako týmu (řekněme "maltský útočník XY přestoupil z Madridu do Barcelony"), je to jednoznačně k zemi. "Maltský stát" bych v současnosti řešil jako "Českou republiku", do řetězce zapojoval jen řídící jméno, protože to je stejně koreferenční s tím, k čemu by případně referovalo to adjektivum. | | |
^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| | | ^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| | |
^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem. Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr. **RO** U těch týmů z různých dob jsem si říkal, že to je něco jako "loňská inflace" - "letošní inflace", kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna... Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco "kádr" jen občas; takže bychom občas narazili na "kádr" až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat... anebo předem kontrolovat článek, jestli se v něm nevyskytne "mužstvo" nebo "kádr". To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně. | -->M| | ^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem. Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr. **RO** U těch týmů z různých dob jsem si říkal, že to je něco jako "loňská inflace" - "letošní inflace", kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna... Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco "kádr" jen občas; takže bychom občas narazili na "kádr" až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat... anebo předem kontrolovat článek, jestli se v něm nevyskytne "mužstvo" nebo "kádr". To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně. **JP:** V podobných případech, kdy se ten mezistupeň vyskytne až někde na konci, ho jenom odkazuji jako podmnožinu příslušné nadřazené entity a předchozí vztahy nechávám, jak jsou. Podle mě to tak i celkem odpovídá logice endoforického odkazování. Vycházím taky z toho, že pokud se něco takhle oanotuje jako zanořené podmnožiny, tak se při počítačovém zpracování dá snadno pracovat s tím, že je vztah podmnožiny tranzitivní, tedy že když tam budeme mít "hráče" jako podmnožinu "kádru", tak se dá automaticky určit, že je "hráč" zároveň i podmnožinou Baníku. A proto nevadí, že se takoví hráči občas odkazují ke kádru a občas přímo k Baníku. | -->M| |
^ RO, 27. 3.| nějaký podnik - stejný podnik| Ujišťuju se - když je na počátku specificky nevybraná entita a pak se odkazuje stále na tutéž, řadíme do do NR? Př. "Například muž, který pracuje v nějakém velkém podniku, se zakouká do sekretářky ve stejném podniku a začnou se scházet v nějaké kavárničcce stranou od toho úřadu". Pokud ano, je to něco jiného než třeba koreference většiny abstrakt, takže bude dobře to výslovně uvádět jako jistý podtyp NR. **AN:**je to moc slozity teoreticky problem - vsichni to resi a nemuzou vyresit. Davame tam zatim NR, a tu podskupinu vymezim **AN2:** porad o tom premyslim a nenachazim zadne argumenty, proc to tak vlastne delame. Pokud na jeden (i kdyz nevybrany) objekt referuje znovu, tak je to v podstate stejna situace jako kdyz se proste mluvi o neexistujicim objektu, jako o dinozaurovi nebo o nejake pohadkove postave. Diskurzem se vytvari fiktivni svet a v tom svete to uz jako by existuje. Tedy asi nejrozumejsi reseni je anotovat takove pripady jako nula.| +M | | ^ RO, 27. 3.| nějaký podnik - stejný podnik| Ujišťuju se - když je na počátku specificky nevybraná entita a pak se odkazuje stále na tutéž, řadíme do do NR? Př. "Například muž, který pracuje v nějakém velkém podniku, se zakouká do sekretářky ve stejném podniku a začnou se scházet v nějaké kavárničcce stranou od toho úřadu". Pokud ano, je to něco jiného než třeba koreference většiny abstrakt, takže bude dobře to výslovně uvádět jako jistý podtyp NR. **AN:**je to moc slozity teoreticky problem - vsichni to resi a nemuzou vyresit. Davame tam zatim NR, a tu podskupinu vymezim **AN2:** porad o tom premyslim a nenachazim zadne argumenty, proc to tak vlastne delame. Pokud na jeden (i kdyz nevybrany) objekt referuje znovu, tak je to v podstate stejna situace jako kdyz se proste mluvi o neexistujicim objektu, jako o dinozaurovi nebo o nejake pohadkove postave. Diskurzem se vytvari fiktivni svet a v tom svete to uz jako by existuje. Tedy asi nejrozumejsi reseni je anotovat takove pripady jako nula.| +M | |
^ RO, 27. 3.| technické drobnosti| Mohli bychom příležitostně požádat Jiřího o úpravu programu, aby se v případě, kdy klávesou T nebo B zadáme šipku a pak nepotvrdíme konkrétní typ a zavřeme nabídku křížkem, žádná šipka nezakreslovala? Taky by byla příjemná možnost pohybovat se v horním okně kolečkem myši, protože Tred pořád někdy trochu nesmyslně roluje. **AN:** napsala jsem o tom Jirkovi| | | ^ RO, 27. 3.| technické drobnosti| Mohli bychom příležitostně požádat Jiřího o úpravu programu, aby se v případě, kdy klávesou T nebo B zadáme šipku a pak nepotvrdíme konkrétní typ a zavřeme nabídku křížkem, žádná šipka nezakreslovala? Taky by byla příjemná možnost pohybovat se v horním okně kolečkem myši, protože Tred pořád někdy trochu nesmyslně roluje. **AN:** napsala jsem o tom Jirkovi| | |