Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
diskuze [2009/05/04 15:07] ufal |
diskuze [2010/03/03 09:45] ufal |
| |
| ^ problém ^ diskuze, řešení ^ techn.pozn. ^ | | ^ problém ^ diskuze, řešení ^ techn.pozn. ^ |
^ JP, 4.5.| problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. | | | ^JP, 2. 3.| Vztah "USA" -- "Američané" | Jaký je vztah mezi výrazy ve větách //Jestliže schůzka v Camp Davidu a následný izraelsko-egyptský mír přišel zjevně o deset let dříve, a to ještě jen kvůli silnému tlaku __Američanů__, pro summit mezi Izraelem a Sýrií by mohla být nyní ideální doba. __USA__ udělaly v celém mírovém procesu rozhodující krok, když dostrkaly země Blízkého východu k prvnímu společnému jednání v Madridu//? Byl bych asi pro v takových případech dávat koreferenci typu 0. | | |
| ^JP, 2. 3.| Vztah "Japonsko" -- "Tokio" | Pokud vím, dohodli jsme se, že v případech, kdy název hlavního města referuje ke státu, budeme takový výraz anotovat jako koreferenční s tím státem. Možná by ale bylo přesnější tam dávat vztah P-FUNCT. Např. ve větě //__Japonské__ síly se na Filipínách vzdaly v roce 1945, těsně předtím, než __Tokio__ kapitulovalo.// Co vy na to? A další hezký příklad: //Vyloučení __bývalé Jugoslávie__ z Organizace spojených národů (OSN) je ospravedlňováno tím, že __Bělehrad__ již nereprezentuje __stát, který zanikl__.// Tady by ta koreference byla hodně problematická, protože by tam musela vzniknout konstrukce typu "x nereprezentuje x". | | |
| ^RO 26. 1.| "zaměstnanci" - "každý zaměstnanec" | Už jsme se dohodli, jestli v podobném užití označujeme koreferenci, nebo SET-SUB? **JP:** Já tam dávám rozhodně koreferenci. **RO** Mám tu obzvlášť zapeklitý případ: "Výkonný __výbor__ ČMFS se sešel k prvnímu jednání. Kromě rozdělení kompetencí mezi __jednotlivé členy__ připravil odvolací dopis (...) předseda k dělení kompetencí mezi __členy__ __výkonného výboru__ uvedl: Naším záměrem je rovnoměrně rozložit úkoly na __všechny členy__." Nestálo by ještě za to vytvořit nějakou kategorii pro tenhle distributivní pohled na tutéž entitu? Jak koreference, tak SUB-SET mi tu přijdou dost divné. **JP:** V distributivnosti obecně určitě problém je, ale tohle mi přijde ještě docela dobré. Dal bych koreferenci typu 0 jenom mezi "výbor" a "výbor", a všechny "členy" bych propojil taky koreferencí typu 0. Tady myslím problém není - vždyť je tu možné všechny ty členy substituovat spojením "jednotlivé členy". Horší je to v takových případech jako "všichni účastníci dohromady mají hodně, ale každý účastník jednotlivě nemá nic". | | |
| ^RO 26. 1.| "stát"- "republika" jako FUNCT-P? | Někdy se objevuje uzel "stát" jako výrazně nekoreferenční s "ČR", "republika" apod., např. když jde o financování ze státního rozpočtu (a ne z regionálních rozpočtů), státní sféru (x soukromou sféru). Dávám tam pak "stát" jako FUNCT, souhlasíte? **JP:** Jo, to jsem si taky říkal, že by se mohlo... | | |
| ^JP, 18. 12.| koreference s větným antecedentem typu NR | Slibovaný příklad: //"__Novinář se činovníka ptá na to, na co by se ptal občan, kdyby měl k tomu možnost.__ Činovníkovi je __to__ mnohdy nepříjemné, obtěžuje ho __to__."// U obou zájmen dávám typ NR, antecedentem je generická propozice s generalizací nad situacemi, tj. jde o opakované ptaní, které je ve druhé větě pojímáno genericky. | | |
| ^AN, 13. 11.| vysledky schuzky | **1) titulky: ** anotujeme, typ vztahu podle smyslu. Pokud vyrazna viceznacnost, tak mozna chapat titulek "generictejsim" zpusobem\\ **2) NR u #PersPron: ** pokud puvodni zajmenna koreference je genericka, menime typ O na NR\\ **3) koreference v predikacnich konstrukcich: ** zustava, jak bylo, t.j. standardni predikaci mezi subjektem a jmennou casti prisudku neanotujeme. Avsak pokud jmenna cast prisudku neprisuzuje vlastnost, ale ma vlastni referenci, muze klidne slouzit jako antecedent koreferencniho vztahu. Strucne receno, zachazime s predikacni casti jako se slovesem: neni predmetem anotace koreference, ale pokud musi, muze byt antecedentem.\\ **4) koreference adjektiv typu //vladni, statni//: ** anotovat, pokud maji specificky referent (typ 0) a neanotovat u generickych (NR) a v jinych pripadech. **RO** ad 2 - ale jen v případech, kde řetězec dál pokračuje? U všech PersPron to přece rozhodovat nemůžem, je jich moc; a pak je zas otázka, jestli má smysl to dělat jen u některých.. **JP:** Já to dělám u všech... **RO:** U všech? Tak já to taky zkusím, ale bojím se, že si všeho nevšimnu - už jsem si dost zvykl jít po textu a na PersProny se nekoukat. | | |
| ^RO, 13. 11.| "jeden z X" | Značíme častou konstrukci "jeden z (nejúspěšnějších podnikatelů...)" jako SUB-SET? Já jsem to zatím dělal, protože tam je funktor DIR1 a tou podmnožinou se to upřesní, ale nevím. **JP:** Jasně, značíme, to už jsme někdy řešili. **AN**: jo, jo , znacime | | |
| ^JP, 26.10.| Různé "důvěry" | //Nejvíce důvěry vkládají občané ČR ve své nejbližší okolí a v sebe samé. Nejméně důvěry vkládají občané České republiky do politiků. Důvěru píšícím novinářům vyslovilo 58 procent obyvatel, starostům a primátorům 43 procent dotázaných. Vyšší procento důvěry v politiky se vyskytuje u potenciálních voličů ODS než u voličů opozičních stran.// Jaké jsou vztahy mezi těmi důvěrami? U posledních dvou vět je to poměrně jasnější, protože tam ty důvěry mají nějaké vlastní argumenty, které jsou s něčím koreferenční (s novináři či politiky). U prvních dvou vět by se to snad dalo označit za generickou, obecnou důvěru, která se v něco vkládá, ale problém je v tom, že to "nejvíce" a "nejméně" tam figuruje jako rozvití těch důvěr, takže koreferenci tam asi značit nelze. **AN**: Ja bych to vubec neznacila. | | |
| ^JP, 26.10.| Nejasná extenze u generických NP | Celý článek pojednává o průzkumu mezi lidmi o tom, komu nejvíce důvěřují. A jsou tam věty typu //"Lidé důvěřují více svým partnerům než sobě samým.// Jaký je tady vztah mezi "lidmi" a "partnery"? Teoreticky vzato by tam mohla být dokonce i koreference, protože ty množiny jsou prakticky asi totožné, i když v jednotlivých případech ty jejich prvky nikdy totožné nejsou. Podobných vět je v tom článku hodně, např. ty, kde by se mohla označovat podmnožina (//Svému nejbližšímu nadřízenému věří 67 procent lidí. Nejméně důvěry vkládají občané České republiky do politiků.//) Já jsem tam nikde neoznačoval nic, protože by to bylo dost šílené, ale to asi není úplně dobrý argument... **RO** V tom druhém případě bych asi klidně vyznačil aspoň koreferenci 0 mezi "lidí"-"občané". V prvním případě bych neznačil nic, stejně je vztah už naznačen skrz to "svým". Extenze je důležitá, ale nemůžem ji brát vždycky úplně, občas je záměr textu jinej. | | |
| ^JP, 8.10.| Obrat v loňském roce vs. obrat letos | //Její __obrat__ podle předběžných výsledků činí za loňský rok téměř 1133 miliardy korun, __zisk__ před zdaněním je vypočten na 64.8 miliónu korun. Letos by se měl __obrat__ pohybovat okolo 1.2 miliardy korun a __zisk__ by měl zůstat na úrovni roku 1994.// Má se anotovat nějaký vztah mezi obraty a mezi zisky? Ve skutečnosti to koreferenční není, i když syntaktická struktura se tváří, jako kdyby bylo (to časové určení tam nefunguje jako rozvití substantiva, ale jako doplnění slovesa), a možná by to tak i šlo chápat, pokud by se to bralo jako nereferenční. V případě, že by to ve druhé větě bylo pronominalizované, byl by tam zřejmě typ ANAF, ale v tomhle případě to anafora asi není. Pak se nabízí ještě REST... | | |
| ^RO, 8.10.| Příklad mísení specifické a nespecifické reference v jednom řetězci | Shodli jsme se kdysi, že je někdy nutné spojovat typ O a NR do jednoho řetězce, dobrý příklad je: "Po **schůzce** Moravčík-Boross. ... **Setkání** (typ 0) premiérů Maďarska a Slovenska, které se uskutečnilo v neděli večer... ... Proto začal premiér Boross projevovat zájem o **setkání** (NR) s Moravčíkem. ... A tak se **setkání** (NR) Moravčík-Borros nejdřív odložilo, pak se uvažovalo o jeho zrušení, ale jelikož měli oba premiéři na **schůzce** (NR) zájem, dohodli se na kompromisu. ... **Schůzka** (typ 0) byla, ale neformální." Mísí se tam pohled na věc (schůzka) jakožto už proběhlou (specifikovanou) / jakožto teprve budoucí a nepříliš určenou. Je samozřejmě otázka, jestli jde ještě o tutéž entitu, ale koheze textu evidentně stojí na tom, že jde o schůzku mezi premiéry. Ale takových případů bychom asi měli mít co nejmíň, na tom se málokdy shodnem. **AN**: Vyborny priklad! **JP:** Podobný případ je: //Podle včerejších slov Evžena Teršla z firmy Trade Center měli squateři stejnou možnost získat Ladronku jako jiné organizace. Museli vyhotovit architektonickou studii stavby a __projekt__ na její využití. To squateři již jako nadace Ladronka učinili. Stavební část __projektu__ prý pro ně vypracovali studenti 3. ročníku Fakulty architektury ČVUT.// Ale nejsem si moc jistý, že by se tyto případy měly anotovat jako koreferenční... |-->M | |
| ^RO, 2.10.| případ koreference NR? | "Zvolen patriarcha. Patriarchou Československé církve husitské byl na příštích sedm let zvolen Josef Špak." - Anotuju podobné případy jako NR mezi patriarcha-patriarcha, je to dobře? **AN**: Jo, je to takove funkcni pouyiti, rozhodne blizsi generickemu nez referencnimu | | |
| ^RO, 27.9.| CONTRAST | Častý typ kontrastu je takovýto: "Zatímco v Čechách bude slunečno, na Moravě se dají čekat bouřky." Tj. kontrast vyjádřený už mezivětným funktorem a dva kontrastní páry Čechy-Morava a slunečno-bouřky. Označujeme je v takovém typickém příkladě oba? Nebo označujeme jen ještě výraznější kontrast? **JP:** Já to u podobných případů dělám oboje. **AN**: hmm... pokud je uz v synatakticke stukture funktor ADVS, tak to nema smysl oznacovat vubec | | |
| ^JP, 15.9. | případ pronominalizace s problematickou koreferencí | //Za předpokladu, že se nynějšího zasedání Sejmu účastní všech __460 poslanců__ - což je ovšem předpoklad čistě teoretický, protože jen málokdy jsou přítomni __všichni__ - by __jich__ muselo pro novelizovaný zákon hlasovat 306.// Jak řešit vztah zájmena "jich"? V předchozí anotaci je tam označená koreference k předchozím poslancům, ale v podstatě je to spíš podmnožina, i když není to moc jasné. Taky jsem přemýšlel, jestli by nešlo dát koreferenci k "jich" a podmnožinu k "306", ale to má funktor COMPL, takže to by asi nebylo moc logické. (A mimochodem, v následující větě je pak výraz "taková většina", který na tuto větu odkazuje -- co s ním?) **RO** Byl bych tady pro SET-SUB, řešili jsme to už ke 4. 5. A "taková většina" asi klidně ANAF, neřekl bych, že tam jde o přesný počet poslanců, spíš o podobně velký. **AN**: taky jsem pro SET_SUB a ANAF | | |
| ^JP, 14.9. | spojení "není tomu tak" | Jak řešit referenci a koreferenci výrazů "tomu" a "tak"? Např. //Pro některé druhy dat a způsoby jejich zpracování jsou střediskové počítače (angl. mainframe) - a celá organizace práce kolem nich - dosud tím nejvhodnějším známým prostředkem. V mnoha jiných případech __tomu__ __tak__ ovšem není.// Intuitivně se mi zdá, že jsou oba ty výrazy nějakým způsobem koreferenční s celou předchozí větou. **RO** U toho můžou být ještě různé druhy - zatímco tady to podle mě jasná koreference není (anotoval bych nejspíš od "tomu" SEGM a od "tak" ANAF na sloveso přechozí věty), tak v jiném příkladě: "Za loňský rok dosáhly dánské investice v ČR pouze 13 miliónů DKK. Je tomu tak i proto, že..." mi to přijde jako pěkný typ 0 (od "tomu" byl už předanotovaný, od "tak" jsem ho označil). **JP:** Čili tam pak vznikne koreference mezi "tomu" a "tak"? **RO:** Jo. Ale nevím, co v tom prvním případě - možná lepší, než co jsem psal, by byla koreference NR mezi slovesem-"tomu"-"tak"; abychom to měli trochu jednotnější - buď jde o tutéž situaci (a pak typ 0), nebo o něco jako "stejnou situaci v jiném případě" (a pak NR). **AN**: A co je tam v syntakticke strukture? Neni mezi tomu a tak predikativni vztah> (jeden ACT, druhy PAT)? Pak by se koreference s tim, co je PAT (//tak//) neoznacovala vubec a TO bz se bud propojilo zajmennou koreferenci nebo prip. ANAF. Odkaz na segment bzch tam nedavala. **JP:** Ne, je to nějak jinak, nepamatuju si to teď přesně, ale tuším, že "tomu" je ACT a "tak" má MANN... **AN**: v tom pripade je to specifika syntakticke anotace (logicka struktura teto konstrukce je myslim predikativni) a muzeme to anotovat jak jste to nabidli - spise 0-0 v druhem pripade a veta - tomu.ANAF. - tak.coref_na_tomu v prvnim. **JP:** Spíš jenom taková zajímavost: teď jsem narazil ještě na příbuzný případ: "je tomu naopak". | ling.zajimavost| |
| ^RO, 28.8. | vztah různých časových určení, vztah SET-SUB| Pár otázek: Anotujeme systematicky různá časová určení v textech? Jako např. letošní rok - letos - minulý týden - nyní - červenec - 15. červenec... Já to v poslední době celkem pravidelně dělám, dávám tam vztahy koreference a WHOLE-PART, protože je to celkem jednoznačný případ části. +++ Anotujeme vztah množina-podmnožina v následujících typech případů? (Neumím posoudit, jestli ten vztah vyplývá ze syntaktické informace, nebo ne.) "Slavia patří ke 3 nejúspěšnějším klubům ligové historie." / "Zúčastní se špičkové české kluby, jako např. Slavia a Baník." A tam, kde mají A, B, C společný řídící uzel a jsou všechny podmnožinami D, anotujeme SET-SUB na ten řídící uzel, nebo zvlášť na každý člen A, B, C? **JP:** Ta časová určení dělám podobně, i když ne asi úplně důsledně. U obou těch příkladových vět to označuji a u toho posledního to dělám dost nahodile. **RO:** Tak dobře, dělejme to všechno. Ty časy je sice těžké všechny zachytit, ale zase je většinou dost jasné, jaký přesně vztah mezi nimi je. A to poslední bychom mohli nějak sjednotit, je toho hodně. **RO** To anotování podmnožin (SET-SUB a WHOLE-PARTpodle mě můžeme udělat dvojím způsobem - 1) pravidelně označovat řídící uzel, pokud je to CONJ (u jiných funktorů bych to radši nedělal), a jednotlivé uzly vždy tehdy, pokud to CONJ není - ušetřila by se tím občas práce u dlouhých výčtů. 2) Můžeme označovat vždy jen jednotlivé uzly - to by bylo jednotnější a asi s menším počtem neshod (spojující uzel by se prostě neoznačoval nikdy), na druhé straně je to občas nějaká práce navíc. Anjo? **AN** tak ten posledni pripad s A-B-C bych nabizela resit tak, ze pokud vsechny tri dohromady jsou porad jeste podmnozinou D, pak vest SUBSET mezi CONJ a D. Pokud A+B+C=D, pak koreferenci na spojku. Tedz variantu 1). | deska patri k deskam --> M| |
| ^RO, 30.7. | časový vztah PART-WHOLE?| Možná bychom mohli rozšířit skupinu PART-WHOLE o případy jednoznačných časových úseků, jako např. "utkání" - "první poločas" - "21. minuta" nebo "tento týden" - "úterý". Vágnější případy samozřejmě raději ponechat v SUB-SET. **AN**: souhlasim pro vsechny jasne pripady|--> M | |
| ^ AN, 7.5. | zapis ze schuzky| **1) vztah PART ** snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme //Brusel - Belgie// a //Belgie - Evropa//, nikoli //Brusel - Evropa//\\ **2) vztah FUNCT** definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. FUNCT jsou napr. pary //trenér-mužstvo, premiér-vláda// apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ //vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha// apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - ... vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu //hráč-mužstvo// a //ministr-vláda// nejsou FUNCT ale SUB, protoze nejsou unikatni. Pokud nazev funkce je v kontextu jmena tuto funkci vykonavaciho (ministr zemedelstvi Lux), sipka FUNCTu vede od "ministr", nikoliv od Luxu. Uzel "Lux" je propojen s vladou SUBSETem. Pokud vztah FUNCT je mezi primou zavislosti s APP, neoznacujeme ho (premierka vlady)\\ **3) REST pro "misto - obyvatel"** oznacujeme i v pripadech, kdy neni pojmenovana entita, cili nejenom u //Polsko - Polak//, ale take u //Polsko - verejnost// a //zeme - verejnost// v pripade ze jde opravdu o misto a jeho obyvatele \\ **4) koreference u sloves** nemenime, abychom neplodili koreferenci mezi slovesy samotnymi \\ **5)smer sipky** je vzdy podle vztahu v textu, nikoliv podle poradi uzlu ve strome \\ **6)milion a kontejnery** anotujeme stejne, cili //milion// a //tisic// se anotuji jako kontejnery a ne jako cislovky. Co visi pod nim se anotuje podle smyslu, cili //Polaci// v //Miloin Polaku// a //Polaci si zvolili prezidenta// nejsou koreferencni, zatimco v //Miloin Polaku// a //tito Polaci si neuvedomili ze// druhe Polaci jsou koreferencni s milionem \\ **7) Evropska unie** se anotuje jako unie statu Evropy nikoliv jako Ceska Republika, cili //evropska// se koreferuje s Evropou a //unie// poue s unii. | | |
| ^ JP, 5.5.| aféra Susko | Mám text s nadpisem "Slovenská aféra Susko". Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem "Susko" v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově "aféra", tj. jde zřejmě jen o název aféry. **AN:** souhlasim. Spojovala bych to ale v pripade, pokud bych melo jiny funktor nez ID | | |
| ^ JP, 4.5.| problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. **AN:** takova pronominalizace vetsinou je anaforicka, takze ANAF je tu na miste. Pokud tam vidite jasny subset, tak to urcite taky jde| | |
^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | | ^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | |
^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | | ^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | |
^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. **JP:** //(4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s __Maltou__. (21) __Malťané__ ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském __týmu__ jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů).// Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? **RO** Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě "čeští fotbalisté odletěli na Maltu" paralelně vedle řetězce referujícího k týmu. Nebo ne? **JP:** Tzn. v tomto případě je důvod ten, že "maltský" ve spojení "maltský" tým nereferuje k týmu, ale ke státu Malta? A dále - kdyby tam někde bylo spojení "maltský útočník", tak "maltský" referuje k týmu a ne ke státu? A ještě jeden případ - jak by se řešila koreference adjektiva ve spojení "maltský stát"?| | | ^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. **JP:** //(4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s __Maltou__. (21) __Malťané__ ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském __týmu__ jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů).// Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? **RO** Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě "čeští fotbalisté odletěli na Maltu" paralelně vedle řetězce referujícího k týmu. Nebo ne? **JP:** Tzn. v tomto případě je důvod ten, že "maltský" ve spojení "maltský" tým nereferuje k týmu, ale ke státu Malta? A dále - kdyby tam někde bylo spojení "maltský útočník", tak "maltský" referuje k týmu a ne ke státu? A ještě jeden případ - jak by se řešila koreference adjektiva ve spojení "maltský stát"? **RO** U útočníka to "maltský" může podle mě referovat k obojímu, je to různý výklad; v některých jiných kontextech, kde se nebude vůbec mluvit o "Maltě" jako týmu (řekněme "maltský útočník XY přestoupil z Madridu do Barcelony"), je to jednoznačně k zemi. "Maltský stát" bych v současnosti řešil jako "Českou republiku", do řetězce zapojoval jen řídící jméno, protože to je stejně koreferenční s tím, k čemu by případně referovalo to adjektivum. | | |
^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| | | ^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| | |
^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem. Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr. **RO** U těch týmů z různých dob jsem si říkal, že to je něco jako "loňská inflace" - "letošní inflace", kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna... Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco "kádr" jen občas; takže bychom občas narazili na "kádr" až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat... anebo předem kontrolovat článek, jestli se v něm nevyskytne "mužstvo" nebo "kádr". To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně. **JP:** V podobných případech, kdy se ten mezistupeň vyskytne až někde na konci, ho jenom odkazuji jako podmnožinu příslušné nadřazené entity a předchozí vztahy nechávám, jak jsou. Podle mě to tak i celkem odpovídá logice endoforického odkazování. Vycházím taky z toho, že pokud se něco takhle oanotuje jako zanořené podmnožiny, tak se při počítačovém zpracování dá snadno pracovat s tím, že je vztah podmnožiny tranzitivní, tedy že když tam budeme mít "hráče" jako podmnožinu "kádru", tak se dá automaticky určit, že je "hráč" zároveň i podmnožinou Baníku. A proto nevadí, že se takoví hráči občas odkazují ke kádru a občas přímo k Baníku. | -->M| | ^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem. Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr. **RO** U těch týmů z různých dob jsem si říkal, že to je něco jako "loňská inflace" - "letošní inflace", kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna... Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco "kádr" jen občas; takže bychom občas narazili na "kádr" až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat... anebo předem kontrolovat článek, jestli se v něm nevyskytne "mužstvo" nebo "kádr". To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně. **JP:** V podobných případech, kdy se ten mezistupeň vyskytne až někde na konci, ho jenom odkazuji jako podmnožinu příslušné nadřazené entity a předchozí vztahy nechávám, jak jsou. Podle mě to tak i celkem odpovídá logice endoforického odkazování. Vycházím taky z toho, že pokud se něco takhle oanotuje jako zanořené podmnožiny, tak se při počítačovém zpracování dá snadno pracovat s tím, že je vztah podmnožiny tranzitivní, tedy že když tam budeme mít "hráče" jako podmnožinu "kádru", tak se dá automaticky určit, že je "hráč" zároveň i podmnožinou Baníku. A proto nevadí, že se takoví hráči občas odkazují ke kádru a občas přímo k Baníku. | -->M| |