[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
diskuze [2009/04/20 20:42]
ufal
diskuze [2009/04/20 21:02]
ufal
Line 5: Line 5:
 ^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3).  **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | ^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3).  **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | |
 ^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | ^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| |
-^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. **JP:** //(4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s __Maltou__. (21) __Malťané__ ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském __týmu__ jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů).// Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? **RO** Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě "čeští fotbalisté odletěli na Maltu" paralelně vedle řetězce referujícího k týmu. Nebo ne?| |+^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. **JP:** //(4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s __Maltou__. (21) __Malťané__ ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském __týmu__ jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů).// Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? **RO** Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě "čeští fotbalisté odletěli na Maltu" paralelně vedle řetězce referujícího k týmu. Nebo ne? **JP:** Tzn. v tomto případě je důvod ten, že "maltský" ve spojení "maltský" tým nereferuje k týmu, ale ke státu Malta? A dále - kdyby tam někde bylo spojení "maltský útočník", tak "maltský" referuje k týmu a ne ke státu? A ještě jeden případ - jak by se řešila koreference adjektiva ve spojení "maltský stát"?| |
 ^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| | ^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| |
 ^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem.  Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr.  **RO** U těch týmů z různých dob jsem si říkal, že to je něco jako "loňská inflace" - "letošní inflace", kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna... Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco "kádr" jen občas; takže bychom občas narazili na "kádr" až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat... anebo předem kontrolovat článek, jestli se v něm nevyskytne "mužstvo" nebo "kádr". To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně.  |  -->M| ^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem.  Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr.  **RO** U těch týmů z různých dob jsem si říkal, že to je něco jako "loňská inflace" - "letošní inflace", kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna... Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco "kádr" jen občas; takže bychom občas narazili na "kádr" až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat... anebo předem kontrolovat článek, jestli se v něm nevyskytne "mužstvo" nebo "kádr". To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně.  |  -->M|

[ Back to the navigation ] [ Back to the content ]