[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
diskuze [2009/03/31 22:08]
ufal
diskuze [2009/04/15 21:11]
ufal
Line 3: Line 3:
  
 |              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^ |              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^
-^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem.  Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR.|  | +^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . | | 
-^ RO, 27. 3.| nějaký podnik - stejný podnik| Ujišťuju se - když je na počátku specificky nevybraná entita a pak se odkazuje stále na tutéž, řadíme do do NR? Př. "Například muž, který pracuje v nějakém velkém podniku, se zakouká do sekretářky ve stejném podniku a začnou se scházet v nějaké kavárničcce stranou od toho úřadu". Pokud ano, je to něco jiného než třeba koreference většiny abstrakt, takže bude dobře to výslovně uvádět jako jistý podtyp NR.|  | +^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. | | 
-^ RO, 27. 3.| technické drobnosti| Mohli bychom příležitostně požádat Jiřího o úpravu programu, aby se v případě, kdy klávesou T nebo B zadáme šipku a pak nepotvrdíme konkrétní typ a zavřeme nabídku křížkem, žádná šipka nezakreslovala? Taky by byla příjemná možnost pohybovat se v horním okně kolečkem myši, protože Tred pořád někdy trochu nesmyslně roluje.| +^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| | 
-^ RO, 26. 3.| P-FUNCT| Díval jsem se na záznam prezentace, že zavládla skepse k typu P-FUNCT. Já bych se ho rád zastal, řekl bych, že intuitivně už jsme si ho vymezili docela dobře. Je to podle mě něco jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity.  Proto trenér-mužstvo a premiér-vláda jsou funct, ale hráč-mužstvo a ministr-vláda SUB. Znovu bych teda navrhnul, aby ta entita ve funkci nemusel být jen jedinec, ale taky unikátní úřad, typ vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha. Z příkladů uváděných na prezentaci by opravdu farář-fara nemělo být nic (to je jako pes-bouda, maximálně REST:-)), ale farnost-farář už by byl P-FUNCT. Právník-kancelář nebo advokát-advokátní kancelář pravděpodobně nic, popř. rest (není to unikátní a není to už ani přibližně podmnožina nebo část); kdyby to byl ředitel nebo tajemník-advokátní kancelář, tak FUNCT. |  | +^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem.  Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr.|  -->M
-^ JP, 21.3. | typ "řekl to..." | Často se stává, že se v textu objeví spojení "řekl to XX", přičemž zájmeno to odkazuje k celé předcházející větě. V rámci předchozí anotace pronominální koreference je to řečeno jako bridging, ale asi to není úplně správné a někde to dokonce může způsobovat problémy, např. zde: //"Kuchyňským nožem __ubodal__ v noci z neděle na pondělí třiačtyřicetiletý J. S. v kuchyni bytu v Pekařské ulici svou o jedenáct let mladší manželku. LN __to__ sdělil vyšetřovatel Krajského úřadu vyšetřování. Motivem __činu__, který pachatel sám ohlásil, byly déletrvající manželské neshody."// Výraz "to" ve druhé větě je zde anotován jako koreferenční s řídícím slovesem předcházející věty. Slovo "činu" ve třetí větě je pak koreferenční se slovesem "ubodal", ovšem nikoli s tím "to". Nebylo by tedy dobré tyto případy opravovat na bridging ANAF? Vím, že Radek jinde psal, že by to příliš komplikovalo situaci, protože např. v případě konstrukce "zmínil se o tom XX" by to podle významu naopak muselo zůstat jako koreference a byl by v tom chaos. Možná by se to ale dalo rozlišovat substitučním testem -- v případě, že jde zájmeno "to" nahradit spojením "tuto větu", je to ANAF, pokud ne (jako třeba u toho zmínil se -- nejde říct "zmínil se o této větě"), je to koreference...  **AN:** Souhlasim s Jirkou - ne vsude, ale podle smyslu pokud to patri pod ANAF, tak bych to opravovala. **RO** Moc se mi to nezdá, resp. není podle mě tak jednoznačné, že to zájmeno odkazuje na výpověď o situaci, a nikoli na situaci samu. Např. ten vyšetřovatel z případu určitě prostě informoval o situaci, aniž použil přesně danou větu (takže ani pro "říct" ten test moc nesedí. Jako metajazyk bych to snad bral jen v případě, že by předchozí věta byla v uvozovkách jako citace.) Takhle bychom jenom zkomplikovali shodu, která je teď automatická: co kdyby tam místo "řekl to" bylo "prohlásil to", "oznámil to", "sdělil to", "zmínil se o tom", "naznačil to"? Těžko bychom se ve všech případech shodli. Já bych tenhle typ do ANAFu nedával, podle mě je tam vždy nějaký odkaz k situaci samé. |   -->M | +^ RO, 27. 3.| nějaký podnik - stejný podnik| Ujišťuju se - když je na počátku specificky nevybraná entita a pak se odkazuje stále na tutéž, řadíme do do NR? Př. "Například muž, který pracuje v nějakém velkém podniku, se zakouká do sekretářky ve stejném podniku a začnou se scházet v nějaké kavárničcce stranou od toho úřadu". Pokud ano, je to něco jiného než třeba koreference většiny abstrakt, takže bude dobře to výslovně uvádět jako jistý podtyp NR. **AN:**je to moc slozity teoreticky problem - vsichni to resi a nemuzou vyresit. Davame tam zatim NR, a tu podskupinu vymezim **AN2:** porad o tom premyslim a nenachazim zadne argumenty, proc to tak vlastne delame. Pokud na jeden (i kdyz nevybrany) objekt referuje znovu, tak je to v podstate stejna situace jako kdyz se proste mluvi o neexistujicim objektu, jako o dinozaurovi nebo o nejake pohadkove postave. Diskurzem se vytvari fiktivni svet a v tom svete to uz jako by existuje. Tedy asi nejrozumejsi reseni je anotovat takove pripady jako nula.| +M  | 
 +^ RO, 27. 3.| technické drobnosti| Mohli bychom příležitostně požádat Jiřího o úpravu programu, aby se v případě, kdy klávesou T nebo B zadáme šipku a pak nepotvrdíme konkrétní typ a zavřeme nabídku křížkem, žádná šipka nezakreslovala? Taky by byla příjemná možnost pohybovat se v horním okně kolečkem myši, protože Tred pořád někdy trochu nesmyslně roluje. **AN:** napsala jsem o tom Jirkovi|  | 
 +^ RO, 26. 3.| P-FUNCT| Díval jsem se na záznam prezentace, že zavládla skepse k typu P-FUNCT. Já bych se ho rád zastal, řekl bych, že intuitivně už jsme si ho vymezili docela dobře. Je to podle mě něco jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity.  Proto trenér-mužstvo a premiér-vláda jsou funct, ale hráč-mužstvo a ministr-vláda SUB. Znovu bych teda navrhnul, aby ta entita ve funkci nemusel být jen jedinec, ale taky unikátní úřad, typ vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha. Z příkladů uváděných na prezentaci by opravdu farář-fara nemělo být nic (to je jako pes-bouda, maximálně REST:-)), ale farnost-farář už by byl P-FUNCT. Právník-kancelář nebo advokát-advokátní kancelář pravděpodobně nic, popř. rest (není to unikátní a není to už ani přibližně podmnožina nebo část); kdyby to byl ředitel nebo tajemník-advokátní kancelář, tak FUNCT. **AN:** jo, je to tak. S tim fara - farar, to je moje jazykova chyba (chybne jsem chapala slovo "fara")|  | 
 +^ JP, 21.3. | typ "řekl to..." | Často se stává, že se v textu objeví spojení "řekl to XX", přičemž zájmeno to odkazuje k celé předcházející větě. V rámci předchozí anotace pronominální koreference je to řečeno jako bridging, ale asi to není úplně správné a někde to dokonce může způsobovat problémy, např. zde: //"Kuchyňským nožem __ubodal__ v noci z neděle na pondělí třiačtyřicetiletý J. S. v kuchyni bytu v Pekařské ulici svou o jedenáct let mladší manželku. LN __to__ sdělil vyšetřovatel Krajského úřadu vyšetřování. Motivem __činu__, který pachatel sám ohlásil, byly déletrvající manželské neshody."// Výraz "to" ve druhé větě je zde anotován jako koreferenční s řídícím slovesem předcházející věty. Slovo "činu" ve třetí větě je pak koreferenční se slovesem "ubodal", ovšem nikoli s tím "to". Nebylo by tedy dobré tyto případy opravovat na bridging ANAF? Vím, že Radek jinde psal, že by to příliš komplikovalo situaci, protože např. v případě konstrukce "zmínil se o tom XX" by to podle významu naopak muselo zůstat jako koreference a byl by v tom chaos. Možná by se to ale dalo rozlišovat substitučním testem -- v případě, že jde zájmeno "to" nahradit spojením "tuto větu", je to ANAF, pokud ne (jako třeba u toho zmínil se -- nejde říct "zmínil se o této větě"), je to koreference...  **AN:** Souhlasim s Jirkou - ne vsude, ale podle smyslu pokud to patri pod ANAF, tak bych to opravovala. **RO** Moc se mi to nezdá, resp. není podle mě tak jednoznačné, že to zájmeno odkazuje na výpověď o situaci, a nikoli na situaci samu. Např. ten vyšetřovatel z případu určitě prostě informoval o situaci, aniž použil přesně danou větu (takže ani pro "říct" ten test moc nesedí. Jako metajazyk bych to snad bral jen v případě, že by předchozí věta byla v uvozovkách jako citace.) Takhle bychom jenom zkomplikovali shodu, která je teď automatická: co kdyby tam místo "řekl to" bylo "prohlásil to", "oznámil to", "sdělil to", "zmínil se o tom", "naznačil to"? Těžko bychom se ve všech případech shodli. Já bych tenhle typ do ANAFu nedával, podle mě je tam vždy nějaký odkaz k situaci samé. **AN:** mas pravdu, tim se to moc komplikuje. Tak ten pripad s kuchynskym nozem zustane viset jako problem, ale snad se to casto neopakuje.|   -->M | 
 ^ AN 6.3. | vysledky schuzky 5.3.| **1)** dohodli jsme se neanotovat casti pojmenovanych entit, pokud samy nejsou pojmenovana entita (Oddeleni pro vyzkum ... vyzkum, ministerstvo zemedelstvi - zemedelstvi, ale anotovat ustavni soud CR - CR) **2)** musim presne vymezit typ PART - jako ze anotujeme pokoj - strop, Nemecko - Berlin, mesto - ulice, ale ne mesto - dum, mesto - muzeum. K tomu by se hodil nejaky dobry otazkovy test. **RO**: co třeba otázka "je to část území?" - to by zařadilo stát-město; stát-region; město-ulice; např. oblast-jezero apod., ne už město-dům. Ale možná to nestačí na vyloučení případu město-parkoviště, pokud to nechceme. **3)** zavedli jsme skupinu ANAF pro nekoreferencni anaforicky vztah **4)** //technicke pozadavkyA//: "predanotace stejnych lemmat v danem souboru" - jde o to, ze nechceme redanotovat vsechna stejna lemmata toho mazani sipek bude s velkou pravdepodobnosti vic, nez jejich zavedeni. Chceme ale toto: Pokud otevreme soubor a vidime, ze vsechny (valna vetsina) uzly s danym stejnym lemmatem jsou koreferencni, tak je muzeme propojit jednim krokem. Treba v jednom souboru spojit vsechny uzly s lemmatem "dite", nebo "Durych". **5)** //technicke pozadavkyB//: Dalsi vec se tyka zbarevneni bridgingu. Momentalne mame, ze se barene ukazuji uzly, ktere jsou spojene s oznacenym a dale retezove nahoru. Chteli bychom to trochu zmenit. U textove koreference by to zustalo jak to je. U bridging by se zmenilo to, ze by se neukazal cely retezec, ale jenom ten uzel, ktery je propojen bridgingem s danym uzlem. To je to zuzeni. Na druhou stranu chteli bychom k tomu taky neco pridat, a to aby se blede modre oznacovaly vsechny bridgingy napojene na dany textove koreferencni retezec (ale primo, ne retezove). **6)**  odkaz typu segm neni vzdy koreferencni. Napr. cely text a pak "podobne problemy resime..." jeste neco?| --> M|  ^ AN 6.3. | vysledky schuzky 5.3.| **1)** dohodli jsme se neanotovat casti pojmenovanych entit, pokud samy nejsou pojmenovana entita (Oddeleni pro vyzkum ... vyzkum, ministerstvo zemedelstvi - zemedelstvi, ale anotovat ustavni soud CR - CR) **2)** musim presne vymezit typ PART - jako ze anotujeme pokoj - strop, Nemecko - Berlin, mesto - ulice, ale ne mesto - dum, mesto - muzeum. K tomu by se hodil nejaky dobry otazkovy test. **RO**: co třeba otázka "je to část území?" - to by zařadilo stát-město; stát-region; město-ulice; např. oblast-jezero apod., ne už město-dům. Ale možná to nestačí na vyloučení případu město-parkoviště, pokud to nechceme. **3)** zavedli jsme skupinu ANAF pro nekoreferencni anaforicky vztah **4)** //technicke pozadavkyA//: "predanotace stejnych lemmat v danem souboru" - jde o to, ze nechceme redanotovat vsechna stejna lemmata toho mazani sipek bude s velkou pravdepodobnosti vic, nez jejich zavedeni. Chceme ale toto: Pokud otevreme soubor a vidime, ze vsechny (valna vetsina) uzly s danym stejnym lemmatem jsou koreferencni, tak je muzeme propojit jednim krokem. Treba v jednom souboru spojit vsechny uzly s lemmatem "dite", nebo "Durych". **5)** //technicke pozadavkyB//: Dalsi vec se tyka zbarevneni bridgingu. Momentalne mame, ze se barene ukazuji uzly, ktere jsou spojene s oznacenym a dale retezove nahoru. Chteli bychom to trochu zmenit. U textove koreference by to zustalo jak to je. U bridging by se zmenilo to, ze by se neukazal cely retezec, ale jenom ten uzel, ktery je propojen bridgingem s danym uzlem. To je to zuzeni. Na druhou stranu chteli bychom k tomu taky neco pridat, a to aby se blede modre oznacovaly vsechny bridgingy napojene na dany textove koreferencni retezec (ale primo, ne retezove). **6)**  odkaz typu segm neni vzdy koreferencni. Napr. cely text a pak "podobne problemy resime..." jeste neco?| --> M| 
 ^ AN 28.2. | casti pojmenovanych entit| jak na to ted koukam, asi mame zavst pravidlo, neanotovat casti pojmenovanych entit v samostatnych koreferencnich retezcich. Snad to usnadni praci. Jeste to upresnim a probereme to nekdy na schuzce.| --> M|  ^ AN 28.2. | casti pojmenovanych entit| jak na to ted koukam, asi mame zavst pravidlo, neanotovat casti pojmenovanych entit v samostatnych koreferencnich retezcich. Snad to usnadni praci. Jeste to upresnim a probereme to nekdy na schuzce.| --> M| 

[ Back to the navigation ] [ Back to the content ]