Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
diskuze [2009/05/07 14:42] ufal |
diskuze [2009/10/08 17:17] ufal |
| |
| ^ problém ^ diskuze, řešení ^ techn.pozn. ^ | | ^ problém ^ diskuze, řešení ^ techn.pozn. ^ |
^ JP, 7.5. | zapis ze schuzky| **1) vztah PART ** snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme //Brusel - Belgie// a //Belgie - Evropa//, nikoli //Brusel - Evropa//\\ **2) vztah FUNCT** definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. FUNCT jsou napr. pary //trenér-mužstvo, premiér-vláda// apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ //vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha// apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - ... vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu //hráč-mužstvo// a //ministr-vláda// nejsou FUNCT ale SUB, protoze nejsou unikatni. | | | ^JP, 8.10.| Obrat v loňském roce vs. obrat letos | //Její __obrat__ podle předběžných výsledků činí za loňský rok téměř 1133 miliardy korun, __zisk__ před zdaněním je vypočten na 64.8 miliónu korun. Letos by se měl __obrat__ pohybovat okolo 1.2 miliardy korun a __zisk__ by měl zůstat na úrovni roku 1994.// Má se anotovat nějaký vztah mezi obraty a mezi zisky? Ve skutečnosti to koreferenční není, i když syntaktická struktura se tváří, jako kdyby bylo (to časové určení tam nefunguje jako rozvití substantiva, ale jako doplnění slovesa), a možná by to tak i šlo chápat, pokud by se to bralo jako nereferenční. V případě, že by to ve druhé větě bylo pronominalizované, byl by tam zřejmě typ ANAF, ale v tomhle případě to anafora asi není. Pak se nabízí ještě REST... | | |
^ JP, 5.5.| aféra Susko | Mám text s nadpisem "Slovenská aféra Susko". Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem "Susko" v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově "aféra", tj. jde zřejmě jen o název aféry. | | | ^RO, 8.10.| Příklad mísení specifické a nespecifické reference v jednom řetězci | Shodli jsme se kdysi, že je někdy nutné spojovat typ O a NR do jednoho řetězce, dobrý příklad je: "Po **schůzce** Moravčík-Boross. ... **Setkání** (typ 0) premiérů Maďarska a Slovenska, které se uskutečnilo v neděli večer... ... Proto začal premiér Boross projevovat zájem o **setkání** (NR) s Moravčíkem. ... A tak se **setkání** (NR) Moravčík-Borros nejdřív odložilo, pak se uvažovalo o jeho zrušení, ale jelikož měli oba premiéři na **schůzce** (NR) zájem, dohodli se na kompromisu. ... **Schůzka** (typ 0) byla, ale neformální." Mísí se tam pohled na věc (schůzka) jakožto už proběhlou (specifikovanou) / jakožto teprve budoucí a nepříliš určenou. Je samozřejmě otázka, jestli jde ještě o tutéž entitu, ale koheze textu evidentně stojí na tom, že jde o schůzku mezi premiéry. Ale takových případů bychom asi měli mít co nejmíň, na tom se málokdy shodnem. **AN**: Vyborny priklad! |-->M | |
^ JP, 4.5.| problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. | | | ^RO, 2.10.| případ koreference NR? | "Zvolen patriarcha. Patriarchou Československé církve husitské byl na příštích sedm let zvolen Josef Špak." - Anotuju podobné případy jako NR mezi patriarcha-patriarcha, je to dobře? **AN**: Jo, je to takove funkcni pouyiti, rozhodne blizsi generickemu nez referencnimu | | |
| ^RO, 27.9.| CONTRAST | Častý typ kontrastu je takovýto: "Zatímco v Čechách bude slunečno, na Moravě se dají čekat bouřky." Tj. kontrast vyjádřený už mezivětným funktorem a dva kontrastní páry Čechy-Morava a slunečno-bouřky. Označujeme je v takovém typickém příkladě oba? Nebo označujeme jen ještě výraznější kontrast? **JP:** Já to u podobných případů dělám oboje. **AN**: hmm... pokud je uz v synatakticke stukture funktor ADVS, tak to nema smysl oznacovat vubec | | |
| ^JP, 15.9. | případ pronominalizace s problematickou koreferencí | //Za předpokladu, že se nynějšího zasedání Sejmu účastní všech __460 poslanců__ - což je ovšem předpoklad čistě teoretický, protože jen málokdy jsou přítomni __všichni__ - by __jich__ muselo pro novelizovaný zákon hlasovat 306.// Jak řešit vztah zájmena "jich"? V předchozí anotaci je tam označená koreference k předchozím poslancům, ale v podstatě je to spíš podmnožina, i když není to moc jasné. Taky jsem přemýšlel, jestli by nešlo dát koreferenci k "jich" a podmnožinu k "306", ale to má funktor COMPL, takže to by asi nebylo moc logické. (A mimochodem, v následující větě je pak výraz "taková většina", který na tuto větu odkazuje -- co s ním?) **RO** Byl bych tady pro SET-SUB, řešili jsme to už ke 4. 5. A "taková většina" asi klidně ANAF, neřekl bych, že tam jde o přesný počet poslanců, spíš o podobně velký. **AN**: taky jsem pro SET_SUB a ANAF | | |
| ^JP, 14.9. | spojení "není tomu tak" | Jak řešit referenci a koreferenci výrazů "tomu" a "tak"? Např. //Pro některé druhy dat a způsoby jejich zpracování jsou střediskové počítače (angl. mainframe) - a celá organizace práce kolem nich - dosud tím nejvhodnějším známým prostředkem. V mnoha jiných případech __tomu__ __tak__ ovšem není.// Intuitivně se mi zdá, že jsou oba ty výrazy nějakým způsobem koreferenční s celou předchozí větou. **RO** U toho můžou být ještě různé druhy - zatímco tady to podle mě jasná koreference není (anotoval bych nejspíš od "tomu" SEGM a od "tak" ANAF na sloveso přechozí věty), tak v jiném příkladě: "Za loňský rok dosáhly dánské investice v ČR pouze 13 miliónů DKK. Je tomu tak i proto, že..." mi to přijde jako pěkný typ 0 (od "tomu" byl už předanotovaný, od "tak" jsem ho označil). **JP:** Čili tam pak vznikne koreference mezi "tomu" a "tak"? **RO:** Jo. Ale nevím, co v tom prvním případě - možná lepší, než co jsem psal, by byla koreference NR mezi slovesem-"tomu"-"tak"; abychom to měli trochu jednotnější - buď jde o tutéž situaci (a pak typ 0), nebo o něco jako "stejnou situaci v jiném případě" (a pak NR). **AN**: A co je tam v syntakticke strukture? Neni mezi tomu a tak predikativni vztah> (jeden ACT, druhy PAT)? Pak by se koreference s tim, co je PAT (//tak//) neoznacovala vubec a TO bz se bud propojilo zajmennou koreferenci nebo prip. ANAF. Odkaz na segment bzch tam nedavala. **JP:** Ne, je to nějak jinak, nepamatuju si to teď přesně, ale tuším, že "tomu" je ACT a "tak" má MANN... **AN**: v tom pripade je to specifika syntakticke anotace (logicka struktura teto konstrukce je myslim predikativni) a muzeme to anotovat jak jste to nabidli - spise 0-0 v druhem pripade a veta - tomu.ANAF. - tak.coref_na_tomu v prvnim. | ling.zajimavost| |
| ^RO, 28.8. | vztah různých časových určení, vztah SET-SUB| Pár otázek: Anotujeme systematicky různá časová určení v textech? Jako např. letošní rok - letos - minulý týden - nyní - červenec - 15. červenec... Já to v poslední době celkem pravidelně dělám, dávám tam vztahy koreference a WHOLE-PART, protože je to celkem jednoznačný případ části. +++ Anotujeme vztah množina-podmnožina v následujících typech případů? (Neumím posoudit, jestli ten vztah vyplývá ze syntaktické informace, nebo ne.) "Slavia patří ke 3 nejúspěšnějším klubům ligové historie." / "Zúčastní se špičkové české kluby, jako např. Slavia a Baník." A tam, kde mají A, B, C společný řídící uzel a jsou všechny podmnožinami D, anotujeme SET-SUB na ten řídící uzel, nebo zvlášť na každý člen A, B, C? **JP:** Ta časová určení dělám podobně, i když ne asi úplně důsledně. U obou těch příkladových vět to označuji a u toho posledního to dělám dost nahodile. **RO:** Tak dobře, dělejme to všechno. Ty časy je sice těžké všechny zachytit, ale zase je většinou dost jasné, jaký přesně vztah mezi nimi je. A to poslední bychom mohli nějak sjednotit, je toho hodně. **RO** To anotování podmnožin (SET-SUB a WHOLE-PARTpodle mě můžeme udělat dvojím způsobem - 1) pravidelně označovat řídící uzel, pokud je to CONJ (u jiných funktorů bych to radši nedělal), a jednotlivé uzly vždy tehdy, pokud to CONJ není - ušetřila by se tím občas práce u dlouhých výčtů. 2) Můžeme označovat vždy jen jednotlivé uzly - to by bylo jednotnější a asi s menším počtem neshod (spojující uzel by se prostě neoznačoval nikdy), na druhé straně je to občas nějaká práce navíc. Anjo? **AN** tak ten posledni pripad s A-B-C bych nabizela resit tak, ze pokud vsechny tri dohromady jsou porad jeste podmnozinou D, pak vest SUBSET mezi CONJ a D. Pokud A+B+C=D, pak koreferenci na spojku. Tedz variantu 1). | deska patri k deskam --> M| |
| ^RO, 30.7. | časový vztah PART-WHOLE?| Možná bychom mohli rozšířit skupinu PART-WHOLE o případy jednoznačných časových úseků, jako např. "utkání" - "první poločas" - "21. minuta" nebo "tento týden" - "úterý". Vágnější případy samozřejmě raději ponechat v SUB-SET. **AN**: souhlasim pro vsechny jasne pripady|--> M | |
| ^ AN, 7.5. | zapis ze schuzky| **1) vztah PART ** snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme //Brusel - Belgie// a //Belgie - Evropa//, nikoli //Brusel - Evropa//\\ **2) vztah FUNCT** definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. FUNCT jsou napr. pary //trenér-mužstvo, premiér-vláda// apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ //vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha// apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - ... vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu //hráč-mužstvo// a //ministr-vláda// nejsou FUNCT ale SUB, protoze nejsou unikatni. Pokud nazev funkce je v kontextu jmena tuto funkci vykonavaciho (ministr zemedelstvi Lux), sipka FUNCTu vede od "ministr", nikoliv od Luxu. Uzel "Lux" je propojen s vladou SUBSETem. Pokud vztah FUNCT je mezi primou zavislosti s APP, neoznacujeme ho (premierka vlady)\\ **3) REST pro "misto - obyvatel"** oznacujeme i v pripadech, kdy neni pojmenovana entita, cili nejenom u //Polsko - Polak//, ale take u //Polsko - verejnost// a //zeme - verejnost// v pripade ze jde opravdu o misto a jeho obyvatele \\ **4) koreference u sloves** nemenime, abychom neplodili koreferenci mezi slovesy samotnymi \\ **5)smer sipky** je vzdy podle vztahu v textu, nikoliv podle poradi uzlu ve strome \\ **6)milion a kontejnery** anotujeme stejne, cili //milion// a //tisic// se anotuji jako kontejnery a ne jako cislovky. Co visi pod nim se anotuje podle smyslu, cili //Polaci// v //Miloin Polaku// a //Polaci si zvolili prezidenta// nejsou koreferencni, zatimco v //Miloin Polaku// a //tito Polaci si neuvedomili ze// druhe Polaci jsou koreferencni s milionem \\ **7) Evropska unie** se anotuje jako unie statu Evropy nikoliv jako Ceska Republika, cili //evropska// se koreferuje s Evropou a //unie// poue s unii. | | |
| ^ JP, 5.5.| aféra Susko | Mám text s nadpisem "Slovenská aféra Susko". Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem "Susko" v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově "aféra", tj. jde zřejmě jen o název aféry. **AN:** souhlasim. Spojovala bych to ale v pripade, pokud bych melo jiny funktor nez ID | | |
| ^ JP, 4.5.| problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. **AN:** takova pronominalizace vetsinou je anaforicka, takze ANAF je tu na miste. Pokud tam vidite jasny subset, tak to urcite taky jde| | |
^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | | ^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | |
^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | | ^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | |