Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
diskuze [2009/05/07 15:41] ufal |
diskuze [2009/09/27 18:55] ufal |
| |
| ^ problém ^ diskuze, řešení ^ techn.pozn. ^ | | ^ problém ^ diskuze, řešení ^ techn.pozn. ^ |
^ JP, 7.5. | zapis ze schuzky| **1) vztah PART ** snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme //Brusel - Belgie// a //Belgie - Evropa//, nikoli //Brusel - Evropa//\\ **2) vztah FUNCT** definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. FUNCT jsou napr. pary //trenér-mužstvo, premiér-vláda// apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ //vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha// apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - ... vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu //hráč-mužstvo// a //ministr-vláda// nejsou FUNCT ale SUB, protoze nejsou unikatni. Pokud nazev funkce je v kontextu jmena tuto funkci vykonavaciho (ministr zemedelstvi Lux), sipka FUNCTu vede od "ministr", nikoliv od Luxu. Uzel "Lux" je propojen s vladou SUBSETem. Pokud vztah FUNCT je mezi primou zavislosti s APP, neoznacujeme ho (premierka vlady)| | | ^JP, 15.9. | případ pronominalizace s problematickou koreferencí | //Za předpokladu, že se nynějšího zasedání Sejmu účastní všech __460 poslanců__ - což je ovšem předpoklad čistě teoretický, protože jen málokdy jsou přítomni __všichni__ - by __jich__ muselo pro novelizovaný zákon hlasovat 306.// Jak řešit vztah zájmena "jich"? V předchozí anotaci je tam označená koreference k předchozím poslancům, ale v podstatě je to spíš podmnožina, i když není to moc jasné. Taky jsem přemýšlel, jestli by nešlo dát koreferenci k "jich" a podmnožinu k "306", ale to má funktor COMPL, takže to by asi nebylo moc logické. (A mimochodem, v následující větě je pak výraz "taková většina", který na tuto větu odkazuje -- co s ním?) **RO** Byl bych tady pro SET-SUB, řešili jsme to už ke 4. 5. A "taková většina" asi klidně ANAF, neřekl bych, že tam jde o přesný počet poslanců, spíš o podobně velký. | | |
^ JP, 5.5.| aféra Susko | Mám text s nadpisem "Slovenská aféra Susko". Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem "Susko" v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově "aféra", tj. jde zřejmě jen o název aféry. | | | ^JP, 14.9. | spojení "není tomu tak" | Jak řešit referenci a koreferenci výrazů "tomu" a "tak"? Např. //Pro některé druhy dat a způsoby jejich zpracování jsou střediskové počítače (angl. mainframe) - a celá organizace práce kolem nich - dosud tím nejvhodnějším známým prostředkem. V mnoha jiných případech __tomu__ __tak__ ovšem není.// Intuitivně se mi zdá, že jsou oba ty výrazy nějakým způsobem koreferenční s celou předchozí větou. **RO** U toho můžou být ještě různé druhy - zatímco tady to podle mě jasná koreference není (anotoval bych nejspíš od "tomu" SEGM a od "tak" ANAF na sloveso přechozí věty), tak v jiném příkladě: "Za loňský rok dosáhly dánské investice v ČR pouze 13 miliónů DKK. Je tomu tak i proto, že..." mi to přijde jako pěkný typ 0 (od "tomu" byl už předanotovaný, od "tak" jsem ho označil). | | |
^ JP, 4.5.| problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. | | | ^RO, 28.8. | vztah různých časových určení, vztah SET-SUB| Pár otázek: Anotujeme systematicky různá časová určení v textech? Jako např. letošní rok - letos - minulý týden - nyní - červenec - 15. červenec... Já to v poslední době celkem pravidelně dělám, dávám tam vztahy koreference a WHOLE-PART, protože je to celkem jednoznačný případ části. +++ Anotujeme vztah množina-podmnožina v následujících typech případů? (Neumím posoudit, jestli ten vztah vyplývá ze syntaktické informace, nebo ne.) "Slavia patří ke 3 nejúspěšnějším klubům ligové historie." / "Zúčastní se špičkové české kluby, jako např. Slavia a Baník." A tam, kde mají A, B, C společný řídící uzel a jsou všechny podmnožinami D, anotujeme SET-SUB na ten řídící uzel, nebo zvlášť na každý člen A, B, C? **JP:** Ta časová určení dělám podobně, i když ne asi úplně důsledně. U obou těch příkladových vět to označuji a u toho posledního to dělám dost nahodile. **RO:** Tak dobře, dělejme to všechno. Ty časy je sice těžké všechny zachytit, ale zase je většinou dost jasné, jaký přesně vztah mezi nimi je. A to poslední bychom mohli nějak sjednotit, je toho hodně. | | |
| ^RO, 30.7. | časový vztah PART-WHOLE?| Možná bychom mohli rozšířit skupinu PART-WHOLE o případy jednoznačných časových úseků, jako např. "utkání" - "první poločas" - "21. minuta" nebo "tento týden" - "úterý". Vágnější případy samozřejmě raději ponechat v SUB-SET.| | |
| ^ AN, 7.5. | zapis ze schuzky| **1) vztah PART ** snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme //Brusel - Belgie// a //Belgie - Evropa//, nikoli //Brusel - Evropa//\\ **2) vztah FUNCT** definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity. FUNCT jsou napr. pary //trenér-mužstvo, premiér-vláda// apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ //vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha// apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - ... vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu //hráč-mužstvo// a //ministr-vláda// nejsou FUNCT ale SUB, protoze nejsou unikatni. Pokud nazev funkce je v kontextu jmena tuto funkci vykonavaciho (ministr zemedelstvi Lux), sipka FUNCTu vede od "ministr", nikoliv od Luxu. Uzel "Lux" je propojen s vladou SUBSETem. Pokud vztah FUNCT je mezi primou zavislosti s APP, neoznacujeme ho (premierka vlady)\\ **3) REST pro "misto - obyvatel"** oznacujeme i v pripadech, kdy neni pojmenovana entita, cili nejenom u //Polsko - Polak//, ale take u //Polsko - verejnost// a //zeme - verejnost// v pripade ze jde opravdu o misto a jeho obyvatele \\ **4) koreference u sloves** nemenime, abychom neplodili koreferenci mezi slovesy samotnymi \\ **5)smer sipky** je vzdy podle vztahu v textu, nikoliv podle poradi uzlu ve strome \\ **6)milion a kontejnery** anotujeme stejne, cili //milion// a //tisic// se anotuji jako kontejnery a ne jako cislovky. Co visi pod nim se anotuje podle smyslu, cili //Polaci// v //Miloin Polaku// a //Polaci si zvolili prezidenta// nejsou koreferencni, zatimco v //Miloin Polaku// a //tito Polaci si neuvedomili ze// druhe Polaci jsou koreferencni s milionem \\ **7) Evropska unie** se anotuje jako unie statu Evropy nikoliv jako Ceska Republika, cili //evropska// se koreferuje s Evropou a //unie// poue s unii. | | |
| ^ JP, 5.5.| aféra Susko | Mám text s nadpisem "Slovenská aféra Susko". Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem "Susko" v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově "aféra", tj. jde zřejmě jen o název aféry. **AN:** souhlasim. Spojovala bych to ale v pripade, pokud bych melo jiny funktor nez ID | | |
| ^ JP, 4.5.| problematické případy pronominální koreference | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET. **AN:** takova pronominalizace vetsinou je anaforicka, takze ANAF je tu na miste. Pokud tam vidite jasny subset, tak to urcite taky jde| | |
^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | | ^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3). **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | |
^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | | ^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | |