[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
anotace-rozsirene-koreference [2008/12/07 09:47]
ufal
anotace-rozsirene-koreference [2012/04/11 15:57] (current)
ufal
Line 2: Line 2:
 Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.
  
 +===== PDT 2.0 =====
 +[[PDT 2.0]] na samostatne strance
  
 +===== Anotace textove koreference na PEDT =====
  
 +[[PEDT]] na samostatne strance
  
  
Line 14: Line 18:
  
  
-===== Dokumenty ===== 
-  * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://​ufal.mff.cuni.cz/​~nedoluzko/​koref_anot/​manual_RK_kratky.pdf| PDF]] 
-  * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):​[[http://​ufal.mff.cuni.cz/​~nedoluzko/​koref_anot/​projekt_anotace.pdf | PDF]]  
-  * Otázky - odpovědi - diskuze (do 6.11.): [[http://​ufal.mff.cuni.cz/​~nedoluzko/​koref_anot/​otazky_odpovedi_diskuze.doc| DOC]] 
-  * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://​ufal.mff.cuni.cz/​~nedoluzko/​koref_anot/​table_abstr.doc | DOC]] 
-    ​ 
  
- 
-===== Anotátoři ===== 
- 
- * **JK**: Jan Křiván 
- * **RO**: Radek Ocelák 
- * **JP**: Jiří Pergler ​ 
- * **AN**: Аня Hедолужко 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
-===== Diskuze ===== 
-|              ^ problém ​           ^ diskuze, řešení ​         ^ techn.pozn. ​       ^ 
-^ dotaz, AN, 7.12    | typ koreference virus HIV - v tomto směru| Příklad: //Jehly přenášející virus HIV jsou příliš velkým rizikem . A právě to , že dnešní heroin je __v tomto směru__ relativně bezpečný , způsobuje jeho zvyšující se oblibu .// Kam byste vztahli //v tomto směru//? A čím?| | 
-^ AN, 3.12    | „zaměstnanci – každý ze zaměstnanců“| Poněvadž „každý“ v tektogramatickém stromě má substantivní platnost, v konstrukci „každý ze zaměstnanců“ anotujeme koreferenci od něj, PP „ze zaměstnanců“ necháváme bez šipky, jako závislý uzel. Srov. //(13)Podle přesvědčení majitelů dosáhla prosperity zejména proto , že zaměstnává lidi , na které //{ coref_gram, na „člověk“}//​ se může spolehnout . (14) Kritéria výběru jsou přísná . (15) Každý //{ coref_text, typ=0 na „který“}//​ ze zaměstnanců musí být odborníkem .//.|+M | 
-^ AN, 3.12    | "​nekoreferencni koreference"​ typu NR| neoznačujeme pokud extence (dosah, možné denotáty) daných NP mají různý dosah, čili nejsou koreferenční,​ i když o nereferenčních jmenných frázích to není úplně logické tvrzení. Např. v násl. příkladě jsou dvě generické jména, ze kterých druhé je „specifičtější“ než první, tj. odkazuje na omezenější množinu, třídu denotátu. Srov. //(17) Stali jsme se také [dodavatel]dodavatelem Unileveru a dokázali splnit jeho zvýšené požadavky na __kvalitu__ . (25)U detergentu Toto jsme například řešili problém s udržením stálé __kvality__ //(tady – kvality pouze detergentu)//,​ protože jednotlivé partie byly nevyvážené//​ .|+M | 
-^ AN, 3.12    | bridging na spojku | Je možné však i bridging na spojku, pokud je to ze sémantického hlediska logičtější. Srov. //Saldo běžného účtu platební bilance podle odhadu dosáhlo vloni cca 600 mil . USD , tj . téměř 2 % HDP . 
-I když letos a// {bridging, typ_CONTRAST na „vloni“} //​příští rok je nutné počítat se zpomalením růstu vývozu a zrychlením růstu dovozu , prognózujeme , že saldo přesto zůstane kladné ve výši 300 - 600 mil . USD ročně .//|+M | 
-^ schůzka_2.12 ​   | bridging na spojku nebo nepropojeny koreferencni retezec| pripad Pert a Pavel - vlastnici - Petr a Pavel - Petr. Od posledniho Petra delame identickou sipku na predchoziho Petra. Ztraci se navaznost, ale zachova se koreference.| --> M | 
-^ schůzka_2.12 ​   | oznacovani casti NE| podle smyslu - pokud cast NE ma nejakou slusnou referenci, tak to oznacime. Pokud ne, radeji nechame neoznacene. Ceske Budejovice - Ceske Budejovice: spojime jenom Budejovice, ne Ceske; ​ ale pokud je v nazvu neco, co potom prirozene vstupuje do samostatneho referencniho retezce, oznacime to. Napr. //(nejaky hezky priklad?)// | +M | 
-^ Predikát vs. subjekt (JP)   ​|"​Prvotní apoštolská církev byla chudá. Přesto i ona měla jakousi finanční organizaci, dokonce svého pokladníka. Problémem je, že tímto prokazatelně prvním křesťanským ekonomem byl Jidáš Iškariotský. Neblahé stigma Ježíšova zrádce jako by se nad církevním majetkem vznášelo dodnes."​\\ Problematická je třetí věta: je tam koreference se slovem pokladník ve druhé větě, nicméně je otázka, od kterého z uzlů vést šipku. Trochu se tu nabízí vést ji od uzlu ekonom - mluví pro to jednak aktuální členění, jednak (především) výraz tímto. Nicméně je to predikát, čili správnější asi bude vést koreferenci od uzlu Iškariotský. ​ |  | | 
-^ schůzka_2.12 ​   | nekoreferencni nebo neuplne koreferenci NP s nespecifickou referenci, vetsinou abstraktni nebo dejova, vyjadrene casto stejnym lexemem a porad se opakujici (inflace ve trech vyznamech prez cely text)| NEVIME, RESIME. - 1) skoda neoznacit, ke kohezi prispivaji. ​   2) tezke, dlouhe a nejednoznacne reseni, co je koreferencni,​ co ne, co je treba cast-celek 3) zadny stroj ty drobne rozdily nikdy neodhali| ​ | 
-^ schůzka_2.12 ​   | segm | pokud chceme odkazat na segment textu (treba i uvnitr jedne vety), ktery neni technicky zachytitelny,​ davame "​segm"​. Nesmime s tim vsak prehanet. Musi byt opravdu pritomny jednoznacny anaforicky odkaz. Napr. segm oznacime v pripade //Šedesát tři vězňů , kteří vykonávají trest odnětí svobody v České republice , požádalo za první půlrok o předání do věznic na území Slovenska. Informoval o tom včera tiskový mluvčí generálního ředitelství Vězeňské služby ČR Eduard Vacek. Dodal, že loni podalo __tuto žádost__ 200 odsouzených.//​ Take v //Chtěl jsem být největším ekonomem na světě, největším milencem na světě a největším jezdcem na světě. Vzhledem k pokročilému věku __třetí cíl__ už nestihnu//. | --> zmenit v M | 
-^ schůzka_2.12 ​   | vztah v paru Karel Dyba - ministerstvo,​ pokud neni primo uvedeno, ze Dyba je ministr, a vime to jenom ze znalosti sveta   | zadny  | +M | 
-^ schůzka_2.12 ​   | bridging vztah v paru ministr Karel Dyba - ministerstvo ​ | propojime ministr a ministerstvo vztahem FUNCT_P (duvody - 1) u bridging nemusime dodrzovat retezec, takze neni potreba vest nasilne na ridici uzel; 2) bridging vztahy se snazime pokud mozno oznacovat u slov, ktera ty vyznamy maji v lexikalni semantice) ​  | +M | 
-^ schůzka_2.12 ​   | odkaz typu exoph          | dodáváme pouze v případě opravdové exoforiké deixe (ukazani prstem), nikoliv jakykoli mimojazykovy odkaz. Např. oznacujeme v dialogu "​__tahle budova__ je Sternbergsky palac",​ nikoliv vvsak konstrukce typu "​pristi rok", "v soucasne dobe" apod.   | +M | 
-^ schůzka_6.11 ​   | řetězec Petr – to dítě – Petr: opačný vztah hyperonymie. ​         | řetězec Petr – to dítě {coref_text,​ typ SYN na “Petr”} – Petr {coref_text,​ typ SYN na “dítě“}. ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení. ​ -------------- RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec.\\ JP: Proč se "Petr - to dítě"​ anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER.                                **AN**: tak to ER asi zrusime, co myslite? Petr - to dite v podstate taky neni zadna poradna hyperonymie,​ jenom jinak pojmenovany objekt, a podobnych pripadu, ktere znacime SYN je spousta. Ostatni pripady z teto skupinky se rozdeli na 0, SYN a NR   | | 
-^ schůzka_6.11 ​   | adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.)| řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky) ​                  | OK| 
-^ schůzka_6.11 ​   | „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení. ​         | je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST,​ protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční. ​       | +M|  
-^ dotaz RO   | Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují. ​  Př. nadpis "​Cizinec jako našinec",​ v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat?​ Někde se to ale jako antecedent dá brát - když je třeba v nadpisu "​Václav Klaus"​. |AN: myslím, že by se to stejně melo anotovat - jiný nástroj pro propojení nadpisu a textu článku nemáme a je dobře to mít propojené. Také technicky záhlaví jde potom vždy oddělit ​   | OK| 
-^ dotaz JP   ​|Jakým typem koreference spojovat uzly, z nichž jeden je vyjádřen zkratkou (např. ČR - Česká republika, ODS - Občanská demokratická strana)? Anotuji to jako SYN, i když se pochopitelně nabízí i typ 0. |AN: raději SYN       | +M| 
-^ dotaz JP   | Jak anotovat tento případ? V jedné větě je "​...někdejší ministr vnitra Barák...",​ o několik vět dál je "do funkce ministra vnitra nastoupil Rudolf Barák..."​. Jako typ 0 se samozřejmě propojí Barák-Barák. Ale co s uzly "​ministr"​ a "​ministra"​ (příp. "​funkce"​)?​ Prozatím to nespojuji, ale taky by bylo možné to projit např. koreferencí typu NR. | AN: nepropojovala bych to - v pozici antecedenta '​ministr'​ visi jako zavisky na Barak, navic '​ministry'​ tady nejsou koreferencni ​ | OK | 
-^ dotaz JK   | Jak řešíte koreference na pomezí SYN a 0? Mám na mysli takové případy, kdy jsou propojeny dva totožné uzly, ale jejich poduzly se liší (případně chybějí). Např. dvojice: společnost - akciová společnost - společnost Incheba; Vlček - ředitel J. Vlček - Jiří Vlček; ministr financí - ministr - tento ministr atd.  | AN: vždy jako typ 0 | +M| 
- 
- 
-===== Data ===== 
- 
- 
- 
- 
- 
- 
- 
- 
-==== Train-1 ==== 
- 
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ 
-| data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | - | cmpr9410_001 - lnd94103_106 | | 
-| data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | | 
-| data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | | 
-| data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | | 
-| data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | - | ln94209_6 - ln95047_051 | | 
-| data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | | 
-| data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 |  
-| soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 | | 
- 
- 
-==== Train-1/2 ==== 
- 
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ 
-| data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | - | mf920922_135 - mf930713_156,​ train-2: cmpr9410_002 - cmpr9415_028| | 
- 
- 
-==== Train-2 ==== 
- 
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ 
-| data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | - | cmpr9415_038 - ln94203_89, lnd* | | 
-| data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | - | ln94203_98 - ln94205_84 | | 
- 
-===== Zajimavé/​problematické řetězce ===== 
-**RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla." ​ 
-Byl bych pro to, označovat "​Cup"​ - text. kor. O - "​takováhle"​. Zatímco zájmeno k ní odkazuje, "​akce"​ už s ní koreferenční není. (Je to něco jiného než "tato akce"​.) 
-**JP:** A co třeba vést z uzlu "​akce"​ bridging šipku typu SUB_SET (na "​cup"​)?​ Vypadá to sice trochu divně vzhledem k tomu, že "​akce"​ je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva,​ které má na rozdíl od výrazu "​takováhle"​ jasnou referenci. 
- 
-**RO:** "​Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo."​ - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo "po revoluci roku 1848". 
- 
-**JP:** "Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem."​ Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.) 
- 
-**JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..."​ Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "​Rusko"​ v předchozím textu. 
- 
- 
- 
- 
-===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== 
- 
- 
-Honza Krivan, 8.10.2008 
- 
-1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten. 
- 
-2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny. 

[ Back to the navigation ] [ Back to the content ]