[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Anotace rozšířené koreference

Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.

Dokumenty

Anotátoři

* JK: Jan Křivan
* RO: Radek Ocelák
* JP: Jiří Pergler
* AN: Аня Hедолужко

Diskuze

problém diskuze, řešení techn.pozn.
JP, 23.12. výraz “obdobně” Jak řešit tento případ? “SAPO byl silně zastaralý ještě před svým dokončením; hlavní zájem VÚMS se tou dobou soustředil již na další projekt, elektronkový počítač 1. generace EPOS 1. Ten bohužel dopadl obdobně; byl opuštěn ve stadiu nedokončeného funkčního modelu…” Výraz “obdobně” odkazuje na předchozí kontext, ale zřejmě to není koreference a ani není úplně jednoznačné, k čemu ho odkázat. Kromě toho by se u něj ještě dala označovat kataforická koreference na celou část věty za středníkem (která je v příslušném souboru vedena jako samostatná věta). Udělal jsem to tak, že jsem tam označil tuto kataforu a zároveň jsem dal bridging vztah typu rest na sloveso “být” v předchozí větě.
JP, 22.12. výraz “potom” Anotuje se nějaký vztah u výrazu “potom”? Např. Zátah však pouze znepříjemnil život několika gangsterům zadrženým na 48 hodin - potom museli být pro nedostatek důkazů propuštěni. - je tu určitě nějaký vztah mezi “potom” a “48 hodin”, je ale otázka, jestli zrovna koreference…
RO, 20.12. anafora x koreference Shodli jsme se s Jirkou, že se nám zdá, že se v anotaci možná málo zohledňuje principiální rozdíl mezi anaforou a koreferencí. Nevím přesně jak, ale možná bychom s pomocí tohohle rozlišení mohli některé věci líp řešit. Je pravda, že většinou platí “kde je anafora, tam je i koreference”, ale není to tak všude. Třeba v tom případě “Jak se vám zamlouvá Pragobanka Cup?” “Takováhle akce u nás chyběla” je “takováhle” anaforické, ale “takováhle akce” není koreferenční. Podobně výrazy “tak” nebo “tolik” můžou myslím být anaforické a přitom nezakládat koreferenci. Taky “segmentovou koreferenci” myslím v podstatě anotujeme tehdy, jestliže je tam anaforický výraz, jako třeba to Jirkovo “tehdy”. JP: Jako další příklad může sloužit dvojice “v roce 1987” - “tehdejší podoba nezávislé scény”, na kterou jsem právě narazil. Na rozdíl od výrazu “tehdy” má výraz “tehdejší” adjektivní platnost, takže z něho zřejmě nejde odkazovat vůbec, a celá NP není koreferenční vůbec s ničím, takže nejde použít ani ten segment.
RO, 20.12. katafora Je možné vést v případě katafory šipku náležitě, čili opačným směrem? Občas se to objeví; nevím, jestli jsme to už řešili.
RO, 20.12. koreference 0 x SYN Pořád nemáme jasno, co se anotuje jako typ 0 a co jako SYN. Měli jsme kritérium, že pokud se řídící jméno celé fráze shoduje, je to 0, pokud se liší, je to SYN; ale na minulé schůzce jsme to zase jakýmsi případem narušili - řídící jméno se shodovalo, ale přesto jsme rozhodli, že to bude SYN. (Nepamatuju si, co to bylo; víte někdo?) Druhá věc je, že pokud určíme nějaké takové formální kritérium, pak se to může snadno rozlišit automaticky a pro ruční anotaci by úplně stačila jedna kategorie. Co s tím? JP: Co to bylo, si nepamatuju, nicméně nabízí se to v případě nějakých ustálených spojení (nebo jde-li přímo o vlastní jména), např. “Česká republika” - “naše republika”. V některých případech se zase nabízí anotovat jako typ 0, přestože řídící uzel není stejný, např. “firma Struktura” - “Struktura”.
JP, 19.12. typ “jde o…” “Ve čtvrtém kole druhé vlny kuponové privatizace do včerejšího odpoledne odevzdali občané Podniku výpočetní techniky zatím 1592000 kuponů. Jde o předběžné údaje, protože stále docházejí kupony ze vzdálenějších pošt.”
Má se anotovat koreferenční vztah mezi slovem “údaje” a počtem kuponů? Významově ta konstrukce odpovídá konstrukci “jsou to předběžné údaje”, kde by se “údaje” jako koreferenční neanotovaly (anotoval by se uzel “to”), ovšem v tomto případě má sloveso “jít” pouze jeden aktant (aktor “údaje”). AN: V danem priklade bych to anotovala - proc ne, kdyz to struktura nezakazuje? RO Taky jsem pro, jen bych raději odkazoval “údaje” na to “1592000”, nikoliv na “kupóny” - možná se tím trochu míň míchá objektový jazyk s metajazykem. Mimochodem se mi zdá, že to je častější problém; docela možný (byť vymyšlený) příklad: “Povstalci zaútočili na vládní jednotky.” Nechť následuje buď 1) “Tento útok si vyžádal čtyři oběti.”, nebo 2) “Tuto zprávu přinesla agentura X.” Pokud se nepletu, anotujeme jak “tento útok”, tak “tuto zprávu” jako koref. ER, i když se v jednom případě denotuje útok, ve druhém informace o něm. Nevadí to? JP: No, to může být docela problém, hlavně pokud by ten řetězec měl nějak pokračovat. Příklad: “Povstalci zaútočili na vládní jednotky. Tuto zprávu přinesla agentura X. Útok si vyžádal čtyři oběti.” Pak by se jak zpráva, tak útok odkázaly na to sloveso, čímž by se vytvořil jeden koreferenční řetězec, podle kterého by byly “zpráva” a “útok” koreferenční, což by němělo být. Řešením by mohlo být používat ten typ ER právě a jen pro ty metajazykové případy (což by byly dvě mouchy jednou ranou, protože by tím ten typ ER dostal jednoznačné vymezení). Ovšem ten případ, který jsem popsal, by to neřešilo. Mohlo by ho to ale řešit, kdyby se v případě typu ER zrušil ten princip, že Tred automaticky vytváří jeden dlouhý řetězec. Akorát by se tím v tomto případě trochu zrušil princip tranzitivity koreference. RO: To zní zajímavě, nějakou takovouhle kategorii metajazykové koreference by asi stálo za to zavést. Měl bych k ní po ruce skutečný příklad: “Je to vůbec definitivní příměří? IRA se vyhnula ve svém prohlášení tomuto výrazu a místo něj zvolila bezpodmínečný klid zbraní.”
JP, 16.12. Česko - český stát
a český - český stát
Jenom se chci ujistit, že to chápu správně: V případě dvojice “Česko - český stát” je správným řešením zrušit přednastavenou koreferenci “Česko - český” a místo ní vytvořit koreferenci “Česko - stát”. A podobně v případě dvojice “český - český stát”, tj. nepropojovat “český - český”, ale “český - stát”. Je to tak? AN: Ano, chapes to spravne :-)
AN, 3.12 “nekoreferencni koreference” typu NR neoznačujeme pokud extence (dosah, možné denotáty) daných NP mají různý dosah, čili nejsou koreferenční, i když o nereferenčních jmenných frázích to není úplně logické tvrzení. Např. v násl. příkladě jsou dvě generické jména, ze kterých druhé je „specifičtější“ než první, tj. odkazuje na omezenější množinu, třídu denotátu. Srov. (17) Stali jsme se také [dodavatel]dodavatelem Unileveru a dokázali splnit jeho zvýšené požadavky na kvalitu . (25)U detergentu Toto jsme například řešili problém s udržením stálé kvality (tady – kvality pouze detergentu), protože jednotlivé partie byly nevyvážené .

JP: Takže chápu-li to správně, ve větách “Podle náměstka Svobody potvrdilo společné jednání správnost úsilí našeho ministerstva o decentralizaci v rozhodování, kam půjdou finanční prostředky. V Nizozemsku jsou finance spravovány centrálně, ale rozhodování o tom, na co budou použity, přísluší mnoha uměleckým fondům.” se neoznačuje vůbec žádný vztah mezi finančními prostředky a financemi? V případě abstraktních pojmenování podle mě toto rozlišování dosahu někdy docela komplikuje situaci. Např. teď jsem anotoval článek pojednávající o tom, že Česko pravděpodobně převezme nizozemský model financování kultury, a kdyby se to mělo dělat důsledně, tak by se u všech výrazů s lemmatem “kultura” (které se tam vyskytovaly dost často) muselo rozlišovat, jestli jde o kulturu obecně, nebo o kulturu v Nizozemsku, nebo o kulturu v Česku, přestože je toto slovo většinou použito v dost abstraktním významu (podobně je tomu i s výrazy “financování” nebo “kulturní politika” - takto to možná vypadá, že je vždy jasné, jestli jde o nizozemskou, nebo českou kulturní politiku, ale když se v textu píše o tom, že Češi a Nizozemci spolu debatují o kulturní politice, tak vzniká zase potřeba vytvořit ještě třetí kategorii, tj. kulturní politiku v naprosto obecném významu). A taky by se pak měly řešit nějaké bridging vztahy typu část-celek mezi kulturou v Česku a Nizozemsku a kulturou obecně. V podobných případech, kdy jsou nějaké výrazy použity na vysokém stupni abstrakce, je podle mě rozlišování toho významového dosahu dost sporné (u té kultury je možné říct, že jde o totéž, jen na jiném místě) a vede to k tomu, že se neoznačují některé vztahy, které docela výrazně přispívají ke koherenci textu. AN: Koreferenci mezi finanční prostředky a finance bych neanotovala. Mas urcite pravdu, ze u tech abstrakt je rozlisovani takoveho toho dosahu a vubec koreference je slozity a neodonoznacny, prave proto bych tam koreferenci anotovala jenom v uplne jasnych pripadech. Co treba si predstavit situaci, ze cestina ma clen a navic, ze ho pouziva s abstaktnimi a generickymi NP. A pak si u toho problematickeho paru zamyslet, jestli “koreferujici” clen by byl s clenem (potom anotovat) nebo bez nej (potom neanotovat). Mozna je to ale blbost. U kultury si nejsem jista, potrebovala bych videt vetsi kontext. RO Dlouho už přemýšlím, že by bylo dobré zavést zvláštní kategorii pro věci tohohle typu, kde sice z nějakých důvodů nejde tvrdit koreference nebo některý z vymezených typů bridging, zato to jasně přispívá ke koherenci textu. Třeba proto, že se to lexikálně opakuje, s nějakým významovým posunem. (Občas už jsem tak využil REST, ale nevím, jestli je to schválené.) Třeba ten případ “kulturní politika” vs. “nizozemská kulturní politika” - nemůžem tam určit identitu, možná ani vztah celek-část, ale jednoznačně víme, že to přispívá k textové koherenci, a proč tu informaci tedy nezachovat? (Např. Daneš v Mluvnici češtiny 3 uvádí “známost”, významovou příbuznost referentů jako další důležitý prostředek koherence vedle identity referentů.) Samozřejmě by se to muselo dělat velmi uměřeně, nespojovat všechno možné; ale myslím že toho jsme schopni. Asi by nebylo třeba zavádět nic dalšího - stačí říct jasně, že tyhle případy spadají do REST. Byla by to přiznaně trochu subjektivní kategorie - “anotátorovi se to zdálo důležité pro koherenci textu”, ale lepší než to neznačit vůbec.
JP predikát vs. subjekt “Prvotní apoštolská církev byla chudá. Přesto i ona měla jakousi finanční organizaci, dokonce svého pokladníka. Problémem je, že tímto prokazatelně prvním křesťanským ekonomem byl Jidáš Iškariotský. Neblahé stigma Ježíšova zrádce jako by se nad církevním majetkem vznášelo dodnes.”
Problematická je třetí věta: je tam koreference se slovem pokladník ve druhé větě, nicméně je otázka, od kterého z uzlů vést šipku. Trochu se tu nabízí vést ji od uzlu ekonom - mluví pro to jednak aktuální členění, jednak (především) výraz tímto. Nicméně je to predikát, čili správnější asi bude vést koreferenci od uzlu Iškariotský.
AN: To je identifikacni veta a obe jeji casti jsou referencni. V takovém případě anotaci podléhají obě části predikačního vztahu, ale přesto neanotujeme koreferenci mezi subjektem a jmennou částí přísudku – jejich koreference je dána syntaktickou strukturou stromu a může být podle potřeby dodělána automaticky. “Prvotní apoštolská církev byla chudá. Přesto i ona měla jakousi finanční organizaci, dokonce svého pokladníka. Problémem je, že tímto prokazatelně prvním křesťanským ekonomem {coref_text na “pokladník”} byl Jidáš Iškariotský.{žádná koreferenční šipka} Neblahé stigma Ježíšova zrádce {coref_text na “Jidáš Iškariotský”} jako by se nad církevním majetkem vznášelo dodnes.
AN, 10.12. koreference u #Gen prosim neoznacujte - nedelalo se to systematicky, nam se to take systematicky nepovede
JP, 7.12. typ předhusitská církev - tehdy “Předhusitská církev si k obhospodařování darovaného majetku postupně vybudovala rozsáhlý správní aparát, v němž připadla důležitá role výběrčím desátků - děkanům. Tehdy se také definitivně oddělila správa ekonomická (in temporalibus, tj. ve věcech časných) od duchovní (in spiritualibus).”
K čemu odkázat slovo “tehdy”? Referuje to k předhusitskému období, ovšem v předchozím kontextu máme jenom předhusitskou církev. Napadá mě jedině odkázat to na adjektivum, což ale není ideální. AN: Co třeba segm, jako v manualku “v té době”?
dotaz, AN, 7.12 typ koreference virus HIV - v tomto směru Příklad: Jehly přenášející virus HIV jsou příliš velkým rizikem . A právě to , že dnešní heroin je v tomto směru relativně bezpečný , způsobuje jeho zvyšující se oblibu . Kam byste vztahli v tomto směru? A čím? RO : Vztáhl bych to k uzlu “přenášející/přenášet”, ten heroin je asi bezpečný, pokud jde o přenášení viru HIV. Takže koreference ER, nebo SYN, pokud ER zrušíme. AN: Diky!
AN, 3.12 „zaměstnanci – každý ze zaměstnanců“ Poněvadž „každý“ v tektogramatickém stromě má substantivní platnost, v konstrukci „každý ze zaměstnanců“ anotujeme koreferenci od něj, PP „ze zaměstnanců“ necháváme bez šipky, jako závislý uzel. Srov. (13)Podle přesvědčení majitelů dosáhla prosperity zejména proto , že zaměstnává lidi , na které { coref_gram, na „člověk“} se může spolehnout . (14) Kritéria výběru jsou přísná . (15) Každý { coref_text, typ=0 na „který“} ze zaměstnanců musí být odborníkem ..+M
AN, 3.12 bridging na spojku Je možné však i bridging na spojku, pokud je to ze sémantického hlediska logičtější. Srov. Saldo běžného účtu platební bilance podle odhadu dosáhlo vloni cca 600 mil . USD , tj . téměř 2 % HDP .
I když letos a
{bridging, typ_CONTRAST na „vloni“} příští rok je nutné počítat se zpomalením růstu vývozu a zrychlením růstu dovozu , prognózujeme , že saldo přesto zůstane kladné ve výši 300 - 600 mil . USD ročně .
+M
schůzka_2.12 bridging na spojku nebo nepropojeny koreferencni retezec pripad Pert a Pavel - vlastnici - Petr a Pavel - Petr. Od posledniho Petra delame identickou sipku na predchoziho Petra. Ztraci se navaznost, ale zachova se koreference. –> M
schůzka_2.12 oznacovani casti NE podle smyslu - pokud cast NE ma nejakou slusnou referenci, tak to oznacime. Pokud ne, radeji nechame neoznacene. Ceske Budejovice - Ceske Budejovice: spojime jenom Budejovice, ne Ceske; ale pokud je v nazvu neco, co potom prirozene vstupuje do samostatneho referencniho retezce, oznacime to. Napr. (nejaky hezky priklad?) +M
schůzka_2.12 nekoreferencni nebo neuplne koreferenci NP s nespecifickou referenci, vetsinou abstraktni nebo dejova, vyjadrene casto stejnym lexemem a porad se opakujici (inflace ve trech vyznamech prez cely text) NEVIME, RESIME. - 1) skoda neoznacit, ke kohezi prispivaji. 2) tezke, dlouhe a nejednoznacne reseni, co je koreferencni, co ne, co je treba cast-celek 3) zadny stroj ty drobne rozdily nikdy neodhali
schůzka_2.12 segm pokud chceme odkazat na segment textu (treba i uvnitr jedne vety), ktery neni technicky zachytitelny, davame “segm”. Nesmime s tim vsak prehanet. Musi byt opravdu pritomny jednoznacny anaforicky odkaz. Napr. segm oznacime v pripade Šedesát tři vězňů , kteří vykonávají trest odnětí svobody v České republice , požádalo za první půlrok o předání do věznic na území Slovenska. Informoval o tom včera tiskový mluvčí generálního ředitelství Vězeňské služby ČR Eduard Vacek. Dodal, že loni podalo tuto žádost 200 odsouzených. Take v Chtěl jsem být největším ekonomem na světě, největším milencem na světě a největším jezdcem na světě. Vzhledem k pokročilému věku třetí cíl už nestihnu. –> zmenit v M
schůzka_2.12 vztah v paru Karel Dyba - ministerstvo, pokud neni primo uvedeno, ze Dyba je ministr, a vime to jenom ze znalosti sveta zadny +M
schůzka_2.12 bridging vztah v paru ministr Karel Dyba - ministerstvo propojime ministr a ministerstvo vztahem FUNCT_P (duvody - 1) u bridging nemusime dodrzovat retezec, takze neni potreba vest nasilne na ridici uzel; 2) bridging vztahy se snazime pokud mozno oznacovat u slov, ktera ty vyznamy maji v lexikalni semantice) +M
schůzka_2.12 odkaz typu exoph dodáváme pouze v případě opravdové exoforiké deixe (ukazani prstem), nikoliv jakykoli mimojazykovy odkaz. Např. oznacujeme v dialogu “tahle budova je Sternbergsky palac”, nikoliv vvsak konstrukce typu “pristi rok”, “v soucasne dobe” apod. +M
schůzka_6.11 řetězec Petr – to dítě – Petr: opačný vztah hyperonymie. řetězec Petr – to dítě {coref_text, typ SYN na “Petr”} – Petr {coref_text, typ SYN na “dítě“}. ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení. ————– RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec.
JP: Proč se “Petr - to dítě” anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER. AN: tak to ER asi zrusime, co myslite? Petr - to dite v podstate taky neni zadna poradna hyperonymie, jenom jinak pojmenovany objekt, a podobnych pripadu, ktere znacime SYN je spousta. Ostatni pripady z teto skupinky se rozdeli na 0, SYN a NR
schůzka_6.11 adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.) řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky) OK
schůzka_6.11 „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení. je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST, protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční. +M
dotaz RO Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují. Př. nadpis “Cizinec jako našinec”, v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat? Někde se to ale jako antecedent dá brát - když je třeba v nadpisu “Václav Klaus”. AN: myslím, že by se to stejně melo anotovat - jiný nástroj pro propojení nadpisu a textu článku nemáme a je dobře to mít propojené. Také technicky záhlaví jde potom vždy oddělit OK
dotaz JP Jakým typem koreference spojovat uzly, z nichž jeden je vyjádřen zkratkou (např. ČR - Česká republika, ODS - Občanská demokratická strana)? Anotuji to jako SYN, i když se pochopitelně nabízí i typ 0. AN: raději SYN +M
dotaz JP Jak anotovat tento případ? V jedné větě je ”…někdejší ministr vnitra Barák…“, o několik vět dál je “do funkce ministra vnitra nastoupil Rudolf Barák…”. Jako typ 0 se samozřejmě propojí Barák-Barák. Ale co s uzly “ministr” a “ministra” (příp. “funkce”)? Prozatím to nespojuji, ale taky by bylo možné to projit např. koreferencí typu NR. AN: nepropojovala bych to - v pozici antecedenta 'ministr' visi jako zavisky na Barak, navic 'ministry' tady nejsou koreferencni OK
dotaz JK Jak řešíte koreference na pomezí SYN a 0? Mám na mysli takové případy, kdy jsou propojeny dva totožné uzly, ale jejich poduzly se liší (případně chybějí). Např. dvojice: společnost - akciová společnost - společnost Incheba; Vlček - ředitel J. Vlček - Jiří Vlček; ministr financí - ministr - tento ministr atd. AN: vždy jako typ 0 +M

Data

Train-1

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081016_Anja.zip 28 479 7190 AN 16.10.2008 8.12.2008 cmpr9410_001 - lnd94103_106
data_20081016_Radek_Ocelak.zip 31 498 8922 RO 16.10.2008 10.11.2008 lnd94103_116 - ln94202_75
data_20081016_Jan_Krivan.zip 31 496 9305 JK 16.10.2008 2.12.2008 ln94202_84 - ln94204_78
data_20081016_Jiri_Pergler.zip 24 246 4068 JP 16.10.2008 6.11.2008 ln94204_87 - ln94206_29
data_20081105_test_shody.zip 3 41 585 AN 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 RO 5.11.2008 10.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JK 5.11.2008 2.12.2008 ln94206_38, ln94206_56, mf920922_044
data_20081105_test_shody.zip 3 41 585 JP 5.11.2008 16.11.2008 ln94206_38, ln94206_56, mf920922_044
data_20081106_Radek_Ocelak.zip 41 816 13178 RO 6.11.2008 3.12.2008 ln94206_47, ln94206_65 - ln94209_50
data_20081106_Jan_Krivan.zip 63 801 14566 JK 6.11.2008 - ln94209_6 - ln95047_051
data_20081106_Jiri_Pergler.zip 19 404 6862 JP 6.11.2008 1.12.2008 ln95047_061 - ln95048_102
data_20081106_nahrada_Radek_Ocelak.zip 8 76 1343 RO 26.11.2008 3.12.2008 mf920922_054 - mf920922_125 náhrada za 83 vět (1610 slov) souboru ln94208_11
soubor ln94208_11 1 83 1610 AN - 1.12.2008 ln94208_11

Train-1/2

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081202_Radek_Ocelak.zip 57 1029 15554 RO 2.12.2008 - mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028

Train-2

data # souborů # vět # slov anotátor odesláno vráceno soubory poznámka
data_20081202_Jan_Krivan.zip 63 1010 15951 JK 2.12.2008 - cmpr9415_038 - ln94203_89, lnd*
data_20081202_Jiri_Pergler.zip 30 502 8505 JP 2.12.2008 - ln94203_98 - ln94205_84
data_20081208_Anja.zip 30 510 8454 AN 8.12.2008 - ln94205_93 - ln94207_93

Zajimavé/problematické řetězce

AN: posloupnost “heroinů” (Ind94103_086):
(1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s heroinem a hospitalizací ze stejného důvodu .
(2) Jen za rok 1992 stoupla v New Yorku ” návštěvnost “ oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků této drogy .
(3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry .
(4) Od té doby ( tj . přibližně po třicet let ) byl černý trh tímto opiátem přehlcován , a tak jeho cena logicky výrazně poklesla .
(5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě .
(6) Současný heroin je také mnohem čistší a jemnější než dříve .
(7) V běžném vzorku sedmdesátých let byla pouze 3 - 4 procenta čisté suroviny .
(8) Nyní jsou k dostání balíčky obsahující až 80 procent čistého heroinu .
(9) Droga je tedy tak účinná , že ten , kdo ji užívá , se snadno dostane do ” pohody “ kouřením nebo šňupáním .

Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci.

RO: “Jak se vám zamlouvá Pragobanka Cup?” “V tomhle termínu takováhle akce chyběla.”
Byl bych pro to, označovat “Cup” - text. kor. O - “takováhle”. Zatímco zájmeno k ní odkazuje, “akce” už s ní koreferenční není. (Je to něco jiného než “tato akce”.)
JP: A co třeba vést z uzlu “akce” bridging šipku typu SUB_SET (na “cup”)? Vypadá to sice trochu divně vzhledem k tomu, že “akce” je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu “takováhle” jasnou referenci.

RO: “Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo.” - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo “po revoluci roku 1848”.

JP: “Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem.” Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.)

JP: “Kdo volil Hnutí za demokratické Slovensko (…), volil Moskvu…” Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP “Rusko” v předchozím textu.

Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení)

Honza Krivan, 8.10.2008

1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.

2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole… To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny.


[ Back to the navigation ] [ Back to the content ]