[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
anotace-rozsirene-koreference [2009/02/03 23:50]
ufal
anotace-rozsirene-koreference [2012/04/11 15:45]
ufal
Line 2: Line 2:
 Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.
  
 +===== PDT 2.0 =====
 +[[PDT 2.0]] na samostatne strance
  
 +===== PEDT =====
 +
 +[[PEDT]] na samostatne strance
  
  
Line 20: Line 25:
   * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]   * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]
   * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]]    * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]] 
-  * Otázky - odpovědi - diskuze (do 6.11.): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/otazky_odpovedi_diskuze.doc| DOC]] 
   * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]   * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]
-   * //**NEW!!!**// [[Příklady k zatím nezavedené bridging skupině ANOF]] (nekoreferenční anafora - metajazyk, //takový// apod.)+   * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF|Příklady k zatím nezavedené bridging skupině ANAF]] (nekoreferenční anafora - metajazyk, //takový// apod.) 
 +  * Mezianotatorska neshoda [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/neshoda.pdf | PDF]] 
        
  
Line 32: Line 38:
 ===== Anotátoři ===== ===== Anotátoři =====
  
-  * **JK**: * Jan Křivan +  * **RO**: Radek Ocelák 
-  * **RO**: Radek Ocelák+
   * **JP**: Jiří Pergler    * **JP**: Jiří Pergler 
   * **AN**: Аня Hедолужко   * **AN**: Аня Hедолужко
 +  * (dříve také: **JK**: Jan Křivan)
  
  
Line 48: Line 54:
  
  
 +===== Diskuze =====
  
 +[[Diskuze]] na samostatné stránce.
  
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
-===== Diskuze ===== 
- 
-|              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^ 
-^ RO 28.1. | bridging "souřadnost"?  | Zdá se mi, že by se občas hodila kategorie bridgingu, kterou už kdysi  navrhoval Honza, něco jako vztah společného členství v množině. Občas se do textu nějak uvádí B, které je jaksi souřadné s A, např. "trh zlata" - "trh ropy", "poslanec A" - "poslanec B" a když tam není kontrast ani zahrnující pojem, zatím to můžeme označit leda REST. (Musela by se asi určit priorita: pokud je tam něco nadřazeného (u těch poslanců třeba sněmovna), tak SET-SUB nebo PART-WHOLE, a tahle souřadnost jen v případě, že SET/WHOLE chybí, abychom nemuseli připojovat členy podmnožiny k množině a pak ještě mezi sebou.) Ale navrhoval bych to zavést asi jen v případě, že by to neznamenalo pomalejší práci Tredu. **AN:** Spis se bojim, ze to zpomali vasi praci - vyhledavat elementy mnoziny, a pak jeste hledat preference, jestli tam je nadrazeny clen apod. Co myslite?  **JP:** Mně to přijde jako celkem zbytečné, protože ten významový vztah se mi tam nezdá tak těsný, resp. zdá se mi volnější než některé jiné vztahy, které se taky neanotují (např. ten vztah ČR -- vláda). Někdy navíc jdou tyto vztahy označit jako CONTRAST. **RO:** Dobře, já na tom netrvám. Takže aspoň výrazné případy tohohle, pokud tam není kontrast, můžou jít do REST. OK? **AN:** urcite muzou| | 
-^ RO 28.1. | obecný - jednotlivý případ SET-SUB | Ujišťuju se, kdyžtak mě prosím opravte: Vztah obecný případ - jednotlivý případ anotujeme jako bridging SET-SUB. Např. "Nový VW Golf je vybaven motorem o síle..." - "Dostali jsme možnost se novým golfem projet." Je to myslím logické už proto, že první výskyt bychom anotovali jako koreferenci s "Nové golfy", a pak by vztah SET-SUB byl nesporný. Totéž je možno i na úrovni abstraktnějších jmen? Vymýšlím si příklad: "Trestní sazba za zpronevěru je x let." - "Zpronevěra, které se dopustil XY..." Opět SET-SUB? **JP:** Já to tak dělám, i když nevím, jestli je to úplně správně, zrovna jsem se na to chtěl na schůzce zeptat. Připadá mi, že je to přece jen trochu něco jiného než klasický vztah SET-SUB, a tak mě napadlo, jestli by protiklad SET/PART, který se mi poslední dobou často zdá trochu problematický, nešlo využít právě k tomuto rozlišení - např. SET používat pro to obecné-konkrétní, zatímco pro běžné případy vyhradit PART. Ale to je spíš jenom takový nápad, než že bych si za tím nějak stál, navíc nevím, jestli má v této fázi anotace dělat takové změny... **RO:** Účelné změny podle mě rozhodně smysl mají, právě proto, že jsme celkem na začátku a devět desetin korpusu podle nich můžeme ještě udělat. Tenhle návrh mi přijde docela dobrý (taky jen předběžně). **AN:** Taky bych podobne priklady anotuju jako SET-SUB. Co se tyce takoveho rozdeleni SET a PART, nejsem si jista, ze to ten problem zjednodusi. Probereme to na schuzce - sbirejte priklady, pokud se znovu objevi  | | 
-^ JP, 16.1.  | uzly s funktorem INTF | Má se anotovat koreference u uzlů s funktorem INTF? Narazil jsem na to ve větě //"Vím, že je **to** ode mne, laika v dotyčném oboru, velmi odvážné, **pouštět se** do polemik s renomovanými experty."//   **AN:** neanotovat - správně nebo nesprávně, ale je to označeno atomický uzel, falešný subjekt apod. tedy nemůže mít referenci a koreferovat | | 
-^ RO 4.1.  | "za Prahou" - "tu" | Pokud vím, máme anotovat i anaforická adverbia typu "tady", "zde". Narazil jsem na problematický případ: "za Prahou" - "části města" - "tu". "Město" je koreferenční s "Praha", "tu" neznamená "v Praze", nýbrž "za Prahou", ale když to odkážu k "za Prahou", automaticky se to spojí s "město". Řešit segmentovou koreferencí? Anebo je to další příklad toho, že kde je jasná anafora, nedá se vždy mluvit zároveň o jasné koreferenci, a argument pro částečné odlišení těchhle vztahů? **JP:** To je obecný problém, jak anotovat výrazy s předložkou. Kromě místních určení se to často týká ještě určení časových. Tak např. výrazy "před válkou" a "po válce". Oba tyto výrazy jsou reprezentovány uzly s lemmatem "válka", rozdíl mezi nimi je zachycen pouze subfunktorem (before/after). Je tedy otázka, jak anotovat vzájemný vztah. Kdyby se vycházelo z lemmatu toho uzlu, je to koreference, kdyby se brala v úvahu i informace ze subfunktoru, je to bridging contrast. V tom případě by se ale nemohla značit koreference ani mezi uzly "před válkou" a "válka" (např. ve větě, kde by "válka" byla podmětem) a ani mezi uzly "za Prahou" a "město". Další pěkný příklad je dvojice "před začátkem utkání" a "při rozcvičování". Zde je situace obrácená - když se vezme v úvahu i význam předložky, zachycený subfunktorem, je to koreference, nicméně mezi referenty samotných substantiv žádný označitelný vztah není.  **AN:** Krásné příklady!!! Jenom teoreticky se to vyřešit nedá, musíme se jenom dopmluvit, aby to bylo jednotně. Jak jste to anotovali? Nabizí se mi spíše to řešení orientovat se na holá jména bez předložek, aby vždy byla propojená Praha a Praha. Na škodu skutečné koreference.| --> M, EH| 
-^ JP, 23.12.  | technický problém s gramatickou koreferencí  | Narazil jsem na problém související s propojením textové a gramatické koreference: //"...očekávají návštěvu sparťanského prezidenta Macha s manažerem Nehodou, kteří by měli podat vysvětlení. (...) Musí zasáhnout manažer nebo prezident klubu."// V první větě je výraz "který" koreferentní jak s "Machem", tak s "Nehodou", a protože jde o koreferenci gramatickou, nelze ji nahradit bridgingem. Problém je, že o několik vět dále jsou uzly "manažer" a "prezident", které jsou každý zvlášť koreferentní s "Nehodou" a "Machem", což ale nejde zaznačit, protože koreference se v obou případech automaticky odkazuje na uzel "který", v důsledku čehož je pak "prezident" označen jako koreferentní s "manažerem". Řešil jsem to tak, že jsem vedl od "manažera" a "prezidenta" bridging na "který", což ale není ideální.  **AN:** Jirko, bylo to jenom jednou? Melo by se to spis vyresit technicky. Pokud se to opakuje, meli bychom umet rucne zrusit automaticke propojeni retezcu. **JP:** Zatím jsem se s tím setkal jenom jednou, takže to asi nebude tak častý případ. Vyřešit by to mělo jít jednoduše tím, že by v případě, že od jedoho uzlu vede víc než jedna koreferenční (ne bridgingová) šipka, pro tento uzel neplatilo to automatické propojování. | --> JM| 
-^ JP, 23.12.  | bridging typ FUNCT  | Kde všude se dá použít vztah FUNCT? Zatím je to pokud vím tak, že u typu FUNCT musí být na jedné straně vztahu výraz s rysem [+person]. Nešlo by to rozšířit i na jiné případy? Např. by podle mě bylo vhodné nějak jednotně označovat vztahy typu "Česká republika - vláda", "ČR - poslanecká sněmovna" nebo "Praha - radnice". A vzhledem k tomu, že tyto vztahy jsou významově blízké vztahům anotovaným jako FUNCT (a taky vzheldem k tomu, že tento typ není alespoň v mém případě tolik vytížen), se mi zdá vhodné používat typ FUNCT i pro ně. Pak mám ještě otázku, jestli jde jako FUNCT označovat i vztahy typu "ČR - předseda vlády", které jsou poněkud významově volnější. **AN:** ty vztahy bych neanotovala vubec, myslim, ze jsem to psala i v manualu, je to prilis vagni, prilis zalezi na znalostech sveta a pripomina sirokou semantickou sit| | 
-^ JP, 23.12.  | výraz "obdobně"  | Jak řešit tento případ? //"SAPO byl silně zastaralý ještě před svým dokončením; hlavní zájem VÚMS se tou dobou soustředil již na další projekt, elektronkový počítač 1. generace EPOS 1. Ten bohužel dopadl obdobně; byl opuštěn ve stadiu nedokončeného funkčního modelu..."// Výraz "obdobně" odkazuje na předchozí kontext, ale zřejmě to není koreference a ani není úplně jednoznačné, k čemu ho odkázat. Kromě toho by se u něj ještě dala označovat kataforická koreference na celou část věty za středníkem (která je v příslušném souboru vedena jako samostatná věta). Udělal jsem to tak, že jsem tam označil tuto kataforu a zároveň jsem dal bridging vztah typu rest na sloveso "být" v předchozí větě. **AN:** Proc ne? I kdybych ten REST bych asi neanotovala| | 
-^ JP, 22.12.  | výraz "potom"  | Anotuje se nějaký vztah u výrazu "potom"? Např. //Zátah však pouze znepříjemnil život několika gangsterům zadrženým na 48 hodin - potom museli být pro nedostatek důkazů propuštěni.// - je tu určitě nějaký vztah mezi "potom" a "48 hodin", je ale otázka, jestli zrovna koreference... Podobně je tomu u výrazu "proto". **AN:** Ani potom ani proto neanotujte. Neni to ani koreference, ale spise diskurzivni vztah, ktery je uz bud zachycen strukturou stromu a funktory anebo se bude anotovat zvlast pri anotaci dizkurzu, ktera se prave chysta Sarkou Zikanovou a kol. - viz na https://wiki.ufal.ms.mff.cuni.cz/projekt-anotace-diskurzu | | 
-^ RO, 20.12.  | anafora x koreference  | Shodli jsme se s Jirkou, že se nám zdá, že se v anotaci možná málo zohledňuje principiální rozdíl mezi anaforou a koreferencí. Nevím přesně jak, ale možná bychom s pomocí tohohle rozlišení mohli některé věci líp řešit. Je pravda, že většinou platí "kde je anafora, tam je i koreference", ale není to tak všude. Třeba v tom případě "Jak se vám zamlouvá Pragobanka Cup?" "Takováhle akce u nás chyběla" je "takováhle" anaforické, ale "takováhle akce" není koreferenční. Podobně výrazy "tak" nebo "tolik" můžou myslím být anaforické a přitom nezakládat koreferenci. Taky "segmentovou koreferenci" myslím v podstatě anotujeme tehdy, jestliže je tam anaforický výraz, jako třeba to Jirkovo "tehdy". **JP:** Jako další příklad může sloužit dvojice "v roce 1987" - "tehdejší podoba nezávislé scény", na kterou jsem právě narazil. Na rozdíl od výrazu "tehdy" má výraz "tehdejší" adjektivní platnost, takže z něho zřejmě nejde odkazovat vůbec, a celá NP není koreferenční vůbec s ničím, takže nejde použít ani ten segment. Problém tedy vidím hlavně u výrazů s funkcí adjektiv, dalším příkladem může být např. "tamní". **AN:** No jo, se vsim souhlasim. Krasne priklady! Ale co se da delat? Nemuzume prece delat dve paralelni anotace - anafory a koreference. Proto jsme se domluvili na tom, ze zakladni vztah bude koreference, i kdyby nebyla anaforicka. Tim prichazime o anaforu, ktera neni koreferencni. Nevim, jestli je to spravne reseni - nektera jina pracoviste se zakladaji vic na anaforu, protoze v anglictine urcite NP jsou vyznaceny clenem a je z toho jednoduseji vychazet. **RO:** Myslím, že by se to řešit dalo: ona ta anafora v 90% případů koreferenci slouží, takže by bylo opravdu zbytečné vést je separovaně, ale pro ten zbytek bychom mohli zavést kategorii (mezi bridgingem, aby se to nekomplikovalo?) "anaforický odkaz, který nezakládá koreferenci", protože kde se to vyskytne, má to na koherenci textu velký vliv. Vešla by se tam minimálně ta adjektiva (takový, tamní, tehdejší, podobný, obdobný), ale taky případ "instituce X" - "ve světě tyto instituce financuje stát" (=jiné instituce typu instituce X); třeba i výrazy "tolik", "tehdy", "tak", "takto", protože reference je u nich sporná; zatím u nich myslím označujeme koreferenci, jenom když předchází substantivní vyjádření typu "roku 1990", "tímto způsobem", což je spíš menšina případů. Jediný problém by byl stanovit, na jaký uzel je odkazovat - snad na NP v případě "takový", "obdobný", "tamní" a na řídící sloveso v případě, kdy jde o nějaký aspekt celé situace a neumíme to vztáhnout k některému objektu...  **JP:** Možná by to šlo řešit i tou kategorií REST... Další příklad je z textu na shodu: "V Bavorsku" -- "zdejší odboráři". Jinak v případě těch dalších výrazů jako "tehdy" a "takto" myslím problém není, ty mají referenci a dá se u nich anotovat koreference. A v případě, že není kam odkázat, se zde dá použít segment. **AN:** Ted kdyz o tom premyslim, vubec se mi ta zvlastni bridging skupinka nezda spatna. Probereme to taky na schuzce. | --> EH| 
-^ RO, 20.12.  | katafora  | Je možné vést v případě katafory šipku náležitě, čili opačným směrem? Občas se to objeví; nevím, jestli jsme to už řešili. **AN:** pri katafore je sipka dopredu, cili opacnym smerem nez normalne | |     
-^ RO, 20.12.  | koreference 0 x SYN  | Pořád nemáme jasno, co se anotuje jako typ 0 a co jako SYN. Měli jsme kritérium, že pokud se řídící jméno celé fráze shoduje, je to 0, pokud se liší, je to SYN; ale na minulé schůzce jsme to zase jakýmsi případem narušili - řídící jméno se shodovalo, ale přesto jsme rozhodli, že to bude SYN. (Nepamatuju si, co to bylo; víte někdo?) Druhá věc je, že pokud určíme nějaké takové formální kritérium, pak se to může snadno rozlišit automaticky a pro ruční anotaci by úplně stačila jedna kategorie. Co s tím? **JP:** Co to bylo, si nepamatuju, nicméně nabízí se to v případě nějakých ustálených spojení (nebo jde-li přímo o vlastní jména), např. "Česká republika" - "naše republika". V některých případech se zase nabízí anotovat jako typ 0, přestože řídící uzel není stejný, např. "firma Struktura" - "Struktura" **AN:** Nechme to zatim jak je. Na ten pripad se taky nepamatuju. Asi mate pravdu... Nakonec budou ty skupiny dve - NR bych prece jen nechala :-) **RO:** Jojo, na NR se určitě hodí na to generické užití. Co se týče 0 x SYN, nemyslím, že by nemělo smysl rozlišovat to, co rozlišujeme, ale v případě, že by totéž šlo automaticky (a já myslím že ano - rozlišit, jestli se řídící uzel koreferujících výrazů lexikálně shoduje nebo liší), možná bychom tu distinkci mohli využít spíš na něco, co počítač rozlišit neumí. Nevím, jestli by to v praxi fungovalo a šlo určovat, ale napadlo mě odlišit případy, kdy je nové pojmenování nějak sémanticky obohacené, přináší novou informaci o denotátu (novou buď proti všem předchozím jeho pojmenováním, nebo proti informacím obsaženým v celém předchozím textu). Např. "Michael Schumacher vyhrál další závod Formule 1..." - "Schumacher" (nic nového) - "..., říká jezdec"(informace nová proti předchozímu pojmenování / stará vzhledem k celému předchozímu kontextu) - "loňský mistr světa" (nová informace). **AN:** souhlasim, taky mi to prijde logicke| |       
-^ JP, 19.12.    | typ "jde o..."  | //"Ve čtvrtém kole druhé vlny kuponové privatizace do včerejšího odpoledne odevzdali občané Podniku výpočetní techniky zatím 1592000 kuponů. Jde o předběžné údaje, protože stále docházejí kupony ze vzdálenějších pošt."//\\ Má se anotovat koreferenční vztah mezi slovem "údaje" a počtem kuponů? Významově ta konstrukce odpovídá konstrukci "jsou to předběžné údaje", kde by se "údaje" jako koreferenční neanotovaly (anotoval by se uzel "to"), ovšem v tomto případě má sloveso "jít" pouze jeden aktant (aktor "údaje"). **AN**: V danem priklade bych to anotovala - proc ne, kdyz to struktura nezakazuje?   **RO** Taky jsem pro, jen bych raději odkazoval "údaje" na to "1592000", nikoliv na "kupóny" - možná se tím trochu míň míchá objektový jazyk s metajazykem. Mimochodem se mi zdá, že to je častější problém; docela možný (byť vymyšlený) příklad: "Povstalci zaútočili na vládní jednotky." Nechť následuje buď 1) "Tento útok si vyžádal čtyři oběti.", nebo 2) "Tuto zprávu přinesla agentura X."  Pokud se nepletu, anotujeme jak "tento útok", tak "tuto zprávu" jako koref. ER, i když se v jednom případě denotuje útok, ve druhém informace o něm. Nevadí to? **JP:** No, to může být docela problém, hlavně pokud by ten řetězec měl nějak pokračovat. Příklad: "Povstalci zaútočili na vládní jednotky. Tuto zprávu přinesla agentura X. Útok si vyžádal čtyři oběti." Pak by se jak zpráva, tak útok odkázaly na to sloveso, čímž by se vytvořil jeden koreferenční řetězec, podle kterého by byly "zpráva" a "útok" koreferenční, což by němělo být. Řešením by mohlo být používat ten typ ER právě a jen pro ty metajazykové případy (což by byly dvě mouchy jednou ranou, protože by tím ten typ ER dostal jednoznačné vymezení). Ovšem ten případ, který jsem popsal, by to neřešilo. Mohlo by ho to ale řešit, kdyby se v případě typu ER zrušil ten princip, že Tred automaticky vytváří jeden dlouhý řetězec. Akorát by se tím v tomto případě trochu zrušil princip tranzitivity koreference. **RO**: To zní zajímavě, nějakou takovouhle kategorii metajazykové koreference by asi stálo za to zavést. Měl bych k ní po ruce skutečný příklad: "Je to vůbec definitivní příměří? IRA se vyhnula ve svém prohlášení tomuto výrazu a místo něj zvolila bezpodmínečný klid zbraní." **AN:** Ten typ ER rozhodne pokladejte za takovou metajazykovou kategorii. Je to i v manualku. Na ostatni otazky zatim neodpovidam - premyslim.  | | 
-^ JP, 16.12.    | Česko - český stát\\ a český - český stát  | Jenom se chci ujistit, že to chápu správně: V případě dvojice "Česko - český stát" je správným řešením zrušit přednastavenou koreferenci "Česko - český" a místo ní vytvořit koreferenci "Česko - stát". A podobně v případě dvojice "český - český stát", tj. nepropojovat "český - český", ale "český - stát". Je to tak?  **AN**: Ano, chapes to spravne :-)| | 
-^ AN, 3.12    | "nekoreferencni koreference" typu NR| neoznačujeme pokud extence (dosah, možné denotáty) daných NP mají různý dosah, čili nejsou koreferenční, i když o nereferenčních jmenných frázích to není úplně logické tvrzení. Např. v násl. příkladě jsou dvě generické jména, ze kterých druhé je „specifičtější“ než první, tj. odkazuje na omezenější množinu, třídu denotátu. Srov. //(17) Stali jsme se také [dodavatel]dodavatelem Unileveru a dokázali splnit jeho zvýšené požadavky na __kvalitu__ . (25)U detergentu Toto jsme například řešili problém s udržením stálé __kvality__ //(tady – kvality pouze detergentu)//, protože jednotlivé partie byly nevyvážené// .\\ \\ **JP:** Takže chápu-li to správně, ve větách //"Podle náměstka Svobody potvrdilo společné jednání správnost úsilí našeho ministerstva o decentralizaci v rozhodování, kam půjdou finanční prostředky. V Nizozemsku jsou finance spravovány centrálně, ale rozhodování o tom, na co budou použity, přísluší mnoha uměleckým fondům."// se neoznačuje vůbec žádný vztah mezi //finančními prostředky// a //financemi//? V případě abstraktních pojmenování podle mě toto rozlišování dosahu někdy docela komplikuje situaci. Např. teď jsem anotoval článek pojednávající o tom, že Česko pravděpodobně převezme nizozemský model financování kultury, a kdyby se to mělo dělat důsledně, tak by se u všech výrazů s lemmatem "kultura" (které se tam vyskytovaly dost často) muselo rozlišovat, jestli jde o kulturu obecně, nebo o kulturu v Nizozemsku, nebo o kulturu v Česku, přestože je toto slovo většinou použito v dost abstraktním významu (podobně je tomu i s výrazy "financování" nebo "kulturní politika" - takto to možná vypadá, že je vždy jasné, jestli jde o nizozemskou, nebo českou kulturní politiku, ale když se v textu píše o tom, že Češi a Nizozemci spolu debatují o kulturní politice, tak vzniká zase potřeba vytvořit ještě třetí kategorii, tj. kulturní politiku v naprosto obecném významu). A taky by se pak měly řešit nějaké bridging vztahy typu část-celek mezi kulturou v Česku a Nizozemsku a kulturou obecně. V podobných případech, kdy jsou nějaké výrazy použity na vysokém stupni abstrakce, je podle mě rozlišování toho významového dosahu dost sporné (u té kultury je možné říct, že jde o totéž, jen na jiném místě) a vede to k tomu, že se neoznačují některé vztahy, které docela výrazně přispívají ke koherenci textu.  **AN**: Koreferenci mezi //finanční prostředky// a  //finance// bych neanotovala. Mas urcite pravdu, ze u tech abstrakt je rozlisovani takoveho toho dosahu a vubec koreference je slozity a neodonoznacny, prave proto bych tam koreferenci anotovala jenom v uplne jasnych pripadech. Co treba si predstavit situaci, ze cestina ma clen a navic, ze ho pouziva s abstaktnimi a generickymi NP. A pak si u toho problematickeho paru zamyslet, jestli "koreferujici" clen by byl s clenem (potom anotovat) nebo bez nej (potom neanotovat). Mozna je to ale blbost. U kultury si nejsem jista, potrebovala bych videt vetsi kontext. **RO** Dlouho už přemýšlím, že by bylo dobré zavést zvláštní kategorii pro věci tohohle typu, kde sice z nějakých důvodů nejde tvrdit koreference nebo některý z vymezených typů bridging, zato to jasně přispívá ke koherenci textu. Třeba proto, že se to lexikálně opakuje, s nějakým významovým posunem. (Občas už jsem tak využil REST, ale nevím, jestli je to schválené.)  Třeba ten případ "kulturní politika" vs. "nizozemská kulturní politika" - nemůžem tam určit identitu, možná ani vztah celek-část, ale jednoznačně víme, že to přispívá k textové koherenci, a proč tu informaci tedy nezachovat? (Např. Daneš v Mluvnici češtiny 3 uvádí "známost", významovou příbuznost referentů jako další důležitý prostředek koherence vedle identity referentů.) Samozřejmě by se to muselo dělat velmi uměřeně, nespojovat všechno možné; ale myslím že toho jsme schopni. Asi by nebylo třeba zavádět nic dalšího - stačí říct jasně, že tyhle případy spadají do REST. Byla by to přiznaně trochu subjektivní kategorie - "anotátorovi se to zdálo důležité pro koherenci textu", ale lepší než to neznačit vůbec. **AN:** Urcite to schvaluju jako REST! Absolutne souhlasim. | | 
-^ JP  | predikát vs. subjekt  | //"Prvotní apoštolská církev byla chudá. Přesto i ona měla jakousi finanční organizaci, dokonce svého pokladníka. Problémem je, že tímto prokazatelně prvním křesťanským ekonomem byl Jidáš Iškariotský. Neblahé stigma Ježíšova zrádce jako by se nad církevním majetkem vznášelo dodnes."//\\ Problematická je třetí věta: je tam koreference se slovem pokladník ve druhé větě, nicméně je otázka, od kterého z uzlů vést šipku. Trochu se tu nabízí vést ji od uzlu ekonom - mluví pro to jednak aktuální členění, jednak (především) výraz tímto. Nicméně je to predikát, čili správnější asi bude vést koreferenci od uzlu Iškariotský.\\ **AN**: To je identifikacni veta a obe jeji casti jsou referencni. V takovém případě anotaci podléhají obě části predikačního vztahu, ale přesto neanotujeme koreferenci mezi subjektem a jmennou částí přísudku – jejich koreference je dána syntaktickou strukturou stromu a může být podle potřeby dodělána automaticky. "Prvotní apoštolská církev byla chudá. Přesto i ona měla jakousi finanční organizaci, dokonce svého __pokladníka__. Problémem je, že tímto prokazatelně prvním křesťanským __ekonomem__ {coref_text na “pokladník”} byl __Jidáš Iškariotský__.{žádná koreferenční šipka} Neblahé stigma __Ježíšova zrádce__ {coref_text na “Jidáš Iškariotský”} jako by se nad církevním majetkem vznášelo dodnes.| | 
-^ AN, 10.12.    | koreference u #Gen| prosim neoznacujte - nedelalo se to systematicky, nam se to take systematicky nepovede| | 
-^ JP, 7.12.    | typ předhusitská církev - tehdy  | "Předhusitská církev si k obhospodařování darovaného majetku postupně vybudovala rozsáhlý správní aparát, v němž připadla důležitá role výběrčím desátků - děkanům. Tehdy se také definitivně oddělila správa ekonomická (in temporalibus, tj. ve věcech časných) od duchovní (in spiritualibus)."\\ K čemu odkázat slovo "tehdy"? Referuje to k předhusitskému období, ovšem v předchozím kontextu máme jenom předhusitskou církev. Napadá mě jedině odkázat to na adjektivum, což ale není ideální. **AN**: Co třeba segm, jako v manualku "v té době"? | | 
-^ dotaz, AN, 7.12    | typ koreference virus HIV - v tomto směru| Příklad: //Jehly přenášející virus HIV jsou příliš velkým rizikem . A právě to , že dnešní heroin je __v tomto směru__ relativně bezpečný , způsobuje jeho zvyšující se oblibu .// Kam byste vztahli //v tomto směru//? A čím? **RO** : Vztáhl bych to k uzlu "přenášející/přenášet", ten heroin je asi bezpečný, pokud jde o přenášení viru HIV. Takže koreference ER, nebo SYN, pokud ER zrušíme. **AN**: Diky!| | 
-^ AN, 3.12    | „zaměstnanci – každý ze zaměstnanců“| Poněvadž „každý“ v tektogramatickém stromě má substantivní platnost, v konstrukci „každý ze zaměstnanců“ anotujeme koreferenci od něj, PP „ze zaměstnanců“ necháváme bez šipky, jako závislý uzel. Srov. //(13)Podle přesvědčení majitelů dosáhla prosperity zejména proto , že zaměstnává lidi , na které //{ coref_gram, na „člověk“}// se může spolehnout . (14) Kritéria výběru jsou přísná . (15) Každý //{ coref_text, typ=0 na „který“}// ze zaměstnanců musí být odborníkem .//.|+M | 
-^ AN, 3.12    | bridging na spojku | Je možné však i bridging na spojku, pokud je to ze sémantického hlediska logičtější. Srov. //Saldo běžného účtu platební bilance podle odhadu dosáhlo vloni cca 600 mil . USD , tj . téměř 2 % HDP . 
-I když letos a// {bridging, typ_CONTRAST na „vloni“} //příští rok je nutné počítat se zpomalením růstu vývozu a zrychlením růstu dovozu , prognózujeme , že saldo přesto zůstane kladné ve výši 300 - 600 mil . USD ročně .//|+M | 
-^ schůzka_2.12    | bridging na spojku nebo nepropojeny koreferencni retezec| pripad Pert a Pavel - vlastnici - Petr a Pavel - Petr. Od posledniho Petra delame identickou sipku na predchoziho Petra. Ztraci se navaznost, ale zachova se koreference.| --> M | 
-^ schůzka_2.12    | oznacovani casti NE| podle smyslu - pokud cast NE ma nejakou slusnou referenci, tak to oznacime. Pokud ne, radeji nechame neoznacene. Ceske Budejovice - Ceske Budejovice: spojime jenom Budejovice, ne Ceske;  ale pokud je v nazvu neco, co potom prirozene vstupuje do samostatneho referencniho retezce, oznacime to. Napr. //(nejaky hezky priklad?)// | +M | 
-^ schůzka_2.12    | nekoreferencni nebo neuplne koreferenci NP s nespecifickou referenci, vetsinou abstraktni nebo dejova, vyjadrene casto stejnym lexemem a porad se opakujici (inflace ve trech vyznamech prez cely text)| NEVIME, RESIME. - 1) skoda neoznacit, ke kohezi prispivaji.    2) tezke, dlouhe a nejednoznacne reseni, co je koreferencni, co ne, co je treba cast-celek 3) zadny stroj ty drobne rozdily nikdy neodhali|  | 
-^ schůzka_2.12    | segm | pokud chceme odkazat na segment textu (treba i uvnitr jedne vety), ktery neni technicky zachytitelny, davame "segm". Nesmime s tim vsak prehanet. Musi byt opravdu pritomny jednoznacny anaforicky odkaz. Napr. segm oznacime v pripade //Šedesát tři vězňů , kteří vykonávají trest odnětí svobody v České republice , požádalo za první půlrok o předání do věznic na území Slovenska. Informoval o tom včera tiskový mluvčí generálního ředitelství Vězeňské služby ČR Eduard Vacek. Dodal, že loni podalo __tuto žádost__ 200 odsouzených.// Take v //Chtěl jsem být největším ekonomem na světě, největším milencem na světě a největším jezdcem na světě. Vzhledem k pokročilému věku __třetí cíl__ už nestihnu//. | --> zmenit v M | 
-^ schůzka_2.12    | vztah v paru Karel Dyba - ministerstvo, pokud neni primo uvedeno, ze Dyba je ministr, a vime to jenom ze znalosti sveta   | zadny  | +M | 
-^ schůzka_2.12    | bridging vztah v paru ministr Karel Dyba - ministerstvo  | propojime ministr a ministerstvo vztahem FUNCT_P (duvody - 1) u bridging nemusime dodrzovat retezec, takze neni potreba vest nasilne na ridici uzel; 2) bridging vztahy se snazime pokud mozno oznacovat u slov, ktera ty vyznamy maji v lexikalni semantice)   | +M | 
-^ schůzka_2.12    | odkaz typu exoph          | dodáváme pouze v případě opravdové exoforiké deixe (ukazani prstem), nikoliv jakykoli mimojazykovy odkaz. Např. oznacujeme v dialogu "__tahle budova__ je Sternbergsky palac", nikoliv vvsak konstrukce typu "pristi rok", "v soucasne dobe" apod.   | +M | 
-^ schůzka_6.11    | řetězec Petr – to dítě – Petr: opačný vztah hyperonymie.          | řetězec Petr – to dítě {coref_text, typ SYN na “Petr”} – Petr {coref_text, typ SYN na “dítě“}. ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení.  -------------- RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec.\\ JP: Proč se "Petr - to dítě" anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER.                                **AN**: tak to ER asi zrusime, co myslite? Petr - to dite v podstate taky neni zadna poradna hyperonymie, jenom jinak pojmenovany objekt, a podobnych pripadu, ktere znacime SYN je spousta. Ostatni pripady z teto skupinky se rozdeli na 0, SYN a NR  | | 
-^ schůzka_6.11    | adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.)| řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky)                   | OK| 
-^ schůzka_6.11    | „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení.          | je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST, protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční.        | +M|  
-^ dotaz RO   | Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují.   Př. nadpis "Cizinec jako našinec", v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat? Někde se to ale jako antecedent dá brát - když je třeba v nadpisu "Václav Klaus". |AN: myslím, že by se to stejně melo anotovat - jiný nástroj pro propojení nadpisu a textu článku nemáme a je dobře to mít propojené. Také technicky záhlaví jde potom vždy oddělit    | OK| 
-^ dotaz JP   |Jakým typem koreference spojovat uzly, z nichž jeden je vyjádřen zkratkou (např. ČR - Česká republika, ODS - Občanská demokratická strana)? Anotuji to jako SYN, i když se pochopitelně nabízí i typ 0. |AN: raději SYN       | +M| 
-^ dotaz JP   | Jak anotovat tento případ? V jedné větě je "...někdejší ministr vnitra Barák...", o několik vět dál je "do funkce ministra vnitra nastoupil Rudolf Barák...". Jako typ 0 se samozřejmě propojí Barák-Barák. Ale co s uzly "ministr" a "ministra" (příp. "funkce")? Prozatím to nespojuji, ale taky by bylo možné to projit např. koreferencí typu NR. | AN: nepropojovala bych to - v pozici antecedenta 'ministr' visi jako zavisky na Barak, navic 'ministry' tady nejsou koreferencni  | OK | 
-^ dotaz JK   | Jak řešíte koreference na pomezí SYN a 0? Mám na mysli takové případy, kdy jsou propojeny dva totožné uzly, ale jejich poduzly se liší (případně chybějí). Např. dvojice: společnost - akciová společnost - společnost Incheba; Vlček - ředitel J. Vlček - Jiří Vlček; ministr financí - ministr - tento ministr atd.  | AN: vždy jako typ 0 | +M| 
  
  
 ===== Data ===== ===== Data =====
  
 +[[Přehled o anotovaných datech]] na samostatné stránce.
  
-==== Train-1 ==== +[[(Polo-)automatické kontroly dat]] na samostatné stránce.
- +
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ +
-| data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | 8.12.2008 | cmpr9410_001 - lnd94103_106 | | +
-| data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | | +
-| data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | | +
-| data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | | +
-| data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | 20.1.2009 | ln94209_6 - ln95047_051 | | +
-| data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | | +
-| data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slovsouboru ln94208_11 |  +
-| soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 | | +
-| data_20090127_test_shody_2.zip | 1 | 40 | 595 | AN | 27.1.2009 | - | ln95048_112 | | +
-| data_20090127_test_shody_2.zip | 1 | 40 | 595 | RO | 27.1.2009 | - | ln95048_112 | | +
-| data_20090127_test_shody_2.zip | 1 | 40 | 595 | JP | 27.1.2009 | - | ln95048_112 | | +
- +
-==== Train-1/2 ==== +
- +
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ +
-| data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | 4.1.2009 | mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028| po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla | +
- +
-==== Train-2 ==== +
- +
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ +
-| data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | - | cmpr9415_038 - ln94203_89, lnd* | | +
-| data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | 23.12.2008 | ln94203_98 - ln94205_84 | po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla | +
-| data_20081208_Anja.zip | 30 | 510 | 8454 | AN | 8.12.2008 | - | ln94205_93 - ln94207_93 | | +
-| data_20090106_Radek_Ocelak.zip | 76 | 1005 | 17067 | RO | 7.1.2009 | - | ln94208_101 - ln95046_096 | | +
-| data_20090106_Jiri_Pergler.zip | 39 | 503 | 8997 | JP | 7.1.2009 | 20.1.2009 | ln95046_106 - ln95049_058 | | +
-| data_20090119_Jiri_Pergler.zip | 40 | 498 | 7910 | JP | 19.1.2009 | 25.1.2009 | ln95049_068 - ln95049_138, mf920922_005 - mf930709_055 | zbytek do tisíce vět | +
  
  
  
-===== Zajimavé/problematické řetězce ===== 
-**AN:** posloupnost "heroinů" (Ind94103_086): 
-(1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu . 
-(2) Jen za rok 1992 stoupla v New Yorku " návštěvnost " oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků __této drogy__ . 
-(3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry . 
-(4) Od té doby ( tj . přibližně po třicet let ) byl černý trh __tímto opiátem__ přehlcován , a tak __jeho__ cena logicky výrazně poklesla . 
-(5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě . 
-(6) Současný __heroin__ je také mnohem čistší a jemnější než dříve . 
-(7) V běžném __vzorku__ sedmdesátých let byla pouze 3 - 4 procenta čisté __suroviny__ . 
-(8) Nyní jsou k dostání __balíčky__ obsahující až 80 procent čistého __heroinu__ . 
-(9) __Droga__ je tedy tak účinná , že ten , kdo __ji__ užívá , se snadno dostane do " pohody " kouřením nebo šňupáním . 
  
-Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci. 
  
  
-**RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla."  
-Byl bych pro to, označovat "Cup" - text. kor. O - "takováhle". Zatímco zájmeno k ní odkazuje, "akce" už s ní koreferenční není. (Je to něco jiného než "tato akce".) 
-**JP:** A co třeba vést z uzlu "akce" bridging šipku typu SUB_SET (na "cup")? Vypadá to sice trochu divně vzhledem k tomu, že "akce" je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu "takováhle" jasnou referenci. 
  
-**RO:** "Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo." - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo "po revoluci roku 1848".+===== Zajímavé/problematické řetězce =====
  
-**JP:** "Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem." Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.)+[[Problemy|Zajímavé/problematické řetězce]] na samostatné stránce
  
-**JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu. 
  
  
-**RO:** "Společnosti k tomu účelu zvlášť zřízené mohou provozovat loterie...". "K tomu účelu" je sice koreferenční s "provozovat loterie", ale anotuji jako SEGM, protože "společnosti" taky visí na slovese a koreferencí by tu vzniklo asi nevhodné zacyklení. 
  
-===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== 
  
 +===== Rozšíření TrEdu =====
  
-Honza Krivan, 8.10.2008+Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory:
  
-1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.+[[Rozsireni Tredu|Rozšíření TrEdu]] - na samostatné stránce
  
-2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny. 

[ Back to the navigation ] [ Back to the content ]