[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
diskuze [2009/03/27 10:14]
ufal
diskuze [2010/09/27 12:08] (current)
ufal
Line 3: Line 3:
  
 |              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^ |              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^
-^ RO, 27. 3.| technické drobnosti| Mohli bychom příležitostně požádat Jiřího o úpravu programu, aby se v případě, kdy klávesou T nebo B zadáme šipku a pak nepotvrdíme konkrétní typ a zavřeme nabídku křížkem, žádná šipka nezakreslovala? Taky by byla příjemná možnost pohybovat se v horním okně kolečkem myši, protože Tred pořád někdy trochu nesmyslně roluje.| +^ JP, 27.9. | Uzly s lemmatem Oblfm | Mají se anotovat uzly s lemmatem Oblfm, když je tam jasná koreference? Např. ve větě //Korunu všemu nasadil ministr Dlouhý tvrzením, že nebyl hodnější ten, kdo vstoupil do KSČ v r. 1963 a byl vyhozen v r. 1969 či 1970 než ten, kdo vstoupil v r. 1977 a vystoupil v r. 1989 jako on.// u doplnění sloves "vyhodit", "vstoupit" a "vystoupit" |  | 
-^ RO, 26. 3.| P-FUNCT| Díval jsem se na záznam prezentace, že zavládla skepse k typu P-FUNCT. Já bych se ho rád zastal, řekl bych, že intuitivně už jsme si ho vymezili docela dobře. Je to podle mě něco jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity.  Proto trenér-mužstvo a premiér-vláda jsou funct, ale hráč-mužstvo a ministr-vláda SUB. Znovu bych teda navrhnul, aby ta entita ve funkci nemusel být jen jedinec, ale taky unikátní úřad, typ vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha. Z příkladů uváděných na prezentaci by opravdu farář-fara nemělo být nic (to je jako pes-bouda, maximálně REST:-)), ale farnost-farář už by byl P-FUNCT. Právník-kancelář nebo advokát-advokátní kancelář pravděpodobně nic, popř. rest (není to unikátní a není to už ani přibližně podmnožina nebo část); kdyby to byl ředitel nebo tajemník-advokátní kancelář, tak FUNCT. |  | +^ RO, 28.3. |postup při chybách ve stromě | Co v principu děláme, když je ve stromě evidentní chyba, např. kousek visí někde úplně jinde, než má viset? Anotujeme jakoby podle pořadí v textu s tím, že to bude ve stromě vypadat nestandardně? Nebo v takovém případě anotaci vynecháváme? **JP:** To by mě taky zajímalo. Že někde něco visí jinde, než by mělo, se občas stává, a je proto třeba rozhodnout, jestli se řídit podle smyslu, nebo podle té interpretace, kterou nabízí anotace (což ale občas není úplně možné, protože taková interpretace někdy vůbec smysl nedává). Na jinou evidentní chybu jsem narazil teď: //Nátlak na bosenské Srby musí pokračovat. Nemůže být ale uplatňován přes Slobodana Miloševiče, i když jeho prsty v Bosně sahají velmi daleko.// Ve druhé větě má patiens lemma #Gen, přestože by evidentně měl mít #PersPron (koreferenční s "nátlak". Pokud bych se měl řídit podle smyslu, udělal bych tam koreferenci, pokud podle chybné anotace, tak nic, protože u lemmatu #Gen se nic neanotuje. A další pěkná chyba: "Hradec Králové" jsem našel anotovaný tak, že řídící uzel je "Králová" a na něm visí "Hradec" s funktorem RSTR.  **AN:** Anotovat podle smyslu a chzbu hlasti mailem JM, ktery do dale preposle Honzovi Stepankovi |  | 
-^ JP, 21.3. | typ "řekl to..." | Často se stává, že se v textu objeví spojení "řekl to XX", přičemž zájmeno to odkazuje k celé předcházející větě. V rámci předchozí anotace pronominální koreference je to řečeno jako bridging, ale asi to není úplně správné a někde to dokonce může způsobovat problémy, např. zde: //"Kuchyňským nožem __ubodal__ v noci z neděle na pondělí třiačtyřicetiletý J. S. v kuchyni bytu v Pekařské ulici svou o jedenáct let mladší manželku. LN __to__ sdělil vyšetřovatel Krajského úřadu vyšetřování. Motivem __činu__, který pachatel sám ohlásil, byly déletrvající manželské neshody."// Výraz "to" ve druhé větě je zde anotován jako koreferenční s řídícím slovesem předcházející věty. Slovo "činu" ve třetí větě je pak koreferenční se slovesem "ubodal", ovšem nikoli s tím "to". Nebylo by tedy dobré tyto případy opravovat na bridging ANAF? Vím, že Radek jinde psal, že by to příliš komplikovalo situaci, protože např. v případě konstrukce "zmínil se o tom XX" by to podle významu naopak muselo zůstat jako koreference a byl by v tom chaos. Možná by se to ale dalo rozlišovat substitučním testem -- v případě, že jde zájmeno "to" nahradit spojením "tuto větu", je to ANAF, pokud ne (jako třeba u toho zmínil se -- nejde říct "zmínil se o této větě"), je to koreference...  **AN:** Souhlasim s Jirkou - ne vsude, ale podle smyslu pokud to patri pod ANAF, tak bych to opravovala. **RO** Moc se mi to nezdá, resp. není podle mě tak jednoznačné, že to zájmeno odkazuje na výpověď o situaci, a nikoli na situaci samu. Např. ten vyšetřovatel z případu určitě prostě informoval o situaci, aniž použil přesně danou větu (takže ani pro "říct" ten test moc nesedí. Jako metajazyk bych to snad bral jen v případě, že by předchozí věta byla v uvozovkách jako citace.) Takhle bychom jenom zkomplikovali shodu, která je teď automatická: co kdyby tam místo "řekl to" bylo "prohlásil to", "oznámil to", "sdělil to", "zmínil se o tom", "naznačil to"? Těžko bychom se ve všech případech shodli. Já bych tenhle typ do ANAFu nedával, podle mě je tam vždy nějaký odkaz k situaci samé. |   -->M |  +^JP, 2. 3.| Vztah "USA" -- "Američané"  | Jaký je vztah mezi výrazy ve větách //Jestliže schůzka v Camp Davidu a následný izraelsko-egyptský mír přišel zjevně o deset let dříve, a to ještě jen kvůli silnému tlaku __Američanů__, pro summit mezi Izraelem a Sýrií by mohla být nyní ideální doba. __USA__ udělaly v celém mírovém procesu rozhodující krok, když dostrkaly země Blízkého východu k prvnímu společnému jednání v Madridu//? Byl bych asi pro v takových případech dávat koreferenci typu 0.  **RO:** Podle mě je tu možné i normální chápání stát-jeho obyvatelé, tak bych radši nechal REST a nekomplikoval to. Radši se v takových případech trošku držet té formy, pokud to není jednoznačně proti smyslu, jinak se zas nikdy neshodnem, kde přesně je ta hranice, kdy je ještě obyvatelské jméno koreferenční se státem.| | 
-^ AN 6.3. | vysledky schuzky 5.3.| **1)** dohodli jsme se neanotovat casti pojmenovanych entit, pokud samy nejsou pojmenovana entita (Oddeleni pro vyzkum ... vyzkum, ministerstvo zemedelstvi - zemedelstvi, ale anotovat ustavni soud CR - CR) **2)** musim presne vymezit typ PART - jako ze anotujeme pokoj - strop, Nemecko - Berlin, mesto - ulice, ale ne mesto - dum, mesto - muzeum. K tomu by se hodil nejaky dobry otazkovy test. **RO**: co třeba otázka "je to část území?" - to by zařadilo stát-město; stát-region; město-ulice; např. oblast-jezero apod., ne už město-dům. Ale možná to nestačí na vyloučení případu město-parkoviště, pokud to nechceme. **3)** zavedli jsme skupinu ANAF pro nekoreferencni anaforicky vztah **4)** //technicke pozadavkyA//: "predanotace stejnych lemmat v danem souboru" - jde o to, ze nechceme redanotovat vsechna stejna lemmata toho mazani sipek bude s velkou pravdepodobnosti vic, nez jejich zavedeni. Chceme ale toto: Pokud otevreme soubor a vidime, ze vsechny (valna vetsina) uzly s danym stejnym lemmatem jsou koreferencni, tak je muzeme propojit jednim krokem. Treba v jednom souboru spojit vsechny uzly s lemmatem "dite", nebo "Durych". **5)** //technicke pozadavkyB//: Dalsi vec se tyka zbarevneni bridgingu. Momentalne mame, ze se barene ukazuji uzly, ktere jsou spojene s oznacenym a dale retezove nahoru. Chteli bychom to trochu zmenit. U textove koreference by to zustalo jak to je. U bridging by se zmenilo to, ze by se neukazal cely retezec, ale jenom ten uzel, ktery je propojen bridgingem s danym uzlem. To je to zuzeni. Na druhou stranu chteli bychom k tomu taky neco pridat, a to aby se blede modre oznacovaly vsechny bridgingy napojene na dany textove koreferencni retezec (ale primo, ne retezove). **6)**  odkaz typu segm neni vzdy koreferencni. Napr. cely text a pak "podobne problemy resime..." jeste neco?--> M|  +^JP, 2. 3.| Vztah "Japonsko" -- "Tokio" | Pokud vím, dohodli jsme se, že v případech, kdy název hlavního města referuje ke státu, budeme takový výraz anotovat jako koreferenční s tím státem. Možná by ale bylo přesnější tam dávat vztah P-FUNCT. Např. ve větě //__Japonské__ síly se na Filipínách vzdaly v roce 1945, těsně předtím, než __Tokio__ kapitulovalo.// Co vy na to? A další hezký příklad: //Vyloučení __bývalé Jugoslávie__ z Organizace spojených národů (OSN) je ospravedlňováno tím, že __Bělehrad__ již nereprezentuje __stát, který zanikl__.// Tady by ta koreference byla hodně problematická, protože by tam musela vzniknout konstrukce typu "x nereprezentuje x". **RO:** Já myslím, že tak jsme se dohodli už původně. Aspoň já tam v takových případech P-FUNCT standardně dávám, určitě to není koreference, ale třeba "Rusko-Moskva" jako stát-jeho vedoucí místa.| | 
-^ AN 28.2. | casti pojmenovanych entit| jak na to ted koukam, asi mame zavst pravidlo, neanotovat casti pojmenovanych entit v samostatnych koreferencnich retezcich. Snad to usnadni praci. Jeste to upresnim a probereme to nekdy na schuzce.| --> M|  +^RO 26. 1.| "zaměstnanci" - "každý zaměstnanec" | Už jsme se dohodli, jestli v podobném užití označujeme koreferenci, nebo SET-SUB? **JP:** Já tam dávám rozhodně koreferenci. **RO** Mám tu obzvlášť zapeklitý případ: "Výkonný __výbor__ ČMFS se sešel k prvnímu jednání. Kromě rozdělení kompetencí mezi __jednotlivé členy__ připravil odvolací dopis (...) předseda k dělení kompetencí mezi __členy__ __výkonného výboru__ uvedl: Naším záměrem je rovnoměrně rozložit úkoly na __všechny členy__." Nestálo by ještě za to vytvořit nějakou kategorii pro tenhle distributivní pohled na tutéž entitu? Jak koreference, tak SUB-SET mi tu přijdou dost divné. **JP:** V distributivnosti obecně určitě problém je, ale tohle mi přijde ještě docela dobré. Dal bych koreferenci typu 0 jenom mezi "výbor" a "výbor", a všechny "členy" bych propojil taky koreferencí typu 0. Tady myslím problém není - vždyť je tu možné všechny ty členy substituovat spojením "jednotlivé členy". Horší je to v takových případech jako "všichni účastníci dohromady mají hodně, ale každý účastník jednotlivě nemá nic". | | 
-^ RO 22.2. | počítače, kopírky - vše | Zájmeno "vše"/"všechno" není v základní pronominální anotaci, ale někdy je koreferenční: "X daroval Y počítače, kopírky apod. Vše v hodnotě 1 milión." Myslím že to můžeme anotovat standardním způsobem. **AN:** urcite. Diky!| --> M| +^RO 26. 1.| "stát"- "republika" jako FUNCT-P?  | Někdy se objevuje uzel "stát" jako výrazně nekoreferenční s "ČR", "republika" apod., např. když jde o financování ze státního rozpočtu (a ne z regionálních rozpočtů), státní sféru (x soukromou sféru). Dávám tam pak "stát" jako FUNCT, souhlasíte? **JP:** Jo, to jsem si taky říkal, že by se mohlo...  | | 
 +^JP, 18. 12.| koreference s větným antecedentem typu NR  | Slibovaný příklad: //"__Novinář se činovníka ptá na to, na co by se ptal občan, kdyby měl k tomu možnost.__ Činovníkovi je __to__ mnohdy nepříjemné, obtěžuje ho __to__."// U obou zájmen dávám typ NR, antecedentem je generická propozice s generalizací nad situacemi, tj. jde o opakované ptaní, které je ve druhé větě pojímáno genericky.  | | 
 +^AN, 13. 11.| vysledky schuzky  | **1) titulky: ** anotujeme, typ vztahu podle smyslu. Pokud vyrazna viceznacnost, tak mozna chapat titulek "generictejsim" zpusobem\\ **2) NR u #PersPron: ** pokud puvodni zajmenna koreference je genericka, menime typ O na NR\\ **3) koreference v predikacnich konstrukcich: ** zustava, jak bylo, t.j. standardni predikaci mezi subjektem a jmennou casti prisudku neanotujeme. Avsak pokud jmenna cast prisudku neprisuzuje vlastnost, ale ma vlastni referenci, muze klidne slouzit jako antecedent koreferencniho vztahu. Strucne receno, zachazime s predikacni casti jako se slovesem: neni predmetem anotace koreference, ale pokud musi, muze byt antecedentem.\\ **4) koreference adjektiv typu //vladni, statni//: ** anotovat, pokud maji specificky referent (typ 0) a neanotovat u generickych (NR) a v jinych pripadech.  **RO** ad 2 - ale jen v případech, kde řetězec dál pokračuje? U všech PersPron to přece rozhodovat nemůžem, je jich moc; a pak je zas otázka, jestli má smysl to dělat jen u některých.. **JP:** Já to dělám u všech... **RO:** U všech? Tak já to taky zkusím, ale bojím se, že si všeho nevšimnu - už jsem si dost zvykl jít po textu a na PersProny se nekoukat. | | 
 +^RO, 13. 11.| "jeden z X"  | Značíme častou konstrukci "jeden z (nejúspěšnějších podnikatelů...)" jako SUB-SET? Já jsem to zatím dělal, protože tam je funktor DIR1 a tou podmnožinou se to upřesní, ale nevím. **JP:** Jasně, značíme, to už jsme někdy řešili. **AN**: jo, jo , znacime | | 
 +^JP, 26.10.| Různé "důvěry"  | //Nejvíce důvěry vkládají občané ČR ve své nejbližší okolí a v sebe samé. Nejméně důvěry vkládají občané České republiky do politiků. Důvěru píšícím novinářům vyslovilo 58 procent obyvatel, starostům a primátorům 43 procent dotázaných. Vyšší procento důvěry v politiky se vyskytuje u potenciálních voličů ODS než u voličů opozičních stran.// Jaké jsou vztahy mezi těmi důvěrami? U posledních dvou vět je to poměrně jasnější, protože tam ty důvěry mají nějaké vlastní argumenty, které jsou s něčím koreferenční (s novináři či politiky). U prvních dvou vět by se to snad dalo označit za generickou, obecnou důvěru, která se v něco vkládá, ale problém je v tom, že to "nejvíce" a "nejméně" tam figuruje jako rozvití těch důvěr, takže koreferenci tam asi značit nelze. **AN**: Ja bych to vubec neznacila. | | 
 +^JP, 26.10.| Nejasná extenze u generických NP  | Celý článek pojednává o průzkumu mezi lidmi o tom, komu nejvíce důvěřují. A jsou tam věty typu //"Lidé důvěřují více svým partnerům než sobě samým.// Jaký je tady vztah mezi "lidmi" a "partnery"? Teoreticky vzato by tam mohla být dokonce i koreference, protože ty množiny jsou prakticky asi totožné, i když v jednotlivých případech ty jejich prvky nikdy totožné nejsou. Podobných vět je v tom článku hodně, např. ty, kde by se mohla označovat podmnožina (//Svému nejbližšímu nadřízenému věří 67 procent lidí. Nejméně důvěry vkládají občané České republiky do politiků.//) Já jsem tam nikde neoznačoval nic, protože by to bylo dost šílené, ale to asi není úplně dobrý argument... **RO** V tom druhém případě bych asi klidně vyznačil aspoň koreferenci 0 mezi "lidí"-"občané". V prvním případě bych neznačil nic, stejně je vztah už naznačen skrz to "svým". Extenze je důležitá, ale nemůžem ji brát vždycky úplně, občas je záměr textu jinej. | | 
 +^JP, 8.10.| Obrat v loňském roce vs. obrat letos  | //Její __obrat__ podle předběžných výsledků činí za loňský rok téměř 1133 miliardy korun, __zisk__ před zdaněním je vypočten na 64.8 miliónu korun. Letos by se měl __obrat__ pohybovat okolo 1.2 miliardy korun a __zisk__ by měl zůstat na úrovni roku 1994.// Má se anotovat nějaký vztah mezi obraty a mezi zisky? Ve skutečnosti to koreferenční není, i když syntaktická struktura se tváří, jako kdyby bylo (to časové určení tam nefunguje jako rozvití substantiva, ale jako doplnění slovesa), a možná by to tak i šlo chápat, pokud by se to bralo jako nereferenční. V případě, že by to ve druhé větě bylo pronominalizované, byl by tam zřejmě typ ANAF, ale v tomhle případě to anafora asi není. Pak se nabízí ještě REST...  | | 
 +^RO, 8.10.| Příklad mísení specifické a nespecifické reference v jednom řetězci  | Shodli jsme se kdysi, že je někdy nutné spojovat typ O a NR do jednoho řetězce, dobrý příklad je:  "Po **schůzce** Moravčík-Boross. ... **Setkání** (typ 0) premiérů Maďarska a Slovenska, které se uskutečnilo v neděli večer... ... Proto začal premiér Boross projevovat zájem o **setkání** (NR) s Moravčíkem. ... A tak se **setkání** (NR) Moravčík-Borros nejdřív odložilo, pak se uvažovalo o jeho zrušení, ale jelikož měli oba premiéři na **schůzce** (NR) zájem, dohodli se na kompromisu. ... **Schůzka** (typ 0) byla, ale neformální." Mísí se tam pohled na věc (schůzka) jakožto už proběhlou (specifikovanou) / jakožto teprve budoucí a nepříliš určenou. Je samozřejmě otázka, jestli jde ještě o tutéž entitu, ale koheze textu evidentně stojí na tom, že jde o schůzku mezi premiéry. Ale takových případů bychom asi měli mít co nejmíň, na tom se málokdy shodnem. **AN**: Vyborny priklad! **JP:** Podobný případ je: //Podle včerejších slov Evžena Teršla z firmy Trade Center měli squateři stejnou možnost získat Ladronku jako jiné organizace. Museli vyhotovit architektonickou studii stavby a __projekt__ na její využití. To squateři již jako nadace Ladronka učinili. Stavební část __projektu__ prý pro ně vypracovali studenti 3. ročníku Fakulty architektury ČVUT.// Ale nejsem si moc jistý, že by se tyto případy měly anotovat jako koreferenční...  |-->M | 
 +^RO, 2.10.|  případ koreference NR? | "Zvolen patriarcha. Patriarchou Československé církve husitské byl na příštích sedm let zvolen Josef Špak." - Anotuju podobné případy jako NR mezi patriarcha-patriarcha, je to dobře? **AN**: Jo, je to takove funkcni pouyiti, rozhodne blizsi generickemu nez referencnimu | | 
 +^RO, 27.9.| CONTRAST  | Častý typ kontrastu je takovýto: "Zatímco v Čechách bude slunečno, na Moravě se dají čekat bouřky." Tj. kontrast vyjádřený už mezivětným funktorem a dva kontrastní páry Čechy-Morava a slunečno-bouřky. Označujeme je v takovém typickém příkladě oba? Nebo označujeme jen ještě výraznější kontrast?  **JP:** Já to u podobných případů dělám oboje. **AN**: hmm... pokud je uz v synatakticke stukture funktor ADVS, tak to nema smysl oznacovat vubec | | 
 +^JP, 15.9. | případ pronominalizace s problematickou koreferencí  | //Za předpokladu, že se nynějšího zasedání Sejmu účastní všech __460 poslanců__ - což je ovšem předpoklad čistě teoretický, protože jen málokdy jsou přítomni __všichni__ - by __jich__ muselo pro novelizovaný zákon hlasovat 306.// Jak řešit vztah zájmena "jich"? V předchozí anotaci je tam označená koreference k předchozím poslancům, ale v podstatě je to spíš podmnožina, i když není to moc jasné. Taky jsem přemýšlel, jestli by nešlo dát koreferenci k "jich" a podmnožinu k "306", ale to má funktor COMPL, takže to by asi nebylo moc logické. (A mimochodem, v následující větě je pak výraz "taková většina", který na tuto větu odkazuje -- co s ním? **RO** Byl bych tady pro SET-SUB, řešili jsme to už ke 4. 5. A "taková většina" asi klidně ANAF, neřekl bych, že tam jde o přesný počet poslanců, spíš o podobně velký. **AN**: taky jsem pro SET_SUB a ANAF | | 
 +^JP, 14.9. | spojení "není tomu tak"  | Jak řešit referenci a koreferenci výrazů "tomu" a "tak"? Např. //Pro některé druhy dat a způsoby jejich zpracování jsou střediskové počítače (angl. mainframe) - a celá organizace práce kolem nich - dosud tím nejvhodnějším známým prostředkem. V mnoha jiných případech __tomu__ __tak__ ovšem není.// Intuitivně se mi zdá, že jsou oba ty výrazy nějakým způsobem koreferenční s celou předchozí větou. **RO** U toho můžou být ještě různé druhy - zatímco tady to podle mě jasná koreference není (anotoval bych nejspíš od "tomu" SEGM a od "tak" ANAF na sloveso přechozí věty), tak v jiném příkladě: "Za loňský rok dosáhly dánské investice v ČR pouze 13 miliónů DKK. Je tomu tak i proto, že..." mi to přijde jako pěkný typ 0 (od "tomu" byl už předanotovaný, od "tak" jsem ho označil). **JP:** Čili tam pak vznikne koreference mezi "tomu" a "tak"? **RO:** Jo. Ale nevím, co v tom prvním případě - možná lepší, než co jsem psal, by byla koreference NR mezi slovesem-"tomu"-"tak"; abychom to měli trochu jednotnější - buď jde o tutéž situaci (a pak typ 0), nebo o něco jako "stejnou situaci v jiném případě" (a pak NR). **AN**: A co je tam v syntakticke strukture? Neni mezi tomu a tak predikativni vztah> (jeden ACT, druhy PAT)? Pak by se koreference s tim, co je PAT (//tak//) neoznacovala vubec a TO bz se bud propojilo zajmennou koreferenci nebo prip. ANAF. Odkaz na segment bzch tam nedavala. **JP:** Ne, je to nějak jinak, nepamatuju si to teď přesně, ale tuším, že "tomu" je ACT a "tak" má MANN... **AN**: v tom pripade je to specifika syntakticke anotace (logicka struktura teto konstrukce je myslim predikativni) a muzeme to anotovat jak jste to nabidli - spise 0-0 v druhem pripade a veta - tomu.ANAF. - tak.coref_na_tomu v prvnim. **JP:** Spíš jenom taková zajímavost: teď jsem narazil ještě na příbuzný případ: "je tomu naopak" | ling.zajimavost| 
 +^RO, 28.8. | vztah různých časových určení, vztah SET-SUB| Pár otázek: Anotujeme systematicky různá časová určení v textech? Jako např. letošní rok - letos - minulý týden - nyní - červenec - 15. červenec... Já to v poslední době celkem pravidelně dělám, dávám tam vztahy koreference a WHOLE-PART, protože je to celkem jednoznačný případ části. +++ Anotujeme vztah množina-podmnožina v následujících typech případů? (Neumím posoudit, jestli ten vztah vyplývá ze syntaktické informace, nebo ne.) "Slavia patří ke 3 nejúspěšnějším klubům ligové historie." / "Zúčastní se špičkové české kluby, jako např. Slavia a Baník." A tam, kde mají A, B, C společný řídící uzel a jsou všechny podmnožinami D, anotujeme SET-SUB na ten řídící uzel, nebo zvlášť na každý člen A, B, C? **JP:** Ta časová určení dělám podobně, i když ne asi úplně důsledně. U obou těch příkladových vět to označuji a u toho posledního to dělám dost nahodile. **RO:** Tak dobře, dělejme to všechno. Ty časy je sice těžké všechny zachytit, ale zase je většinou dost jasné, jaký přesně vztah mezi nimi je. A to poslední bychom mohli nějak sjednotit, je toho hodně. **RO** To anotování podmnožin (SET-SUB a WHOLE-PARTpodle mě můžeme udělat dvojím způsobem - 1) pravidelně označovat řídící uzel, pokud je to CONJ (u jiných funktorů bych to radši nedělal), a jednotlivé uzly vždy tehdy, pokud to CONJ není - ušetřila by se tím občas práce u dlouhých výčtů. 2) Můžeme označovat vždy jen jednotlivé uzly - to by bylo jednotnější a asi s menším počtem neshod (spojující uzel by se prostě neoznačoval nikdy), na druhé straně je to občas nějaká práce navíc. Anjo? **AN** tak ten posledni pripad s A-B-C bych nabizela resit tak, ze pokud vsechny tri dohromady jsou porad jeste podmnozinou D, pak vest SUBSET mezi CONJ a D. Pokud A+B+C=D, pak koreferenci na spojku. Tedz variantu 1). | deska patri k deskam --> M| 
 +^RO, 30.7. | časový vztah PART-WHOLE?| Možná bychom mohli rozšířit skupinu PART-WHOLE o případy jednoznačných časových úseků, jako např. "utkání" - "první poločas" - "21. minuta" nebo "tento týden" - "úterý". Vágnější případy samozřejmě raději ponechat v SUB-SET. **AN**: souhlasim pro vsechny jasne pripady|--> M | 
 +^ AN, 7.5. | zapis ze schuzky| **1) vztah PART ** snazime se nepreskakovat intuitivni kognitivni tridy, cili anotujeme //Brusel - Belgie// a //Belgie - Evropa//, nikoli //Brusel - Evropa//\\ **2) vztah FUNCT** definujeme jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity.  FUNCT jsou napr. pary //trenér-mužstvo, premiér-vláda// apod. Entita ve funkci nemusi být jen jedinec, ale taky unikátní úřad, typ //vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha// apod. V pripade zanoreneho vztahu je dulezity poradek. (Polsko-FUNCT-[vlada)-FUNCT-premierke]. Pokud poradek je (Polsko - premierka - ... vlada), oznacujeme tri FUNCTy - (Polsko - premierka), (premierka - vlada) a (POlsko - vlada), pricemz uznavame, ze prvni sipka je v podstate zbytecna, ale kdyz ji tam davame, jeste nevime, jestli v nasledujicim textu bude vlada.Pary typu //hráč-mužstvo// a //ministr-vláda// nejsou FUNCT ale SUB, protoze nejsou unikatni. Pokud nazev funkce je v kontextu jmena tuto funkci vykonavaciho (ministr zemedelstvi Lux), sipka FUNCTu vede od "ministr", nikoliv od Luxu. Uzel "Lux" je propojen s vladou SUBSETem. Pokud vztah FUNCT je mezi primou zavislosti s APP, neoznacujeme ho (premierka vlady)\\ **3) REST pro "misto - obyvatel"** oznacujeme i v pripadech, kdy neni pojmenovana entita, cili nejenom u //Polsko - Polak//, ale take u //Polsko - verejnost// a //zeme - verejnost// v pripade ze jde opravdu o misto a jeho obyvatele \\ **4) koreference u sloves** nemenime, abychom neplodili koreferenci mezi slovesy samotnymi \\ **5)smer sipky** je vzdy podle vztahu v textu, nikoliv podle poradi uzlu ve strome \\ **6)milion a kontejnery** anotujeme stejne, cili //milion// a //tisic// se anotuji jako kontejnery a ne jako cislovky. Co visi pod nim se anotuje podle smyslu, cili //Polaci// v //Miloin Polaku// a //Polaci si zvolili prezidenta// nejsou koreferencni, zatimco v //Miloin Polaku// a //tito Polaci si neuvedomili ze// druhe Polaci jsou koreferencni s milionem \\ **7) Evropska unie** se anotuje jako unie statu Evropy nikoliv jako Ceska Republika, cili //evropska// se koreferuje s Evropou a //unie// poue s unii. | | 
 +^ JP, 5.5.| aféra Susko  | Mám text s nadpisem "Slovenská aféra Susko". Susko je přitom jméno nějakého člověka, jehož odvolání způsobilo tu aféru, a v textu se několikrát vyskytuje. Je otázka, jestli to jméno Susko spojovat se slovem "Susko" v tom nadpisu. Nakonec jsem to nespojoval, protože tam je to jako uzel s funktorem ID visící na slově "aféra", tj. jde zřejmě jen o název aféry.  **AN:** souhlasim. Spojovala bych to ale v pripade, pokud bych melo jiny funktor nez ID  | | 
 +^ JP, 4.5.| problematické případy pronominální koreference  | V textech se často vyskytují případy, kdy už je tam oanotovaná pronominální koreference, která ale ve skutečnosti úplně koreferenční není, přestože je tam pronominalizace. Několik příkladů: //V ČR podniká 80 zásilkových __firem__, nejvíce v Praze, kde __jich__ působí 35. __První nákup__ realizovala v severních Čechách, postupně __ho__ pořídí ve všech částech ČR. Dovoz ze států ESVO převýšil náš vývoz o 13.9 miliardy korun a __[ACT]__ __[PAT]__ z Evropské unie o 2.1 mld Kč.// Je to docela častý jev, co s tím? Co třeba ANAF? Někdy tam ale jde i jiný vztah, např. v té první větě by to mohl být SUB-SET.  **AN:** takova pronominalizace vetsinou je anaforicka, takze ANAF je tu na miste. Pokud tam vidite jasny subset, tak to urcite taky jde| | 
 +^ JP, 18.4. | vražda -- obvinění z trestného činu vraždy | Jak řešit vztah mezi vraždou (konkrétní čin) a následným obviněním z trestného činu vraždy? Jde o to, jestli výraz "čin" ve spojení "obivnění z trestného činu vraždy" chápat jako koreferenční s tou konkrétní vraždou, nebo ne, tj. jestli je to v tom kontextu vůbec referenční. Např. //(2) Jedenačtyřicetiletý invalidní důchodce J. M. z Trutnova, který v pondělí v ulici Záduší po násilném vniknutí do bytu své manželky __zastřelil__ dvěma ranami z ilegálně drženého revolveru svého tchána, strávil včerejší den již ve valtické vazbě. (3) Je obviněn z trestného __činu__ vraždy a omezování domovní svobody. (4) __Čin__ vykonal v opilosti.// "Čin" ve větě (4) je určitě koreferenční se "zastřelil" ve větě (2). Jde o to, jestli je s tím koreferenční i "čin" ve větě (3).  **RO** Já bych tady ten čin (3) a (4) propojil SET-SUB, jako obecný a konkrétní případ. | | 
 +^ JP, 15.4. | technické záležitosti | **1) Automatické propojování stejných lemmat:** Když se použije funkce automatického propojení stejných lemmat, nakreslí se koreferenční šipky i tam, kde už jsou, a vznikají tak páry propojené dvěma stejnými šipkami. **AN:** to je chyba - pisu to Jirkovi \\ **2) Automatické přesměrování bridging antecedentů:** Vzhledem k tomu, že teď Tred při odkazování pomocí bridging šipek automaticky přesměrovává šipku na poslední uzel propojený s antecedentem koreferencí, nejde už usilovat o to, aby byly bridgingem propojovány lexikálně vyjádřené uzly. **AN:** usilovat prestavame. Mela jsem dojem, ze jsme k tomu prisli na posledni schuzce. Mozna jsme to ale nerekli dost explicitne . **RO** Bylo by možná dobré to přesměrování bridgingu na bližší koreferenční uzel aplikovat ještě automaticky po skončení anotací na celý korpus, aby to bylo celé jednotně. Mám dojem, že i po tomhle upgradu ještě zůstávají nějaké nesjednocené případy. (Až narazím na nějaký příklad, napíšu.)| | 
 +^ JP, 15.4. | Malta -- maltský tým | V kontextu, kdy v textu máme výrazy "Malta" a "maltský tým" a "Malta" referuje k týmu, je třeba tyto výrazy (Malta, tým) propojit koreferencí. Jak je to ale s výrazem maltský, tj. adjektivem odvozeným od pojmenované entity? Má se to s tím propojovat taky? **AN:** nema, to je zrovna ten pripad, kdy se to maze. Jirko, neposlal bys mi prosim kontext? Diky. **JP:** //(4) S Kadlecem, či bez něho- to je klíčová otázka trenéra české fotbalové reprezentace Dušana Uhrina, kterou musí vyřešit před dnešním úvodním utkáním kvalifikace ME v 16.30 v Ostravě s __Maltou__. (21) __Malťané__ ovšem posledními výsledky nahánějí hrůzu- letos např. porazili Belgii 1: 0, Ázerbájdžán 5: 0 a remizovali v Bratislavě se Slovenskem 1: 1. (22) V maltském __týmu__ jsou dva pamětníci kvalifikace MS 1986, kdy čs. reprezentace na jejich hřišti ztratila bod po bezbrankové remíze- obránci Buttigieg a zvláště donedávna jediný krajánek Busuttil( hrával v belgickém Genku, ale vrátil se domů).// Navzájem se tedy propojí tři podtržené výrazy. A jaký je tedy přesně důvod toho, že to adjektivum se nepropojuje? **RO** Já myslím, že tady se adjektivum nepropojí s ničím, protože k týmu referuje řídící uzel a Malta-země tam není. Ale propojilo by se s Maltou třeba ve větě "čeští fotbalisté odletěli na Maltu" paralelně vedle řetězce referujícího k týmu. Nebo ne? **JP:** Tzn. v tomto případě je důvod ten, že "maltský" ve spojení "maltský" tým nereferuje k týmu, ale ke státu Malta? A dále - kdyby tam někde bylo spojení "maltský útočník", tak "maltský" referuje k týmu a ne ke státu? A ještě jeden případ - jak by se řešila koreference adjektiva ve spojení "maltský stát"? **RO** U útočníka to "maltský" může podle mě referovat k obojímu, je to různý výklad; v některých jiných kontextech, kde se nebude vůbec mluvit o "Maltě" jako týmu (řekněme "maltský útočník XY přestoupil z Madridu do Barcelony"), je to jednoznačně k zemi. "Maltský stát" bych v současnosti řešil jako "Českou republiku", do řetězce zapojoval jen řídící jméno, protože to je stejně koreferenční s tím, k čemu by případně referovalo to adjektivum.  | | 
 +^ JP, 15.4. | Siegl -- další reprezentanti | //"Nejdůležitější ovšem je připsat si tři body za výhru, tipuji 2: 0, řekl __Siegl__, který společně s __dalšími sparťanskými reprezentanty__ včera zrušil stav mlčenlivosti vůči novinářům."// Spadá tento vztah ještě do typu CONTRAST? A kdyby tam místo "dalšími" bylo "ostatními"? V tomto druhém případě bych to tam zařadil, v tom prvním nevím... **AN:** nespada. Nezaradila bych ani ten druhy pripad| | 
 +^ RO, 30. 3.| město - fotbalový tým| Ve sportovních článcích se velmi často označuje jménem města (země) nějaký sportovní tým, např. "Jablonec porazil České Budějovice 2:1." Navrhuju (protože to tak už sám dlouho dělám) spojovat jako koreferenční to, co v kontextu referuje skutečně k týmu (např. Baník - Ostrava - ostravští", a pokud tam totéž jméno vystupuje i ve významu města, tak spojovat s týmem RESTem.  Pokud je tedy automaticky předanotovaná koreference Ostrava(tým)-Ostrava(město), tak ji změnit; pokud je to Ostrava(tým)-Ostrava(tým), může se pak samozřejmě nechat. **JP:** Taky to tak už dělám. A podobně v případech jako "Česká republika porazila Německo" -- když v takovém případě výraz "Češi" refereuje k týmu, označuji ho jako koreferenční s "Česká republika" a neoznačuji tam žádný vztah typu místo--obyvatel. Akorát to pak trochu komplikují ta adjektiva odvozená od named entities, protože občas je těžké rozhodnout, jestli se např. "český" vztahuje k ČR nebo k týmu. Když už jsme ale u těch sportů, tam by se dalo řešit spousta věcí. Např. vztah Baník--hráč je zřejmě SET--SUB, vztah Baník--trenér zřejmě P--FUNCT. Co ale v případě, že kromě "Baník" a "hráč" je tam ještě "kádr"? Pak je zřejmě lepší propojovat "hráče" vztahem SET--SUB s "kádrem" než s "Baníkem". Jaký je pak ale vztah mezi Baníkem a kádrem? **RO**: "Baník" a "kádr" bych v tom případě propojil RESTem (protože čím jiným). Hráč pak může být vlastně SUB k oběma, ale primárně bych naopak raději vždycky označil vztah k "Baník" - protože jméno týmu se v těch textech objevuje vždycky, často v dlouhém řetězu, zatímco "kádr", "sestava" apod. jen občas. Vůbec je u toho skutečnost dost komplikovaná a nezřetelná, takže asi taky nevadí, když propojujeme např. Baník ve významu zdůrazňujícím spíš množinu hráčů na hřišti ("Baník porazil Slavii") s Baníkem ve významu celého klubu i s vedením a finančním zázemím ("Baník nakoupil posily"), abychom se dobrali aspoň nějaké shody. Taky jsem teď měl text o historii fotbalového mistrovství světa - např. tým "Rakousko" z roku 1958 a "Rakousko" z roku 1990 jsem spojoval koreferencí NR. **JP:** Hm, to je otázka, co s tím, když je to takhle v různých dobách. Ale pokud se shodneme, že tam je koreference, tak by to asi měla být spíš 0 než NR, ne? A ještě k tomu kádru -- já jsem vztah Baník--kádr dával jako PART, později (poté co jsme se rozhodli dávat PART jenom v jasných případech) jako SET--SUB. A vzhledem k tomu jsem pak ten vztah SET--SUB od hráčů odkazoval na kádr.  **RO** U těch týmů z různých dob jsem si říkal, že to je něco jako "loňská inflace" - "letošní inflace", kam dáváme NR, ale 0 je asi lepší. U fotbalového týmu se prostě musí počítat s tím, že se tam hráči střídají, a stejně je to pořád tentýž klub. Jinak bychom zas museli vymýšlet, kde je ta hranice; jestli rozdíl 10 let, nebo stačí jedna sezóna... Mít hráče-kádr-Baník jako zanořené podmnožiny zní logicky, akorát že hráči jsou tam vždycky, zatímco "kádr" jen občas; takže bychom občas narazili na "kádr" až na konci textu. Pak bychom museli všechny vztahy předtím zakreslené předělat... anebo předem kontrolovat článek, jestli se v něm nevyskytne "mužstvo" nebo "kádr". To je obecnější problém - občas se při tom zanořování množin nebo částí vyskytne entita, která tvoří nějaký mezistupeň a jejíž správné zařazení vyžaduje změnit něco vepředu, i když to bylo samo o sobě správně. **JP:** V podobných případech, kdy se ten mezistupeň vyskytne až někde na konci, ho jenom odkazuji jako podmnožinu příslušné nadřazené entity a předchozí vztahy nechávám, jak jsou. Podle mě to tak i celkem odpovídá logice endoforického odkazování. Vycházím taky z toho, že pokud se něco takhle oanotuje jako zanořené podmnožiny, tak se při počítačovém zpracování dá snadno pracovat s tím, že je vztah podmnožiny tranzitivní, tedy že když tam budeme mít "hráče" jako podmnožinu "kádru", tak se dá automaticky určit, že je "hráč" zároveň i podmnožinou Baníku. A proto nevadí, že se takoví hráči občas odkazují ke kádru a občas přímo k Baníku. |  -->M| 
 +^ RO, 27. 3.| nějaký podnik - stejný podnik| Ujišťuju se - když je na počátku specificky nevybraná entita a pak se odkazuje stále na tutéž, řadíme do do NR? Př. "Například muž, který pracuje v nějakém velkém podniku, se zakouká do sekretářky ve stejném podniku a začnou se scházet v nějaké kavárničcce stranou od toho úřadu". Pokud ano, je to něco jiného než třeba koreference většiny abstrakt, takže bude dobře to výslovně uvádět jako jistý podtyp NR. **AN:**je to moc slozity teoreticky problem - vsichni to resi a nemuzou vyresit. Davame tam zatim NR, a tu podskupinu vymezim **AN2:** porad o tom premyslim a nenachazim zadne argumenty, proc to tak vlastne delame. Pokud na jeden (i kdyz nevybrany) objekt referuje znovu, tak je to v podstate stejna situace jako kdyz se proste mluvi o neexistujicim objektu, jako o dinozaurovi nebo o nejake pohadkove postave. Diskurzem se vytvari fiktivni svet a v tom svete to uz jako by existuje. Tedy asi nejrozumejsi reseni je anotovat takove pripady jako nula.| +M  | 
 +^ RO, 27. 3.| technické drobnosti| Mohli bychom příležitostně požádat Jiřího o úpravu programu, aby se v případě, kdy klávesou T nebo B zadáme šipku a pak nepotvrdíme konkrétní typ a zavřeme nabídku křížkem, žádná šipka nezakreslovala? Taky by byla příjemná možnost pohybovat se v horním okně kolečkem myši, protože Tred pořád někdy trochu nesmyslně roluje. **AN:** napsala jsem o tom Jirkovi|  | 
 +^ RO, 26. 3.| P-FUNCT| Díval jsem se na záznam prezentace, že zavládla skepse k typu P-FUNCT. Já bych se ho rád zastal, řekl bych, že intuitivně už jsme si ho vymezili docela dobře. Je to podle mě něco jako vztah, kdy jedna entita vykonává unikátní funkci v rámci jiné entity.  Proto trenér-mužstvo a premiér-vláda jsou funct, ale hráč-mužstvo a ministr-vláda SUB. Znovu bych teda navrhnul, aby ta entita ve funkci nemusel být jen jedinec, ale taky unikátní úřad, typ vláda-ČR, parlament-ČR, národní banka-ČR, magistrát-Praha. Z příkladů uváděných na prezentaci by opravdu farář-fara nemělo být nic (to je jako pes-bouda, maximálně REST:-)), ale farnost-farář už by byl P-FUNCT. Právník-kancelář nebo advokát-advokátní kancelář pravděpodobně nic, popř. rest (není to unikátní a není to už ani přibližně podmnožina nebo část); kdyby to byl ředitel nebo tajemník-advokátní kancelář, tak FUNCT. **AN:** jo, je to tak. S tim fara - farar, to je moje jazykova chyba (chybne jsem chapala slovo "fara")|  | 
 +^ JP, 21.3. | typ "řekl to..." | Často se stává, že se v textu objeví spojení "řekl to XX", přičemž zájmeno to odkazuje k celé předcházející větě. V rámci předchozí anotace pronominální koreference je to řečeno jako bridging, ale asi to není úplně správné a někde to dokonce může způsobovat problémy, např. zde: //"Kuchyňským nožem __ubodal__ v noci z neděle na pondělí třiačtyřicetiletý J. S. v kuchyni bytu v Pekařské ulici svou o jedenáct let mladší manželku. LN __to__ sdělil vyšetřovatel Krajského úřadu vyšetřování. Motivem __činu__, který pachatel sám ohlásil, byly déletrvající manželské neshody."// Výraz "to" ve druhé větě je zde anotován jako koreferenční s řídícím slovesem předcházející věty. Slovo "činu" ve třetí větě je pak koreferenční se slovesem "ubodal", ovšem nikoli s tím "to". Nebylo by tedy dobré tyto případy opravovat na bridging ANAF? Vím, že Radek jinde psal, že by to příliš komplikovalo situaci, protože např. v případě konstrukce "zmínil se o tom XX" by to podle významu naopak muselo zůstat jako koreference a byl by v tom chaos. Možná by se to ale dalo rozlišovat substitučním testem -- v případě, že jde zájmeno "to" nahradit spojením "tuto větu", je to ANAF, pokud ne (jako třeba u toho zmínil se -- nejde říct "zmínil se o této větě"), je to koreference...  **AN:** Souhlasim s Jirkou - ne vsude, ale podle smyslu pokud to patri pod ANAF, tak bych to opravovala. **RO** Moc se mi to nezdá, resp. není podle mě tak jednoznačné, že to zájmeno odkazuje na výpověď o situaci, a nikoli na situaci samu. Např. ten vyšetřovatel z případu určitě prostě informoval o situaci, aniž použil přesně danou větu (takže ani pro "říct" ten test moc nesedí. Jako metajazyk bych to snad bral jen v případě, že by předchozí věta byla v uvozovkách jako citace.) Takhle bychom jenom zkomplikovali shodu, která je teď automatická: co kdyby tam místo "řekl to" bylo "prohlásil to", "oznámil to", "sdělil to", "zmínil se o tom", "naznačil to"? Těžko bychom se ve všech případech shodli. Já bych tenhle typ do ANAFu nedával, podle mě je tam vždy nějaký odkaz k situaci samé. **AN:** mas pravdu, tim se to moc komplikuje. Tak ten pripad s kuchynskym nozem zustane viset jako problem, ale snad se to casto neopakuje.|   +M |  
 +^ AN 6.3. | vysledky schuzky 5.3.| **1)** dohodli jsme se neanotovat casti pojmenovanych entit, pokud samy nejsou pojmenovana entita (Oddeleni pro vyzkum ... vyzkum, ministerstvo zemedelstvi - zemedelstvi, ale anotovat ustavni soud CR - CR) **2)** musim presne vymezit typ PART - jako ze anotujeme pokoj - strop, Nemecko - Berlin, mesto - ulice, ale ne mesto - dum, mesto - muzeum. K tomu by se hodil nejaky dobry otazkovy test. **RO**: co třeba otázka "je to část území?" - to by zařadilo stát-město; stát-region; město-ulice; např. oblast-jezero apod., ne už město-dům. Ale možná to nestačí na vyloučení případu město-parkoviště, pokud to nechceme. **3)** zavedli jsme skupinu ANAF pro nekoreferencni anaforicky vztah **4)** //technicke pozadavkyA//: "predanotace stejnych lemmat v danem souboru" - jde o to, ze nechceme redanotovat vsechna stejna lemmata toho mazani sipek bude s velkou pravdepodobnosti vic, nez jejich zavedeni. Chceme ale toto: Pokud otevreme soubor a vidime, ze vsechny (valna vetsina) uzly s danym stejnym lemmatem jsou koreferencni, tak je muzeme propojit jednim krokem. Treba v jednom souboru spojit vsechny uzly s lemmatem "dite", nebo "Durych". **5)** //technicke pozadavkyB//: Dalsi vec se tyka zbarevneni bridgingu. Momentalne mame, ze se barene ukazuji uzly, ktere jsou spojene s oznacenym a dale retezove nahoru. Chteli bychom to trochu zmenit. U textove koreference by to zustalo jak to je. U bridging by se zmenilo to, ze by se neukazal cely retezec, ale jenom ten uzel, ktery je propojen bridgingem s danym uzlem. To je to zuzeni. Na druhou stranu chteli bychom k tomu taky neco pridat, a to aby se blede modre oznacovaly vsechny bridgingy napojene na dany textove koreferencni retezec (ale primo, ne retezove). **6)**  odkaz typu segm neni vzdy koreferencni. Napr. cely text a pak "podobne problemy resime..." jeste neco?+M|  
 +^ AN 28.2. | casti pojmenovanych entit| jak na to ted koukam, asi mame zavst pravidlo, neanotovat casti pojmenovanych entit v samostatnych koreferencnich retezcich. Snad to usnadni praci. Jeste to upresnim a probereme to nekdy na schuzce.| +M|  
 +^ RO 22.2. | počítače, kopírky - vše | Zájmeno "vše"/"všechno" není v základní pronominální anotaci, ale někdy je koreferenční: "X daroval Y počítače, kopírky apod. Vše v hodnotě 1 milión." Myslím že to můžeme anotovat standardním způsobem. **AN:** urcite. Diky!| +M| 
 ^ RO, 22.2. | město - stát; ulice-město | Podle dosavadních domluv  byl typ město-stát PART-WHOLE, jak teď? Na jednu stranu to není úplně čistá část, na druhou je to pěkně ohraničená skupina případů, takže bych ji navrhoval nechat v PART-WHOLE. A platí, že případ město-ulice/náměstí... neanotujeme nijak? **AN:** mesto - stat: urcite PART-WHOLE. Mesto - ulice - popradve nevim. Rikali jsme, ze neanotujeme "mesto-museum", ale ulice by docela mohlo. | | ^ RO, 22.2. | město - stát; ulice-město | Podle dosavadních domluv  byl typ město-stát PART-WHOLE, jak teď? Na jednu stranu to není úplně čistá část, na druhou je to pěkně ohraničená skupina případů, takže bych ji navrhoval nechat v PART-WHOLE. A platí, že případ město-ulice/náměstí... neanotujeme nijak? **AN:** mesto - stat: urcite PART-WHOLE. Mesto - ulice - popradve nevim. Rikali jsme, ze neanotujeme "mesto-museum", ale ulice by docela mohlo. | |
 ^ AN, 19.2. | anotace koreference generickych NP typu "zvyseni mezd"| anotujte maximalne - u zvyseni a u mezd. Snad tak dosahneme vetsi shody a z hlediska duslednosti je to asi nejspravnejsi reseni. Totez v pripade vahani, jestli NP je pojimana v ruznych casovych usecich, ale vyrazne anaforicky a bez kontrastu, treba DPH tehdy a tehdy apod.  | | ^ AN, 19.2. | anotace koreference generickych NP typu "zvyseni mezd"| anotujte maximalne - u zvyseni a u mezd. Snad tak dosahneme vetsi shody a z hlediska duslednosti je to asi nejspravnejsi reseni. Totez v pripade vahani, jestli NP je pojimana v ruznych casovych usecich, ale vyrazne anaforicky a bez kontrastu, treba DPH tehdy a tehdy apod.  | |
-^ JP, 18.2. | bridging u uzlů s funktorem RSTR  | Napadlo mě, jestli mezi ty funktory, u kterých se neanotuje bridging v případě přímé závislosti (APP, MAT, PAT, AUTH), nezařadit ještě RSTR. Takový vztah se objevuje poměrně často, což je způsobeno tím, že se do koreferenčních řetězců zapojují adjektiva vytvořená od vlastních názvů. V takových případech je pak potřeba anotovat bridging mezi členy dvojic, jako např. "české město", "maďarský prezident" apod. **AN:** Jasne, zaradime. Tim se nam tam dostanou i priklady typu cesky stat, ktere by take nemeli byt anotovany. Predanotace - zakazat RSTR? **JP:** No, jestli to chápu správně a pokud by se to dělalo stejně jako u těch funktorů APP apod., tak by se např. u dvojice "Maďarsko -- maďarský prezident" anotovala koreference mezi "Maďarsko" a "maďarský", jen by se nově neanotoval žádný bridging na "prezidenta" (stejně jako by to bylo u dvojice "Maďarsko -- prezident Maďarska"). A v tom případě není důvod rušit žádnou předanotaci. Akorát je otázka, co v takovém případě dělat s výrazy typu "Česká republika", příp. "ČR"... | --> JM|+^ JP, 18.2. | bridging u uzlů s funktorem RSTR  | Napadlo mě, jestli mezi ty funktory, u kterých se neanotuje bridging v případě přímé závislosti (APP, MAT, PAT, AUTH), nezařadit ještě RSTR. Takový vztah se objevuje poměrně často, což je způsobeno tím, že se do koreferenčních řetězců zapojují adjektiva vytvořená od vlastních názvů. V takových případech je pak potřeba anotovat bridging mezi členy dvojic, jako např. "české město", "maďarský prezident" apod. **AN:** Jasne, zaradime. Tim se nam tam dostanou i priklady typu cesky stat, ktere by take nemeli byt anotovany. Predanotace - zakazat RSTR? **JP:** No, jestli to chápu správně a pokud by se to dělalo stejně jako u těch funktorů APP apod., tak by se např. u dvojice "Maďarsko -- maďarský prezident" anotovala koreference mezi "Maďarsko" a "maďarský", jen by se nově neanotoval žádný bridging na "prezidenta" (stejně jako by to bylo u dvojice "Maďarsko -- prezident Maďarska"). A v tom případě není důvod rušit žádnou předanotaci. Akorát je otázka, co v takovém případě dělat s výrazy typu "Česká republika", příp. "ČR"... | +M|
 ^ JP, 17.2. | nejasná hranice typů 0/NR  | Pokud se nepletu, tak se v zásadě předpokládá, že v rámci jednoho koreferenčního řetězce se uplatňuje vždy jen jeden typ identické koreference. V praxi to ale ne vždy platí -- zejména tehdy, když se v řetězci střídají různá synonyma. Např. u dvojice //Češi// -- //tento národ// má první výraz generickou referenci, druhý specifickou. Co s takovými případy? **AN:** zachovavat nejednotnost - je zajimava, orientovat se pritom na posledni vyskyt (druhy clen paru) - pokud je specificky, tak nula, jinak - NR | | ^ JP, 17.2. | nejasná hranice typů 0/NR  | Pokud se nepletu, tak se v zásadě předpokládá, že v rámci jednoho koreferenčního řetězce se uplatňuje vždy jen jeden typ identické koreference. V praxi to ale ne vždy platí -- zejména tehdy, když se v řetězci střídají různá synonyma. Např. u dvojice //Češi// -- //tento národ// má první výraz generickou referenci, druhý specifickou. Co s takovými případy? **AN:** zachovavat nejednotnost - je zajimava, orientovat se pritom na posledni vyskyt (druhy clen paru) - pokud je specificky, tak nula, jinak - NR | |
 ^ JP, 16.2. | "ve stejném období tohoto roku" -- typ ANOF?  | Do případného typu ANOF bychom mohli zařadit ten typ "ve stejném období tohoto roku", který jsme kdysi řešili a rozhodli se ho považovat za typ REST. Např. //V prvním pololetí vyrobili provozovatelé vodovodů a kanalizací více než 495 milionů metrů krychlových pitné vody. Je to o 10.19 % méně než ve stejném období roku 1993.// **AN:** No jo, to je takove hranicni. Neni tam uplne zretelne vyjadren anaforicky odkaz. Musim to promyslet.  | | ^ JP, 16.2. | "ve stejném období tohoto roku" -- typ ANOF?  | Do případného typu ANOF bychom mohli zařadit ten typ "ve stejném období tohoto roku", který jsme kdysi řešili a rozhodli se ho považovat za typ REST. Např. //V prvním pololetí vyrobili provozovatelé vodovodů a kanalizací více než 495 milionů metrů krychlových pitné vody. Je to o 10.19 % méně než ve stejném období roku 1993.// **AN:** No jo, to je takove hranicni. Neni tam uplne zretelne vyjadren anaforicky odkaz. Musim to promyslet.  | |
Line 17: Line 45:
 ^ JP, 13.2. | "každý z nich"  | Jak se nakonec anotuje "každý z nich"? Kdyby tam bylo "některý z nich", byla by od zájmena koreference na antecedent a mezi "některý" a "z nich" by byl SET. Ale u "každý z nich"? Analogicky by to bylo koreference od zájmena k antecedentu a k tomu ještě koreference mezi "některý" a "z nich"... **AN:** nevim. kazde reseni vypada dost neintuitivne. Chtelo by to nejakou konvenci. Meli jste toho vic? jak jste to resili?| --> S| ^ JP, 13.2. | "každý z nich"  | Jak se nakonec anotuje "každý z nich"? Kdyby tam bylo "některý z nich", byla by od zájmena koreference na antecedent a mezi "některý" a "z nich" by byl SET. Ale u "každý z nich"? Analogicky by to bylo koreference od zájmena k antecedentu a k tomu ještě koreference mezi "některý" a "z nich"... **AN:** nevim. kazde reseni vypada dost neintuitivne. Chtelo by to nejakou konvenci. Meli jste toho vic? jak jste to resili?| --> S|
 ^ JP, 13.2. | typ "u nás"  | Jak je to s anotací výrazů typu "u nás"? Předpokládal jsem, že se neanotují, protože jde o zájmeno v první osobě, nicméně v manuálu se u typu "tady v Praze" uvádí i příklad "u nás doma"...  **AN:** Pardon, chyba v manualu, nebudeme ty 1/2 osoby dusledne anotovat| | ^ JP, 13.2. | typ "u nás"  | Jak je to s anotací výrazů typu "u nás"? Předpokládal jsem, že se neanotují, protože jde o zájmeno v první osobě, nicméně v manuálu se u typu "tady v Praze" uvádí i příklad "u nás doma"...  **AN:** Pardon, chyba v manualu, nebudeme ty 1/2 osoby dusledne anotovat| |
-^ JP, 12.2. | typ dnes v 16 hodin  | //"Třídenní koncert nazvaný Trutnov 87 - 94 začíná dnes v 16 hodin v trutnovském letním kině Na bojišti."// Anotuje se nějak vztah mezi //dnes// a //hodin//? Vzhledem k tomu, že v případech typu //u nás doma// se anotuje identická koreference, mi přijde logické označovat v tomto případě vztah SET (a podle dohody by případně šel i PART).  **AN:** Neanotovala bych to vubec, prijde mi to zbytecne | --> M|+^ JP, 12.2. | typ dnes v 16 hodin  | //"Třídenní koncert nazvaný Trutnov 87 - 94 začíná dnes v 16 hodin v trutnovském letním kině Na bojišti."// Anotuje se nějak vztah mezi //dnes// a //hodin//? Vzhledem k tomu, že v případech typu //u nás doma// se anotuje identická koreference, mi přijde logické označovat v tomto případě vztah SET (a podle dohody by případně šel i PART).  **AN:** Neanotovala bych to vubec, prijde mi to zbytecne | +M|
 ^ JP, 8.2. | poptávka -- nulový zájem  | //"Sběrné suroviny se chovají podle poptávky. Příčinou nulového zájmu o starý papír..."// Označuje se v tomto případě nějaký vztah mezi //poptávkou// a //nulovým zájmem//? Napadá mě anotovat to jako SET--SUB, tj. chápat //poptávku// jako potenciální množinu, do které by patřily prvky //nízká poptávka//, //vysoký zájem// apod. (V tomto případě jde ještě navíc o to, že ta //poptávka// je myšlená obecně, zatímco v případě //nulového zájmu// jde o poptávku po papíře.) Je to podobné jako ten případ //inflace// -- //tříprocentní inflace//, který jsme ale, pokud vím, zatím nevyřešili. **RO** Pokud něco, tak SUB-SET, ale už je to podle mě na hranici toho, co ještě anotovat. Těžko tu vymyslíme pravidlo, případy se každý trochu liší; bude to asi vždycky na individuálním posouzení. **AN:** to bych uz neanotovala, prilis hluboke, individ. chapani| | ^ JP, 8.2. | poptávka -- nulový zájem  | //"Sběrné suroviny se chovají podle poptávky. Příčinou nulového zájmu o starý papír..."// Označuje se v tomto případě nějaký vztah mezi //poptávkou// a //nulovým zájmem//? Napadá mě anotovat to jako SET--SUB, tj. chápat //poptávku// jako potenciální množinu, do které by patřily prvky //nízká poptávka//, //vysoký zájem// apod. (V tomto případě jde ještě navíc o to, že ta //poptávka// je myšlená obecně, zatímco v případě //nulového zájmu// jde o poptávku po papíře.) Je to podobné jako ten případ //inflace// -- //tříprocentní inflace//, který jsme ale, pokud vím, zatím nevyřešili. **RO** Pokud něco, tak SUB-SET, ale už je to podle mě na hranici toho, co ještě anotovat. Těžko tu vymyslíme pravidlo, případy se každý trochu liší; bude to asi vždycky na individuálním posouzení. **AN:** to bych uz neanotovala, prilis hluboke, individ. chapani| |
-^ AN 3.2. | výsledky schůzky  | **1)** SET/PART - viz dole; **2)** Nekoreferencni anafora - viz dole a nahoře seznam; **3)** Pokud uzel má funktor APP, MAT, AUTH nebo PAT, jeho bridging vzth s přímým rodičem neanotujeme. Pokud však má funktor DIR1 nebo jiný, naopak anotujeme, přičemž v rámci té jedné věty (jeden ze stavkujících podníků - podník SET na jeden); **4)** resili moznost anotace anaforickych adjektic typu "tamni", "zdejsi" a rozhodli, ze je anotovat nebudeme; **5)** v typech identicke textove koreference jsme zrusili typy SYN a ER. Co bylo SYN, ted je nula, ER - castecne do bridgingu, do nereferencni anafory; **6)** koreferenci znacime jenom u vybranych adverbii, hlavne //tam, tady, zde, tehdy, tak// - rozepisu to v manualku; **7)** resili a nevyresili velky problem textove koreference na kontejner nebo na zavisly clen (//__Milion stavkujicich__ vysli na ulice - __pocet stavkujicich__ - __stavkujici__ jsou proti tomu, aby//) ... jeste to rozepisu pozdeji; **8)** ministr - vlada (SET) vs. premier - vlada (FUNCT); **9)** pokud je vyber z vice antecedentu, bridging vzdy vede na ten nejblizsi; **10)** typ "před válkou" -- "po válce" se anotuje jako identická koreference.  | |+^ AN 3.2. | výsledky schůzky  | **1)** SET/PART - viz dole; **2)** Nekoreferencni anafora - viz dole a nahoře seznam; **3)** Pokud uzel má funktor APP, MAT, AUTH nebo PAT, jeho bridging vzth s přímým rodičem neanotujeme. Pokud však má funktor DIR1 nebo jiný, naopak anotujeme, přičemž v rámci té jedné věty (jeden ze stavkujících podníků - podník SET na jeden); **4)** resili moznost anotace anaforickych adjektic typu "tamni", "zdejsi" a rozhodli, ze je anotovat nebudeme; **5)** v typech identicke textove koreference jsme zrusili typy SYN a ER. Co bylo SYN, ted je nula, ER - castecne do bridgingu, do nereferencni anafory; **6)** koreferenci znacime jenom u vybranych adverbii, hlavne //tam, tady, zde, tehdy, tak// - rozepisu to v manualku; **7)** resili a nevyresili velky problem textove koreference na kontejner nebo na zavisly clen (//__Milion stavkujicich__ vysli na ulice - __pocet stavkujicich__ - __stavkujici__ jsou proti tomu, aby//) ... jeste to rozepisu pozdeji; **8)** ministr - vlada (SET) vs. premier - vlada (FUNCT); **9)** pokud je vyber z vice antecedentu, bridging vzdy vede na ten nejblizsi; **10)** typ "před válkou" -- "po válce" se anotuje jako identická koreference. --> M|
 ^ RO 28.1. | bridging "souřadnost"?  | Zdá se mi, že by se občas hodila kategorie bridgingu, kterou už kdysi  navrhoval Honza, něco jako vztah společného členství v množině. Občas se do textu nějak uvádí B, které je jaksi souřadné s A, např. "trh zlata" - "trh ropy", "poslanec A" - "poslanec B" a když tam není kontrast ani zahrnující pojem, zatím to můžeme označit leda REST. (Musela by se asi určit priorita: pokud je tam něco nadřazeného (u těch poslanců třeba sněmovna), tak SET-SUB nebo PART-WHOLE, a tahle souřadnost jen v případě, že SET/WHOLE chybí, abychom nemuseli připojovat členy podmnožiny k množině a pak ještě mezi sebou.) Ale navrhoval bych to zavést asi jen v případě, že by to neznamenalo pomalejší práci Tredu. **AN:** Spis se bojim, ze to zpomali vasi praci - vyhledavat elementy mnoziny, a pak jeste hledat preference, jestli tam je nadrazeny clen apod. Co myslite?  **JP:** Mně to přijde jako celkem zbytečné, protože ten významový vztah se mi tam nezdá tak těsný, resp. zdá se mi volnější než některé jiné vztahy, které se taky neanotují (např. ten vztah ČR -- vláda). Někdy navíc jdou tyto vztahy označit jako CONTRAST. **RO:** Dobře, já na tom netrvám. Takže aspoň výrazné případy tohohle, pokud tam není kontrast, můžou jít do REST. OK? **AN:** urcite muzou| | ^ RO 28.1. | bridging "souřadnost"?  | Zdá se mi, že by se občas hodila kategorie bridgingu, kterou už kdysi  navrhoval Honza, něco jako vztah společného členství v množině. Občas se do textu nějak uvádí B, které je jaksi souřadné s A, např. "trh zlata" - "trh ropy", "poslanec A" - "poslanec B" a když tam není kontrast ani zahrnující pojem, zatím to můžeme označit leda REST. (Musela by se asi určit priorita: pokud je tam něco nadřazeného (u těch poslanců třeba sněmovna), tak SET-SUB nebo PART-WHOLE, a tahle souřadnost jen v případě, že SET/WHOLE chybí, abychom nemuseli připojovat členy podmnožiny k množině a pak ještě mezi sebou.) Ale navrhoval bych to zavést asi jen v případě, že by to neznamenalo pomalejší práci Tredu. **AN:** Spis se bojim, ze to zpomali vasi praci - vyhledavat elementy mnoziny, a pak jeste hledat preference, jestli tam je nadrazeny clen apod. Co myslite?  **JP:** Mně to přijde jako celkem zbytečné, protože ten významový vztah se mi tam nezdá tak těsný, resp. zdá se mi volnější než některé jiné vztahy, které se taky neanotují (např. ten vztah ČR -- vláda). Někdy navíc jdou tyto vztahy označit jako CONTRAST. **RO:** Dobře, já na tom netrvám. Takže aspoň výrazné případy tohohle, pokud tam není kontrast, můžou jít do REST. OK? **AN:** urcite muzou| |
 ^ RO 28.1. | obecný - jednotlivý případ SET-SUB | Ujišťuju se, kdyžtak mě prosím opravte: Vztah obecný případ - jednotlivý případ anotujeme jako bridging SET-SUB. Např. "Nový VW Golf je vybaven motorem o síle..." - "Dostali jsme možnost se novým golfem projet." Je to myslím logické už proto, že první výskyt bychom anotovali jako koreferenci s "Nové golfy", a pak by vztah SET-SUB byl nesporný. Totéž je možno i na úrovni abstraktnějších jmen? Vymýšlím si příklad: "Trestní sazba za zpronevěru je x let." - "Zpronevěra, které se dopustil XY..." Opět SET-SUB? **JP:** Já to tak dělám, i když nevím, jestli je to úplně správně, zrovna jsem se na to chtěl na schůzce zeptat. Připadá mi, že je to přece jen trochu něco jiného než klasický vztah SET-SUB, a tak mě napadlo, jestli by protiklad SET/PART, který se mi poslední dobou často zdá trochu problematický, nešlo využít právě k tomuto rozlišení - např. SET používat pro to obecné-konkrétní, zatímco pro běžné případy vyhradit PART. Ale to je spíš jenom takový nápad, než že bych si za tím nějak stál, navíc nevím, jestli má v této fázi anotace dělat takové změny... **RO:** Účelné změny podle mě rozhodně smysl mají, právě proto, že jsme celkem na začátku a devět desetin korpusu podle nich můžeme ještě udělat. Tenhle návrh mi přijde docela dobrý (taky jen předběžně). **AN:** Taky bych podobne priklady anotuju jako SET-SUB. Co se tyce takoveho rozdeleni SET a PART, nejsem si jista, ze to ten problem zjednodusi. Probereme to na schuzce - sbirejte priklady, pokud se znovu objevi **AN:** na schuzce bylo dohodnuto, ze to zustava v zasade beze zmen. Vztah "obecný - jednotlivý případ" anotujeme jako SET-SUB. Problematicke pripady zarazujeme spise do SET nez do PART, v PART zustavaji jenom uplna jasne. | | ^ RO 28.1. | obecný - jednotlivý případ SET-SUB | Ujišťuju se, kdyžtak mě prosím opravte: Vztah obecný případ - jednotlivý případ anotujeme jako bridging SET-SUB. Např. "Nový VW Golf je vybaven motorem o síle..." - "Dostali jsme možnost se novým golfem projet." Je to myslím logické už proto, že první výskyt bychom anotovali jako koreferenci s "Nové golfy", a pak by vztah SET-SUB byl nesporný. Totéž je možno i na úrovni abstraktnějších jmen? Vymýšlím si příklad: "Trestní sazba za zpronevěru je x let." - "Zpronevěra, které se dopustil XY..." Opět SET-SUB? **JP:** Já to tak dělám, i když nevím, jestli je to úplně správně, zrovna jsem se na to chtěl na schůzce zeptat. Připadá mi, že je to přece jen trochu něco jiného než klasický vztah SET-SUB, a tak mě napadlo, jestli by protiklad SET/PART, který se mi poslední dobou často zdá trochu problematický, nešlo využít právě k tomuto rozlišení - např. SET používat pro to obecné-konkrétní, zatímco pro běžné případy vyhradit PART. Ale to je spíš jenom takový nápad, než že bych si za tím nějak stál, navíc nevím, jestli má v této fázi anotace dělat takové změny... **RO:** Účelné změny podle mě rozhodně smysl mají, právě proto, že jsme celkem na začátku a devět desetin korpusu podle nich můžeme ještě udělat. Tenhle návrh mi přijde docela dobrý (taky jen předběžně). **AN:** Taky bych podobne priklady anotuju jako SET-SUB. Co se tyce takoveho rozdeleni SET a PART, nejsem si jista, ze to ten problem zjednodusi. Probereme to na schuzce - sbirejte priklady, pokud se znovu objevi **AN:** na schuzce bylo dohodnuto, ze to zustava v zasade beze zmen. Vztah "obecný - jednotlivý případ" anotujeme jako SET-SUB. Problematicke pripady zarazujeme spise do SET nez do PART, v PART zustavaji jenom uplna jasne. | |

[ Back to the navigation ] [ Back to the content ]