This is an old revision of the document!
problém | diskuze, řešení | techn.pozn. | ||
---|---|---|---|---|
JP, 14.8. | “a year earlier” / “the year earlier” vs. “last year” | Zajímavým a častým případem, který by bylo dobré sjednotit, je anotace uvedených výrazů. “Last year” podle mě jasně referuje k určitému roku. Jinak to vidím u “a/the year earlier”, kde to celé spojení referuje k nějakému času před rokem, zatímco to “year” referuje k časovému období, které trvá rok a končí současností, tj. nic v tomto spojení nereferuje k minulému roku, tj. nepropojuji to s “last year” ani s ničím jiným. Tak doufám, že ostatní to dělají podobně :) LH: Nad tímhle jsem taky dost dumala, nejdřív jsem to coby koreferenční propojovala (ten rozdíl ve významu, co popisuješ, mě nenapadl, ostatně ve většině kontextů je to vzájemně zaměnitelné), ale pak jsem svoje stanovisko přehodnotila - taky kvůli tomu, že v “a/the year earlier” bývá řídícím uzlem adverbium a to se mi moc nelíbí. Takže teď už to taky do řetězce nepřidávám. :) | ||
JP, 26.7. | Příklad konfliktu kritérií generičnosti a určitosti | Kdysi jsem upozorňoval, že i generické výrazy mohou mít určitou referenci, a byl jsem dotazován na příklad. Nyní jsem na pěkný narazil: “But the two legal experts (…) wrote in a joint letter that the president lacks the constitutional authority to exercise a line-item veto. (…) The two professors said the Constitution authorizes the president to veto entire bills, not partial measures. (…) They also said that more than a dozen presidents *PPA*-1 have called for line-item veto authority since the Civil War, and all have shared the view that such lawmaking power is beyond the reach of the president. Sen. Kennedy said in a separate statement that he supports legislation to give the president line-item veto power, but that it would be a reckless course of action for President Bush to claim the authority without congressional approval.” Jelikož je to generické, tak to nepropojuji, ale ta určitost tu je. | ||
JP, 25.7. | typ “programs like this” | Jak budeme řešit typ “substantivum like this”? Např. “They take place in government programs that seem tailor-made for corruption. Why are programs like this not eliminated?” Je to sice generické, ale odkazuje to, takže by se to mělo anotovat. Propojil bych to “programs” a “programs”. Druhou možností by bylo odkázat to z toho “this”, ale to mi přijde zbytečné. LH: Hm, já bych vložila poznámku k “this” a nechala bych to celé bez šipky až do doby, kdy budeme dělat generický typ. JP: No ale generické výrazy anotujeme, pokud anaforicky odkazují, což je tady splněno. | ||
LH, 26.6. | SEGM katafora? | Mám tady zajímavý případ, kdy se kataforicky odkazuje na následující text: The key U.S. and foreign annual interest rates below [are a guide to general levels blablabla], na což navazuje výčet jednotlivých sazeb. Mám to označit jako SEGM? Nebo se to bude řešit nějakým bridgingem? JP: Asi bych to dělal tím segmentem. Dalším příkladem může být věta: “The following were among yesterday's offerings and pricings in the U.S. and non-U.S. capital markets, with terms and syndicate manager, as compiled by Dow Jones Capital Markets Report:” | ||
JP, 26.6. | generická “you” | Mají se propojovat navzájem generická “you”? Na jednu stranu je to generické, na druhou jsou to zájmena, i když ne endoforicky deiktická. Zvlášť ale pokud je to v jedné větě, tak mi to přijde hloupé neznačit, např. You're dead in the water if you aren't segmenting the market. LH: Já bych to propojovala, když na sebe takhle očividně navazují: to první může značit jakoukoli množinu, ale to druhé už označuje tu samou, jako to první, je to koreferenční. | ||
JP, 20.6. | typ “the bells themselves” | Má se v takovém případě značit koreference u výrazu “themselves”? Je to zájmeno s lemmatem PersPron, takže by se asi měla, i když to asi vypadá trochu divně. A jestli jo, tak jaká? Gramatická? LH: Já bych tam určitě značila gramatickou koreferenci. | ||
LH, 20.6. | apozice | Mám tu apozici A high-balance customer that banks pine for, she [didn't give much thought to the rates]. V takovém případě vedeme šipky taky přes kořen apozice, že? A co v případě customers such as Ms. Driskill? Tam bych docela ráda vedla šipku značící koreferenci oné dámy jen k jejímu jménu, protože celá apozice už značí něco jiného… JP: Taky bych to tam dělal, na kořen to tu rozhodně nejde, jedině že by se to neznačilo vůbec, což by byla škoda. Ale je to docela zásadní, protože to pravidlo o apozicích bylo celkem striktní.. | ||
LH, 16.6. | stát vs. hlavní město | Jak značit případy, kdy název hlavního města označuje střídavě hlavní město a celý stát? Budou z toho dva izolované řetězce, přičemž ten název hlavního města připadne podle významu pokaždé jinam? Mám tu případ jednání mezi Japonskem a USA, kde se na “the two countries” odkazuje taky pomocí “Washington and Tokyo”, ale o pár vět vedle se mluví o událostech přímo v daném městě nebo státě. Tady bude “Washington and Tokyo” odkazovat k “the two countries” a v dalších výskytech např. “v USA” bude navázané ve stejném řetězci s Washingtonem z téhle koordinace, ale “v Tokiu” s tím označujícím stát nebude ve stejném řetězci? Doufám, že se vyjadřuju srozumitelně :) JP: Předpokládám, že by to mělo být přesně tak, jak píšeš. Tj. pokud Washington referuje ke státu, je to koreferenční s USA, pokud k městu, tak je to zvláštní řetězec pro město. Ty dva Washingtony navzájem koreferenční nejsou. | ||
AN, 13.6. | opravy t-lemmat | Pokud je potreba zmenit t-lemma, ted to prosim docasne nemente, jenom piste do poznamky, ze je potreba zmenit. jde totiz o to, ze kdyz davame dohromady dve anotace, nejde prelit i tuto informaci. Az zacnete anotovat kazdy zvlast, bude to zase po starem. KT: A jaký typ poznámky máme v tom případě použít? AN: Nejakz novy a abz se nekriyil s tim, co tam uz mate. Treba coref_LEMMA ? LH: A když z daného uzlu nevede šipka (např. při změně z #PersPron na #Gen nebo když jde o antecedent), tak klasický anot_comment typu t-lemma? Neztratí se to potom? KT: Pokud je to antecedent, tak poznámku píšu k šipce z předchozího uzlu s upozorněním, že se vztahuje k antecedentu.. Doufám, že takhle se spíš nepřehlédne.. | ||
AN, 13.6. | koreference 1. a 2. osoby | Neznacte exoph u we, s tim we se muze spojovat jenom normalni textova koreference, pokud jsou pak vyjmenovani ti, kteri to we jsou. | ||
KT, 13.6. | začleňování gramatických šipek | Musí gramatické šipky vždycky navazovat v řetězci? Například ve větě “Boeing Co. said it is discussing plans *ICH*-1 with three of its regular Japanese suppliers * to possibly help *-2 build a larger version of its popular 767 twin-jet .” je textový řetězec company-it-its-its, ale je tam navíc ještě potřeba začlenit gramatická šipka od ACT-cor u help. Tu ale nemá smysl napojovat k bezprostředně předcházejícímu its, ale spíš k PersPron pod discuss (nebo ještě lépe k ACT-cor pod plan a odtamtud k tomu PersPron), což ale znamená “odbočku” ze souvislého řetězce. Je to tak v pořádku? AN: Jo, je to tak v poradku. Ale jinak je textove koreferencni retezec propojen s gramatickou koreferenci automaticky. V datech, ktera ted anotujete se to dela samo pokud kreslite novou textovou sipku. Pokud vsak tam uz textova sipka byla, retezec se nedodrzuje 0 to se dodela automaticky po skonceni rucni anotace | ||
JP, 5.6. | VerbPron | Budeme nějak řešit uzly s lemmatem VerbPron? Např. “Signs of a slowing economy are increasing pressure on the Federal Reserve to cut short-term interest rates, but it isn't clear whether the central bank will do so.” “Do so” je v jednom uzlu jako VerbPron, teoreticky by se to mohlo odkázat na “cut”. LH: Když jsme dělali koreferenci u Silvie, tak se na VerbPron textová koreference značila, tudíž bych to dělala i tady. Nevidím důvod neznačit. JP: Taky mi to tak přijde, jenom mě trochu znejistělo, že v češtině bylo pravidlo, že se koreference nedělá od sloves. Ale tady v tomhle případě asi jo.. AN Jo, urcite znacit. Dopisu to do manualu | dopsat do manualu | |
AN, 3.6. | komentare | piste prosim vlastni text do hranatych zavorek, je to pak lepe vyhledavatelne, tj. AMBIG [Vas text] Pokud vam nebudou stacit AMBIG a OTHER a vidite jinou typove vyclenitelnou skupinku, nabidnete, dame ji tam taky JP: Platí to i teď, když už na to existují ty kategorie v Tredu? AN: ne, pardon, to jsem psala, kdyz jsem se divala na stara data | ||
LH, 3.6. | koreference bez anafory? | Mám tu dlouhý soubor se spoustou názvů vín, které se čas od času opakují. Občas označují značku jako takovou nebo jen konkrétní ročník (takové případy bych nepropojovala, každý označuje něco jiného), a i když teoreticky označují totéž, nutně na sebe anaforicky nenavazují. Mám koreferenci značit, i když se mluví o tomtéž, ale bez zjevné návaznosti? AN: ale jo, pokud jde o koreferenci, urcite znacit i kdyz to na sebe neodkazuje | ||
LH, 1.6. | letopočty | Značíme koreferenci u opakujícícho se letopočtu, i když je zmíněn v ne nutně souvisejících kontextech? Např. mám teď text o vínech různých ročníků - mám značit stejný rok i u různých značek vín, když ani nejsou srovnávány nebo tak něco? AN: stejne znacit, jinak by anotace by bylo asi nedusledne. Vim, ze je to blbost, hlavne ty stejne letopocty se da vyhledat i bez koreferenci sipky, ale na jinych mistech to melo smysl, tak jsem se tak domluvili | ||
EK, 31.5. | poznamka KOREF AMBIG u bridgingu | mam opet technicky problem, u bridgingove sipky se mi neuklada komentar (makro m) LH: U speciální koreference (segm) mi to taky nejde. JP: U segm by to fungovat nemělo (což je asi škoda), u bridgingu by to jít mělo.. | ||
EK, 31.5. | nazvy mesicu | Kdyz anotujeme letopocty jako koreferencni, anotujeme i nazvy mesicu? LH: Já bych je značila, když je tam zjevná anafora (např. “V červenci byly záplavy. V červenci taky přišel uragán.”) nebo když to odkazuje k témuž měsíci téhož roku, ale jinak asi spíš ne. JP: Nejde o to, jestli tam je nebo není anafora. Jde o koreferenci, tj. o to, jestli se jedná o tentýž měsíc téhož roku. Jestli jo, tak určitě značit, jestli je to ale jiný rok, tak neznačit. | ||
JP, 30.5. | Výrazy s neurčitým členem | Spíš pro zajímavost uvádím příklad výrazu s neurčitým členem, co by se podle pravidel neměl anotovat: “It's also refreshing to read a Japanese author who clearly doesn't belong to the self-aggrandizing “we-Japanese” school of writers who perpetuate the notion of the unique Japanese, unfathomable by outsiders.” Ten text je o knize jednoho konkrétního spisovatele, na kterého se touhle větou evidentně naráží (“who clearly doesn't belong…”), ale neměla by tu být koreference. V ON ji tu taky nemají. AN: No jo, tady je asi takova umela generalizace. Sice se mluvi o nem, ale jako by genericky. Taky bych to neznacila. | ||
JP, 28.5. | Exofora u “in the week”? | Může se anotovat exofora u spojení “in the week”? Např. “The government's construction spending figures contrast with a report issued * earlier in the week by McGraw-Hill Inc.'s F.W. Dodge Group.” Přijde mi to logické. AN: Myslim, ze urcite anotovat. | ||
JP, 28.5. | Apozice slovesa a substantiva | Narazil jsem na zajímavou apoziční konstrukci: “factory inventories fell 0.1% in September, the first decline since February 1987”. Jak je vidět, v apozici tu stojí sloveso a substantivum. V TR je to řešeno pomocí uzlu EmpVerb v pravé části apozice, jehož aktorem je výraz “decline”. Nevím, jak je to časté, ale pokud ano, je asi třeba sjednotit řešení těch případů. Po aplikaci všech pravidel jsem se rozhodl vést koreferenční šipku od “decline” k vrcholu apozice, ale je otázka, jestli je to nutné. Jiný případ je zase věta “Lead underwriters for the issue are Scotia McLeod Inc. and RBC Dominion Securities Inc., both Toronto-based investment dealers.” tam tvoří druhou část apozice EmpVerb, na tom visí aktor “both” a patiens “dealers”. Tam jsem odkázal to “both” na “and”. | ! | |
LH, 27.5. | přivlastňovací zájmena | Když se píše o nějaké firmě a pak její mluvčí řekne “V našich produktech…”, tak značíme odkaz z “našich” k dané společnosti? V manuálku jsem v podobné souvislosti narazila na exoforu, ale tady je v předchozím kontextu jasný antecedent. JP: Řekl bych, že určitě ano, tj. koreference ke společnosti. | ||
KT, 26.5. | bridging v řetězci | Máme se snažit ten náš bridging nějak zakomponovat do koreferenčních řetězců, nebo stojí úplně mimo? Mám třeba větu: 24/7 The Perch and Dolphin fields are expected *-3 to start *-1 producing early next year , and the Seahorse and Tarwhine fields later next year . (a pak ještě páté pole zmíěnné někde předtím) a ve větách předtím i potom se mluví o “five fields”. Má jít v tom případě textový řetězec mezi všemi výsykyty “five fields” apod. a potom od “fields” ve větě po té citované ještě navíc (kromě textové šipky ob větu zpátky) taky bridgingové šipky k těm pěti polím? JP: Rozhodně tam má být ta šipka textové koreference (mezi všemi “5 fields”). S tím bridgingem je to trochu otázka, jelikož to se explicitně neřešilo, ale předpokládal bych, že spíš ne. Totiž že v případech, kdy je z nějakého uzlu vedená koreference, tam už nemá cenu dělat bridging. V češtině by se to bývalo dělalo (i když by to vypadalo trochu jinak), ale tady je ten bridging spíš jenom taková nouzová věc, aby se mohlo zachytit jasné odkazování na více antecedentů, což není potřeba, pokud už je tam koreference. KT: No jo, ale v tom případě se do toho řetezce vůbec nezapojí ta jednotlivá pole zmíněná v té ukázkové větě, tj. mám koreferenční šipku z “5fields” v předchozí větě na “5fileds” ob větu dál, ale vůbec není poznat, že ta jednotlivá pole v té větě mezi nimi, je vyjmenovaných těch pět polí.. JP: No to se holt nezapojí, ale to se nedá nic dělat - anotuje se jenom koreference a tady koreference není. To je typický bridging, který se ale na angličtině (na rozdíl od češtiny) systematicky nedělá.. KT: Ale tohle je přece příkladný A+B=C bridging, akorát je to A až E… AN: Taky bych to nedelala. Jeste o tom popremyslim a podivam se, co se o tom treba pise, ale pripada mi, ze je to uz moc hluboko. Kdyz je to A … B… oni, tak je to jasne, to je skoro jako koreference akorat ma takovy rozstepeny antecedent, ale dal uz musime jit moc daleko do vyznamu textu, prip. pak i do pragmatiky, coz tady nechceme. | (!) | |
JP, 25.5. | typ “the Soviets” | Mají se výrazy typu “the Soviets” anotovat jako koreferenční se státem? Např. ve větě “However, after two meetings with the Soviets, a State Department spokesman said that it's ``too early to say'' whether that will happen.” mi to přijde docela logické (když se tak mají anotovat i výrazy typu “Moscow”. AN Jo, urcite anotovat. | ||
JP, 25.5. | 1. a 2. osoby | Platí i v angličtině, že se neanotují zájmena první a druhé osoby? (V češtině se neanotovala, ale možná se to bude teď doplňovat, tak jestli by to nestálo za to třeba udělat tady rovnou..) AN Ale urcite anotovat! je to i v tom predbeznem manualku, ktery jsem posilala pred anotaci | ||
JP, 25.5. | Co to jsou named-entities? | Chápe se jako named-entity i něco, co nemá funktor NE nebo ID? Např. jsem narazil na “Spain Fund”, což je název fondu, ale “Spain” má funktor RSTR, tak nevím, jestli ho anotovat.. AN Spain Fund? To je nejaky divny… Ale pokud to neni zrovna Spanish, tak asi anotovat i kdyz je to RSTR. S poznamkou | ||
JP, 25.5. | PersPron v apozici | Narazil jsem na případ, kde je jednou částí apozice zájmeno “it”. Jelikož je to osobní zájmeno, je tam už udělaná koreferenční šipka, a to na druhou část apozice. Předpokládám správně, že se to má rušit? AN Ano, rusit | ||
JP, 22.5. | rušení původních šipek | Některé z již existujících šipek spojují uzly, které nejsou koreferenční. Např. ve větě “Current PCs are more than 50 times faster and have memory capacity 500 times greater than their 1977 counterparts.” Pod uzlem “great” visí povrchově nereprezentované uzly “have” a “PersPron”, které vyjadřují, jakou kapacitu měly ty counterparts. A to “PersPron” je propojené s “capacity”. Koreference tam přitom není, protože jednou jde o kapacitu těch dnešních počítačů, jednou o kapacitu těch starých. V češtině jsme tyhle šipky mazali a dávali tam bridging typu ANAF, což tady nejde. Co s tím? Mazat? AN No jo, ale pak tam zustane #PersPron bez sipky. Ne, nemazat, ale psat tam komentar, ze to v uzkem smyslu neni koreferencni, a ten ANAF tam prosim taky napis. Diky. | ||
JP, 22.5. | “such” | Nejsem si jistý, jestli je úplně vhodné to pravidlo, že výraz s “such” se nikdy neoznačuje. Viz věta “The declaration by Economy Minister Nestor Rapanelli is believed to be the first time such an action has been called for by an Argentine official of such stature.” U toho “such an action” je jasné, že se to označovat nemá. Ale co to “such stature”? Tam mi to přijde, že se to dá dobře chápat jako koreferenční s tím “Minister”, tak bych to anotoval. Podobně jako se to dělalo v češtině: některé výrazy se slovem “takový” se anotovaly, pokud to podle významu byla koreferece, tj. pokud to šlo bez změny významu nahradit slovem “tento”. AN ale jo, taky mi to tak prijde. Muze se to v tom pripade anotovat | ||
EK, 21.5. | komentare | a ty komentare mame psat do annot_comment, nebo primo k tem sipkam (tam je taky misto na komentar) ? AN primo k sipkam. Bude to fungovat az Eva do prida do schematu, po updatnuti rozsireni Bridging EK no jo, ale jak mam udelat komentar, kdyz tam sipka neni? To je ten pripad, na ktery jsem se ptala na wiki - antecedent proste chybi, i kdyz logicky je jasne, ze tam nekde byl. Psala jsi, ze tam nemam davat nic, jenom komentar OTHER. AN Tak to jsem nedomyslila. V takovych pripadech komentare patri uzlum. Jirka Mirovsky k tomu dodela makro, zatim to (snad) jde dodat rozkliknutim celeho uzlu. pokud nejde, tak brzy pujde, prave na tom pracujeme Ale ostatni komentare davejte k sipce, abychom do nich nemuseli psat uzel antecedenta. KT k uzlu to v módu pro bridging přidávat nejde, zatím jsme s honzou přidávali v módu En_T k uzlu poznámku typu coref a do ní příslušný komentář. EK jde to i v bridgingovem modu, kdyz se uzel rozklikne, tak se da zapisovat primo do kolonky anot_comment | ||
AN, 21.5. | Zapis ze schuzky 17.4.12 | * u vyrazu s “such” se koreference az na pripady, kde je to jasne koreferencni nevyznacuje, protoze neodkazuji k tomutez objektu, ale k typu nebo vlastnosti * koreferenci mezi generickymi NP nevyznacujeme (e.g. Japanese investors) * pozor na exophoru (oznacujeme this year, nikoliv vsak yesterday a next year) * pri anotovani na textech (ale i na stromech) davame pozor, ze antecedent neni NE ani ID, ani primy potomek apozicni kontrukce * bridging SUBSET oznacujeme v pripade, kdy anafor = antecedent1 + antecedent2 * kontrolujeme spravnost t-lemmat #PersPron a #Gen * muze se stat, ze jsou NP s urcitym clenem, ktere nemaji antecedent, ale je zvlastni kdyz je NP s ukazovacim zajmenem bez antecedenta. V tom pripade to chce komentar * Oznacujeme vagni a viceznacne pripady v komentarich. Typy budou jeste dodelany. Zatim to piste rucne KOREF AMBIG [text] * Ostatni komentare - KOREF OTHER [text]. Jeste to s temi komentari domyslim * kataforicke konstrukce znacime jako kataforicke (sipka dopredu) e.g. v Crude as they were, these early PCs triggered explosive product development … | ||
KT, 18.4. | šipky u reflexivních zájmen | Ve vzorové větě 20/6 je od themselves k antecedentu gramatická i textová šipka, správně má být jen gramatická. V jiném módu než PML_T_bridging (např. PML_En_T) se zobrazuje jen gramatická šipka. AN To nevadi, tady se nalozila nase gramaticka koreference na OntoNotes. To pak automaticky smazeme. | ||
KT, 18.4. | chyby ve vzorovém souboru? | Ve větě 20/16 jsou od zájmena “he” dvě šipky do předchozí věty, jedna k apoziční čárce, jedna ke jménu. Správně má být pokud se nepletu jen ta k celé apozici. V té samé větě bych ještě vedla šipku od “this” ke slovesu “prompt” v předchozí větě. AN aha, tak ty soubory budeme muset taky prochazet. Voni vlastne nejsou “vzorove”, ale ty, na kterych je anotovana rozsirena koreference v OntoNotes. To ale nemusi vzdy uplne sedet s nasi anotaci. Ano, spravne ta sipka povede na celou apozicni konstrukci | ||
KT, 18.4. | zobrazení šipek obecne | Mnou přidělané šipky se zobrazí v mode PML_T_bridging, nejsou ale vidět v PML_En_T AN Je to v poradku. Ten nastroj se brzy doladi a bude to nejak jednotne. | ||
EK, 21.5. | koreference casu | Kdyz mam v jedne vete “in the early 1950's” a v dalsi “from 1953 to 1955”, mam to znacit jako koreferenci? A “30 years ago”, ktere se vztahuje ke stejne udalosti, se s tim ma spojit taky? AN No clovece nevim… co myslite? Vono je to de facto koreferencni, takze by bylo lito to neznacit. Ale neni to taky samozrejme. Asi znacit s komentarem do OTHER JP Pokud je z kontextu jasné, že se jedná o identické období (tj. že třeba “in the early 1950's” nezahrnuje třeba i rok 1952), tak bych to dělal, jinak ne. | ||
EK, 21.5. | odkaz na zbytek | Co delat s pripady typu: “From 33 men, who […], 28 died. The five surviving men […]” ? Jsou ti “men” koreferencni? Je tam urcity clen, ti druzi “men” se urcitym zpusobem vztahuji k tem prvnim, ale neda se rict, ze to jsou ti sami, tak nevim. AN ne, to urcite neznacit, to jsou ruzni men. Znacilo by se to jako bridging pokud bychom to delali. LH A není to zrovna ten případ bridgingu, co děláme? Pokud se jedná o konkrétních 33 lidí, z nichž 28 umřelo a 5 přežilo…? JM To by to muselo byt v opacnem poradi - nejdriv tech 28 a 5 a az potom tech 33 dohromady. | ||
EK, 21.5. | odkaz na neco, co v textu nevidime, ale nekde predtim to muselo byt | Co mam delat s takovouhle vetou (0009/1): “Clark Vitulli was named president of this U.S. sales and marketing arm of Japanese auto maker Mazda.” K cemu mam navazat “this arm”? Ta veta je v souboru 0009 prvni, ale zrejme navazuje na neco, co nevidim. Mam to oznacit jako segment, nebo exoforu, nebo neco jineho? AN je to zrejme divny pripad, asi ani ne uplne spravny. Nedavejte tam nic, ale piste to do komentaru k OTHER | ||
EK, 21.5. | bridging sipky | technicky problem - kdyz vlozim blede modre bridgingove sipky, tak se neulozi. Kdyz pak soubor zavru a zase otevru, sipky tam nejsou. AN Bude to fungovat az Eva prida atribut bridging do schematu, po updatnuti rozsireni Bridging. Psalo se to do jineho atributu, ktery nebyl v rozsireni. |