This is an old revision of the document!
problém | diskuze, řešení | techn.pozn. | ||
---|---|---|---|---|
JP, 30.5. | Výrazy s neurčitým členem | Spíš pro zajímavost uvádím příklad výrazu s neurčitým členem, co by se podle pravidel neměl anotovat: “It's also refreshing to read a Japanese author who clearly doesn't belong to the self-aggrandizing “we-Japanese” school of writers who perpetuate the notion of the unique Japanese, unfathomable by outsiders.” Ten text je o knize jednoho konkrétního spisovatele, na kterého se touhle větou evidentně naráží (“who clearly doesn't belong…”), ale neměla by tu být koreference. V ON ji tu taky nemají. | ||
JP, 28.5. | Exofora u “in the week”? | Může se anotovat exofora u spojení “in the week”? Např. “The government's construction spending figures contrast with a report issued * earlier in the week by McGraw-Hill Inc.'s F.W. Dodge Group.” Přijde mi to logické. AN: Myslim, ze urcite anotovat. | ||
JP, 28.5. | Apozice slovesa a substantiva | Narazil jsem na zajímavou apoziční konstrukci: “factory inventories fell 0.1% in September, the first decline since February 1987”. Jak je vidět, v apozici tu stojí sloveso a substantivum. V TR je to řešeno pomocí uzlu EmpVerb v pravé části apozice, jehož aktorem je výraz “decline”. Nevím, jak je to časté, ale pokud ano, je asi třeba sjednotit řešení těch případů. Po aplikaci všech pravidel jsem se rozhodl vést koreferenční šipku od “decline” k vrcholu apozice, ale je otázka, jestli je to nutné. Jiný případ je zase věta “Lead underwriters for the issue are Scotia McLeod Inc. and RBC Dominion Securities Inc., both Toronto-based investment dealers.” tam tvoří druhou část apozice EmpVerb, na tom visí aktor “both” a patiens “dealers”. Tam jsem odkázal to “both” na “and”. | ||
LH, 27.5. | přivlastňovací zájmena | Když se píše o nějaké firmě a pak její mluvčí řekne “V našich produktech…”, tak značíme odkaz z “našich” k dané společnosti? V manuálku jsem v podobné souvislosti narazila na exoforu, ale tady je v předchozím kontextu jasný antecedent. JP: Řekl bych, že určitě ano, tj. koreference ke společnosti. | ||
KT, 26.5. | bridging v řetězci | Máme se snažit ten náš bridging nějak zakomponovat do koreferenčních řetězců, nebo stojí úplně mimo? Mám třeba větu: 24/7 The Perch and Dolphin fields are expected *-3 to start *-1 producing early next year , and the Seahorse and Tarwhine fields later next year . (a pak ještě páté pole zmíěnné někde předtím) a ve větách předtím i potom se mluví o “five fields”. Má jít v tom případě textový řetězec mezi všemi výsykyty “five fields” apod. a potom od “fields” ve větě po té citované ještě navíc (kromě textové šipky ob větu zpátky) taky bridgingové šipky k těm pěti polím? JP: Rozhodně tam má být ta šipka textové koreference (mezi všemi “5 fields”). S tím bridgingem je to trochu otázka, jelikož to se explicitně neřešilo, ale předpokládal bych, že spíš ne. Totiž že v případech, kdy je z nějakého uzlu vedená koreference, tam už nemá cenu dělat bridging. V češtině by se to bývalo dělalo (i když by to vypadalo trochu jinak), ale tady je ten bridging spíš jenom taková nouzová věc, aby se mohlo zachytit jasné odkazování na více antecedentů, což není potřeba, pokud už je tam koreference. KT: No jo, ale v tom případě se do toho řetezce vůbec nezapojí ta jednotlivá pole zmíněná v té ukázkové větě, tj. mám koreferenční šipku z “5fields” v předchozí větě na “5fileds” ob větu dál, ale vůbec není poznat, že ta jednotlivá pole v té větě mezi nimi, je vyjmenovaných těch pět polí.. JP: No to se holt nezapojí, ale to se nedá nic dělat - anotuje se jenom koreference a tady koreference není. To je typický bridging, který se ale na angličtině (na rozdíl od češtiny) systematicky nedělá.. KT: Ale tohle je přece příkladný A+B=C bridging, akorát je to A až E… | ||
JP, 25.5. | typ “the Soviets” | Mají se výrazy typu “the Soviets” anotovat jako koreferenční se státem? Např. ve větě “However, after two meetings with the Soviets, a State Department spokesman said that it's ``too early to say'' whether that will happen.” mi to přijde docela logické (když se tak mají anotovat i výrazy typu “Moscow”. AN Jo, urcite anotovat. | ||
JP, 25.5. | 1. a 2. osoby | Platí i v angličtině, že se neanotují zájmena první a druhé osoby? (V češtině se neanotovala, ale možná se to bude teď doplňovat, tak jestli by to nestálo za to třeba udělat tady rovnou..) AN Ale urcite anotovat! je to i v tom predbeznem manualku, ktery jsem posilala pred anotaci LH Jak to myslíte? Třeba když budeme mít větu “Já jsem Ignác a tohle je moje auto”, tak povede šipka od “moje” k “já” a od “já” půjde exofora? Nebo jak? V manuálku jsem o tom našla dvě zmínky, jednak že koreference na 1. a 2. osobě se neznačí (str. 12 nahoře) a druhak že se značí při střídání rolí v dialogu (str. 20 nahoře). | ||
JP, 25.5. | Co to jsou named-entities? | Chápe se jako named-entity i něco, co nemá funktor NE nebo ID? Např. jsem narazil na “Spain Fund”, což je název fondu, ale “Spain” má funktor RSTR, tak nevím, jestli ho anotovat.. AN Spain Fund? To je nejaky divny… Ale pokud to neni zrovna Spanish, tak asi anotovat i kdyz je to RSTR. S poznamkou | ||
JP, 25.5. | PersPron v apozici | Narazil jsem na případ, kde je jednou částí apozice zájmeno “it”. Jelikož je to osobní zájmeno, je tam už udělaná koreferenční šipka, a to na druhou část apozice. Předpokládám správně, že se to má rušit? AN Ano, rusit | ||
JP, 22.5. | rušení původních šipek | Některé z již existujících šipek spojují uzly, které nejsou koreferenční. Např. ve větě “Current PCs are more than 50 times faster and have memory capacity 500 times greater than their 1977 counterparts.” Pod uzlem “great” visí povrchově nereprezentované uzly “have” a “PersPron”, které vyjadřují, jakou kapacitu měly ty counterparts. A to “PersPron” je propojené s “capacity”. Koreference tam přitom není, protože jednou jde o kapacitu těch dnešních počítačů, jednou o kapacitu těch starých. V češtině jsme tyhle šipky mazali a dávali tam bridging typu ANAF, což tady nejde. Co s tím? Mazat? AN No jo, ale pak tam zustane #PersPron bez sipky. Ne, nemazat, ale psat tam komentar, ze to v uzkem smyslu neni koreferencni, a ten ANAF tam prosim taky napis. Diky. | ||
JP, 22.5. | “such” | Nejsem si jistý, jestli je úplně vhodné to pravidlo, že výraz s “such” se nikdy neoznačuje. Viz věta “The declaration by Economy Minister Nestor Rapanelli is believed to be the first time such an action has been called for by an Argentine official of such stature.” U toho “such an action” je jasné, že se to označovat nemá. Ale co to “such stature”? Tam mi to přijde, že se to dá dobře chápat jako koreferenční s tím “Minister”, tak bych to anotoval. Podobně jako se to dělalo v češtině: některé výrazy se slovem “takový” se anotovaly, pokud to podle významu byla koreferece, tj. pokud to šlo bez změny významu nahradit slovem “tento”. AN ale jo, taky mi to tak prijde. Muze se to v tom pripade anotovat | ||
EK, 21.5. | komentare | a ty komentare mame psat do annot_comment, nebo primo k tem sipkam (tam je taky misto na komentar) ? AN primo k sipkam. Bude to fungovat az Eva do prida do schematu, po updatnuti rozsireni Bridging EK no jo, ale jak mam udelat komentar, kdyz tam sipka neni? To je ten pripad, na ktery jsem se ptala na wiki - antecedent proste chybi, i kdyz logicky je jasne, ze tam nekde byl. Psala jsi, ze tam nemam davat nic, jenom komentar OTHER. AN Tak to jsem nedomyslila. V takovych pripadech komentare patri uzlum. Jirka Mirovsky k tomu dodela makro, zatim to (snad) jde dodat rozkliknutim celeho uzlu. pokud nejde, tak brzy pujde, prave na tom pracujeme Ale ostatni komentare davejte k sipce, abychom do nich nemuseli psat uzel antecedenta. KT k uzlu to v módu pro bridging přidávat nejde, zatím jsme s honzou přidávali v módu En_T k uzlu poznámku typu coref a do ní příslušný komentář. EK jde to i v bridgingovem modu, kdyz se uzel rozklikne, tak se da zapisovat primo do kolonky anot_comment | ||
AN, 21.5. | Zapis ze schuzky 17.4.12 | * u vyrazu s “such” se koreference az na pripady, kde je to jasne koreferencni nevyznacuje, protoze neodkazuji k tomutez objektu, ale k typu nebo vlastnosti * koreferenci mezi generickymi NP nevyznacujeme (e.g. Japanese investors) * pozor na exophoru (oznacujeme this year, nikoliv vsak yesterday a next year) * pri anotovani na textech (ale i na stromech) davame pozor, ze antecedent neni NE ani ID, ani primy potomek apozicni kontrukce * bridging SUBSET oznacujeme v pripade, kdy anafor = antecedent1 + antecedent2 * kontrolujeme spravnost t-lemmat #PersPron a #Gen * muze se stat, ze jsou NP s urcitym clenem, ktere nemaji antecedent, ale je zvlastni kdyz je NP s ukazovacim zajmenem bez antecedenta. V tom pripade to chce komentar * Oznacujeme vagni a viceznacne pripady v komentarich. Typy budou jeste dodelany. Zatim to piste rucne KOREF AMBIG [text] * Ostatni komentare - KOREF OTHER [text]. Jeste to s temi komentari domyslim * kataforicke konstrukce znacime jako kataforicke (sipka dopredu) e.g. v Crude as they were, these early PCs triggered explosive product development … | ||
KT, 18.4. | šipky u reflexivních zájmen | Ve vzorové větě 20/6 je od themselves k antecedentu gramatická i textová šipka, správně má být jen gramatická. V jiném módu než PML_T_bridging (např. PML_En_T) se zobrazuje jen gramatická šipka. AN To nevadi, tady se nalozila nase gramaticka koreference na OntoNotes. To pak automaticky smazeme. | ||
KT, 18.4. | chyby ve vzorovém souboru? | Ve větě 20/16 jsou od zájmena “he” dvě šipky do předchozí věty, jedna k apoziční čárce, jedna ke jménu. Správně má být pokud se nepletu jen ta k celé apozici. V té samé větě bych ještě vedla šipku od “this” ke slovesu “prompt” v předchozí větě. AN aha, tak ty soubory budeme muset taky prochazet. Voni vlastne nejsou “vzorove”, ale ty, na kterych je anotovana rozsirena koreference v OntoNotes. To ale nemusi vzdy uplne sedet s nasi anotaci. Ano, spravne ta sipka povede na celou apozicni konstrukci | ||
KT, 18.4. | zobrazení šipek obecne | Mnou přidělané šipky se zobrazí v mode PML_T_bridging, nejsou ale vidět v PML_En_T AN Je to v poradku. Ten nastroj se brzy doladi a bude to nejak jednotne. | ||
EK, 21.5. | koreference casu | Kdyz mam v jedne vete “in the early 1950's” a v dalsi “from 1953 to 1955”, mam to znacit jako koreferenci? A “30 years ago”, ktere se vztahuje ke stejne udalosti, se s tim ma spojit taky? AN No clovece nevim… co myslite? Vono je to de facto koreferencni, takze by bylo lito to neznacit. Ale neni to taky samozrejme. Asi znacit s komentarem do OTHER JP Pokud je z kontextu jasné, že se jedná o identické období (tj. že třeba “in the early 1950's” nezahrnuje třeba i rok 1952), tak bych to dělal, jinak ne. | ||
EK, 21.5. | odkaz na zbytek | Co delat s pripady typu: “From 33 men, who […], 28 died. The five surviving men […]” ? Jsou ti “men” koreferencni? Je tam urcity clen, ti druzi “men” se urcitym zpusobem vztahuji k tem prvnim, ale neda se rict, ze to jsou ti sami, tak nevim. AN ne, to urcite neznacit, to jsou ruzni men. Znacilo by se to jako bridging pokud bychom to delali. LH A není to zrovna ten případ bridgingu, co děláme? Pokud se jedná o konkrétních 33 lidí, z nichž 28 umřelo a 5 přežilo…? JM To by to muselo byt v opacnem poradi - nejdriv tech 28 a 5 a az potom tech 33 dohromady. | ||
EK, 21.5. | odkaz na neco, co v textu nevidime, ale nekde predtim to muselo byt | Co mam delat s takovouhle vetou (0009/1): “Clark Vitulli was named president of this U.S. sales and marketing arm of Japanese auto maker Mazda.” K cemu mam navazat “this arm”? Ta veta je v souboru 0009 prvni, ale zrejme navazuje na neco, co nevidim. Mam to oznacit jako segment, nebo exoforu, nebo neco jineho? AN je to zrejme divny pripad, asi ani ne uplne spravny. Nedavejte tam nic, ale piste to do komentaru k OTHER | ||
EK, 21.5. | bridging sipky | technicky problem - kdyz vlozim blede modre bridgingove sipky, tak se neulozi. Kdyz pak soubor zavru a zase otevru, sipky tam nejsou. AN Bude to fungovat az Eva prida atribut bridging do schematu, po updatnuti rozsireni Bridging. Psalo se to do jineho atributu, ktery nebyl v rozsireni. |