This is an old revision of the document!
problém | diskuze, řešení | techn.pozn. | ||
---|---|---|---|---|
AN, 3.6. | koreference 1. a 2. osoby | Neznacte “exoph” u we, pokud vyskytuje poprve, napr. v: ``We have no useful information on whether users are at risk, said James A. Talcott of Boston's Dana-Farber Cancer Institute. S tim we se muze spojovat jenom normalni textova koreference, pokud jsou pak vyjmenovani ti, kteri to we jsou. | | whether that will happen.” mi to přijde docela logické (když se tak mají anotovat i výrazy typu “Moscow”. AN Jo, urcite anotovat. | ||
JP, 25.5. | 1. a 2. osoby | Platí i v angličtině, že se neanotují zájmena první a druhé osoby? (V češtině se neanotovala, ale možná se to bude teď doplňovat, tak jestli by to nestálo za to třeba udělat tady rovnou..) AN Ale urcite anotovat! je to i v tom predbeznem manualku, ktery jsem posilala pred anotaci | ||
JP, 25.5. | Co to jsou named-entities? | Chápe se jako named-entity i něco, co nemá funktor NE nebo ID? Např. jsem narazil na “Spain Fund”, což je název fondu, ale “Spain” má funktor RSTR, tak nevím, jestli ho anotovat.. AN Spain Fund? To je nejaky divny… Ale pokud to neni zrovna Spanish, tak asi anotovat i kdyz je to RSTR. S poznamkou | ||
JP, 25.5. | PersPron v apozici | Narazil jsem na případ, kde je jednou částí apozice zájmeno “it”. Jelikož je to osobní zájmeno, je tam už udělaná koreferenční šipka, a to na druhou část apozice. Předpokládám správně, že se to má rušit? AN Ano, rusit | ||
JP, 22.5. | rušení původních šipek | Některé z již existujících šipek spojují uzly, které nejsou koreferenční. Např. ve větě “Current PCs are more than 50 times faster and have memory capacity 500 times greater than their 1977 counterparts.” Pod uzlem “great” visí povrchově nereprezentované uzly “have” a “PersPron”, které vyjadřují, jakou kapacitu měly ty counterparts. A to “PersPron” je propojené s “capacity”. Koreference tam přitom není, protože jednou jde o kapacitu těch dnešních počítačů, jednou o kapacitu těch starých. V češtině jsme tyhle šipky mazali a dávali tam bridging typu ANAF, což tady nejde. Co s tím? Mazat? AN No jo, ale pak tam zustane #PersPron bez sipky. Ne, nemazat, ale psat tam komentar, ze to v uzkem smyslu neni koreferencni, a ten ANAF tam prosim taky napis. Diky. | ||
JP, 22.5. | “such” | Nejsem si jistý, jestli je úplně vhodné to pravidlo, že výraz s “such” se nikdy neoznačuje. Viz věta “The declaration by Economy Minister Nestor Rapanelli is believed to be the first time such an action has been called for by an Argentine official of such stature.” U toho “such an action” je jasné, že se to označovat nemá. Ale co to “such stature”? Tam mi to přijde, že se to dá dobře chápat jako koreferenční s tím “Minister”, tak bych to anotoval. Podobně jako se to dělalo v češtině: některé výrazy se slovem “takový” se anotovaly, pokud to podle významu byla koreferece, tj. pokud to šlo bez změny významu nahradit slovem “tento”. AN ale jo, taky mi to tak prijde. Muze se to v tom pripade anotovat | ||
EK, 21.5. | komentare | a ty komentare mame psat do annot_comment, nebo primo k tem sipkam (tam je taky misto na komentar) ? AN primo k sipkam. Bude to fungovat az Eva do prida do schematu, po updatnuti rozsireni Bridging EK no jo, ale jak mam udelat komentar, kdyz tam sipka neni? To je ten pripad, na ktery jsem se ptala na wiki - antecedent proste chybi, i kdyz logicky je jasne, ze tam nekde byl. Psala jsi, ze tam nemam davat nic, jenom komentar OTHER. AN Tak to jsem nedomyslila. V takovych pripadech komentare patri uzlum. Jirka Mirovsky k tomu dodela makro, zatim to (snad) jde dodat rozkliknutim celeho uzlu. pokud nejde, tak brzy pujde, prave na tom pracujeme Ale ostatni komentare davejte k sipce, abychom do nich nemuseli psat uzel antecedenta. KT k uzlu to v módu pro bridging přidávat nejde, zatím jsme s honzou přidávali v módu En_T k uzlu poznámku typu coref a do ní příslušný komentář. EK jde to i v bridgingovem modu, kdyz se uzel rozklikne, tak se da zapisovat primo do kolonky anot_comment | ||
AN, 21.5. | Zapis ze schuzky 17.4.12 | * u vyrazu s “such” se koreference az na pripady, kde je to jasne koreferencni nevyznacuje, protoze neodkazuji k tomutez objektu, ale k typu nebo vlastnosti * koreferenci mezi generickymi NP nevyznacujeme (e.g. Japanese investors) * pozor na exophoru (oznacujeme this year, nikoliv vsak yesterday a next year) * pri anotovani na textech (ale i na stromech) davame pozor, ze antecedent neni NE ani ID, ani primy potomek apozicni kontrukce * bridging SUBSET oznacujeme v pripade, kdy anafor = antecedent1 + antecedent2 * kontrolujeme spravnost t-lemmat #PersPron a #Gen * muze se stat, ze jsou NP s urcitym clenem, ktere nemaji antecedent, ale je zvlastni kdyz je NP s ukazovacim zajmenem bez antecedenta. V tom pripade to chce komentar * Oznacujeme vagni a viceznacne pripady v komentarich. Typy budou jeste dodelany. Zatim to piste rucne KOREF AMBIG [text] * Ostatni komentare - KOREF OTHER [text]. Jeste to s temi komentari domyslim * kataforicke konstrukce znacime jako kataforicke (sipka dopredu) e.g. v Crude as they were, these early PCs triggered explosive product development … | ||
KT, 18.4. | šipky u reflexivních zájmen | Ve vzorové větě 20/6 je od themselves k antecedentu gramatická i textová šipka, správně má být jen gramatická. V jiném módu než PML_T_bridging (např. PML_En_T) se zobrazuje jen gramatická šipka. AN To nevadi, tady se nalozila nase gramaticka koreference na OntoNotes. To pak automaticky smazeme. | ||
KT, 18.4. | chyby ve vzorovém souboru? | Ve větě 20/16 jsou od zájmena “he” dvě šipky do předchozí věty, jedna k apoziční čárce, jedna ke jménu. Správně má být pokud se nepletu jen ta k celé apozici. V té samé větě bych ještě vedla šipku od “this” ke slovesu “prompt” v předchozí větě. AN aha, tak ty soubory budeme muset taky prochazet. Voni vlastne nejsou “vzorove”, ale ty, na kterych je anotovana rozsirena koreference v OntoNotes. To ale nemusi vzdy uplne sedet s nasi anotaci. Ano, spravne ta sipka povede na celou apozicni konstrukci | ||
KT, 18.4. | zobrazení šipek obecne | Mnou přidělané šipky se zobrazí v mode PML_T_bridging, nejsou ale vidět v PML_En_T AN Je to v poradku. Ten nastroj se brzy doladi a bude to nejak jednotne. | ||
EK, 21.5. | koreference casu | Kdyz mam v jedne vete “in the early 1950's” a v dalsi “from 1953 to 1955”, mam to znacit jako koreferenci? A “30 years ago”, ktere se vztahuje ke stejne udalosti, se s tim ma spojit taky? AN No clovece nevim… co myslite? Vono je to de facto koreferencni, takze by bylo lito to neznacit. Ale neni to taky samozrejme. Asi znacit s komentarem do OTHER JP Pokud je z kontextu jasné, že se jedná o identické období (tj. že třeba “in the early 1950's” nezahrnuje třeba i rok 1952), tak bych to dělal, jinak ne. | ||
EK, 21.5. | odkaz na zbytek | Co delat s pripady typu: “From 33 men, who […], 28 died. The five surviving men […]” ? Jsou ti “men” koreferencni? Je tam urcity clen, ti druzi “men” se urcitym zpusobem vztahuji k tem prvnim, ale neda se rict, ze to jsou ti sami, tak nevim. AN ne, to urcite neznacit, to jsou ruzni men. Znacilo by se to jako bridging pokud bychom to delali. LH A není to zrovna ten případ bridgingu, co děláme? Pokud se jedná o konkrétních 33 lidí, z nichž 28 umřelo a 5 přežilo…? JM To by to muselo byt v opacnem poradi - nejdriv tech 28 a 5 a az potom tech 33 dohromady. | ||
EK, 21.5. | odkaz na neco, co v textu nevidime, ale nekde predtim to muselo byt | Co mam delat s takovouhle vetou (0009/1): “Clark Vitulli was named president of this U.S. sales and marketing arm of Japanese auto maker Mazda.” K cemu mam navazat “this arm”? Ta veta je v souboru 0009 prvni, ale zrejme navazuje na neco, co nevidim. Mam to oznacit jako segment, nebo exoforu, nebo neco jineho? AN je to zrejme divny pripad, asi ani ne uplne spravny. Nedavejte tam nic, ale piste to do komentaru k OTHER | ||
EK, 21.5. | bridging sipky | technicky problem - kdyz vlozim blede modre bridgingove sipky, tak se neulozi. Kdyz pak soubor zavru a zase otevru, sipky tam nejsou. AN Bude to fungovat az Eva prida atribut bridging do schematu, po updatnuti rozsireni Bridging. Psalo se to do jineho atributu, ktery nebyl v rozsireni. |