[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
anotace-rozsirene-koreference [2009/02/24 16:58]
ufal
anotace-rozsirene-koreference [2009/03/16 10:30]
mirovsky
Line 1: Line 1:
 ====== Anotace rozšířené koreference ====== ====== Anotace rozšířené koreference ======
 Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.
 +
  
  
Line 21: Line 22:
   * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]   * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]
   * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]]    * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]] 
-  * Otázky - odpovědi - diskuze (do 6.11.): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/otazky_odpovedi_diskuze.doc| DOC]] 
   * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]   * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]
    * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF]] (nekoreferenční anafora - metajazyk, //takový// apod.)    * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF]] (nekoreferenční anafora - metajazyk, //takový// apod.)
 +  * Mezianotatorska neshoda [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/neshoda.pdf | PDF]]
 +
        
  
Line 37: Line 39:
   * **JP**: Jiří Pergler    * **JP**: Jiří Pergler 
   * **AN**: Аня Hедолужко   * **AN**: Аня Hедолужко
 +
 +
 +
 +
 +
 +
 +
 +
  
  
Line 42: Line 52:
  
 ===== Diskuze ===== ===== Diskuze =====
 +
 +[[Diskuze]] na samostatné stránce.
  
 |              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^ |              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^
 +^ AN 6.3. | vysledky schuzky 5.3.| **1)** dohodli jsme se neanotovat casti pojmenovanych entit, pokud samy nejsou pojmenovana entita (Oddeleni pro vyzkum ... vyzkum, ministerstvo zemedelstvi - zemedelstvi, ale anotovat ustavni soud CR - CR) **2)** musim presne vymezit typ PART - jako ze anotujeme pokoj - strop, Nemecko - Berlin, mesto - ulice, ale ne mesto - dum, mesto - muzeum. K tomu by se hodil nejaky dobry otazkovy test. **RO**: co třeba otázka "je to část území?" - to by zařadilo stát-město; stát-region; město-ulice; např. oblast-jezero apod., ne už město-dům. Ale možná to nestačí na vyloučení případu město-parkoviště, pokud to nechceme. **3)** zavedli jsme skupinu ANAF pro nekoreferencni anaforicky vztah **4)** //technicke pozadavkyA//: "predanotace stejnych lemmat v danem souboru" - jde o to, ze nechceme redanotovat vsechna stejna lemmata toho mazani sipek bude s velkou pravdepodobnosti vic, nez jejich zavedeni. Chceme ale toto: Pokud otevreme soubor a vidime, ze vsechny (valna vetsina) uzly s danym stejnym lemmatem jsou koreferencni, tak je muzeme propojit jednim krokem. Treba v jednom souboru spojit vsechny uzly s lemmatem "dite", nebo "Durych". **5)** //technicke pozadavkyB//: Dalsi vec se tyka zbarevneni bridgingu. Momentalne mame, ze se barene ukazuji uzly, ktere jsou spojene s oznacenym a dale retezove nahoru. Chteli bychom to trochu zmenit. U textove koreference by to zustalo jak to je. U bridging by se zmenilo to, ze by se neukazal cely retezec, ale jenom ten uzel, ktery je propojen bridgingem s danym uzlem. To je to zuzeni. Na druhou stranu chteli bychom k tomu taky neco pridat, a to aby se blede modre oznacovaly vsechny bridgingy napojene na dany textove koreferencni retezec (ale primo, ne retezove). **6)**  odkaz typu segm neni vzdy koreferencni. Napr. cely text a pak "podobne problemy resime..." jeste neco?| --> M| 
 +^ AN 28.2. | casti pojmenovanych entit| jak na to ted koukam, asi mame zavst pravidlo, neanotovat casti pojmenovanych entit v samostatnych koreferencnich retezcich. Snad to usnadni praci. Jeste to upresnim a probereme to nekdy na schuzce.| --> M| 
 ^ RO 22.2. | počítače, kopírky - vše | Zájmeno "vše"/"všechno" není v základní pronominální anotaci, ale někdy je koreferenční: "X daroval Y počítače, kopírky apod. Vše v hodnotě 1 milión." Myslím že to můžeme anotovat standardním způsobem. **AN:** urcite. Diky!| --> M|  ^ RO 22.2. | počítače, kopírky - vše | Zájmeno "vše"/"všechno" není v základní pronominální anotaci, ale někdy je koreferenční: "X daroval Y počítače, kopírky apod. Vše v hodnotě 1 milión." Myslím že to můžeme anotovat standardním způsobem. **AN:** urcite. Diky!| --> M| 
 ^ RO, 22.2. | město - stát; ulice-město | Podle dosavadních domluv  byl typ město-stát PART-WHOLE, jak teď? Na jednu stranu to není úplně čistá část, na druhou je to pěkně ohraničená skupina případů, takže bych ji navrhoval nechat v PART-WHOLE. A platí, že případ město-ulice/náměstí... neanotujeme nijak? **AN:** mesto - stat: urcite PART-WHOLE. Mesto - ulice - popradve nevim. Rikali jsme, ze neanotujeme "mesto-museum", ale ulice by docela mohlo. | | ^ RO, 22.2. | město - stát; ulice-město | Podle dosavadních domluv  byl typ město-stát PART-WHOLE, jak teď? Na jednu stranu to není úplně čistá část, na druhou je to pěkně ohraničená skupina případů, takže bych ji navrhoval nechat v PART-WHOLE. A platí, že případ město-ulice/náměstí... neanotujeme nijak? **AN:** mesto - stat: urcite PART-WHOLE. Mesto - ulice - popradve nevim. Rikali jsme, ze neanotujeme "mesto-museum", ale ulice by docela mohlo. | |
Line 51: Line 65:
 ^ JP, 16.2. | "ve stejném období tohoto roku" -- typ ANOF?  | Do případného typu ANOF bychom mohli zařadit ten typ "ve stejném období tohoto roku", který jsme kdysi řešili a rozhodli se ho považovat za typ REST. Např. //V prvním pololetí vyrobili provozovatelé vodovodů a kanalizací více než 495 milionů metrů krychlových pitné vody. Je to o 10.19 % méně než ve stejném období roku 1993.// **AN:** No jo, to je takove hranicni. Neni tam uplne zretelne vyjadren anaforicky odkaz. Musim to promyslet.  | | ^ JP, 16.2. | "ve stejném období tohoto roku" -- typ ANOF?  | Do případného typu ANOF bychom mohli zařadit ten typ "ve stejném období tohoto roku", který jsme kdysi řešili a rozhodli se ho považovat za typ REST. Např. //V prvním pololetí vyrobili provozovatelé vodovodů a kanalizací více než 495 milionů metrů krychlových pitné vody. Je to o 10.19 % méně než ve stejném období roku 1993.// **AN:** No jo, to je takove hranicni. Neni tam uplne zretelne vyjadren anaforicky odkaz. Musim to promyslet.  | |
 ^ JP, 16.2. | předanotovaná koreference tam, kde by podle významu měl být bridging REST  | //I vyspělé země se stabilizovanou daňovou soustavou, jako je Spolková republika Německo, Belgie, Švédsko, odhadují ve svých zemích podíl stínové ekonomiky na HDP od devíti do třinácti procent, __země Středomoří dokonce na dvacet až třicet procent__, říká Tomáš Dub a dodává: Osobně si myslím, že se podíl šedé ekonomiky na HDP u nás pohybuje tak okolo 15 procent.// Podtržená část je v tektogramatickém stromě reprezentována mimojiné několika rekonstruovanými uzly: uzlem s lemmatem "odhadovat" a příslušným patientem tohoto slovesa. Tento rekonstruovaný patiens původní anotace označuje jako koreferenční s uzlem "podíl". Významově však jde o jiný podíl, protože to je podíl v jiné zemi. Takový případ by se tedy měl jednoznačně anotovat jako REST. Má se tedy původní koreference zrušit a nahradit bridgingem? Podobná situace je např. ve větě //Podle jeho slov je však její podíl na českém HDP zřejmě nižší než v okolních postkomunistických zemích, kde podle jeho osobního odhadu může dosahovat až čtyřiceti procent.//\\ (Mimochodem, ta první věta je zjevně napsaná logicky špatně, takže ve spojení "svých zemích" jsou oba uzly, spojené závislostí s funktorem APP, koreferenční. Ale to jenom tak na okraj.) **AN:** spis bych rekla ze opravit. Snad takovych pripadu nebude moc| | ^ JP, 16.2. | předanotovaná koreference tam, kde by podle významu měl být bridging REST  | //I vyspělé země se stabilizovanou daňovou soustavou, jako je Spolková republika Německo, Belgie, Švédsko, odhadují ve svých zemích podíl stínové ekonomiky na HDP od devíti do třinácti procent, __země Středomoří dokonce na dvacet až třicet procent__, říká Tomáš Dub a dodává: Osobně si myslím, že se podíl šedé ekonomiky na HDP u nás pohybuje tak okolo 15 procent.// Podtržená část je v tektogramatickém stromě reprezentována mimojiné několika rekonstruovanými uzly: uzlem s lemmatem "odhadovat" a příslušným patientem tohoto slovesa. Tento rekonstruovaný patiens původní anotace označuje jako koreferenční s uzlem "podíl". Významově však jde o jiný podíl, protože to je podíl v jiné zemi. Takový případ by se tedy měl jednoznačně anotovat jako REST. Má se tedy původní koreference zrušit a nahradit bridgingem? Podobná situace je např. ve větě //Podle jeho slov je však její podíl na českém HDP zřejmě nižší než v okolních postkomunistických zemích, kde podle jeho osobního odhadu může dosahovat až čtyřiceti procent.//\\ (Mimochodem, ta první věta je zjevně napsaná logicky špatně, takže ve spojení "svých zemích" jsou oba uzly, spojené závislostí s funktorem APP, koreferenční. Ale to jenom tak na okraj.) **AN:** spis bych rekla ze opravit. Snad takovych pripadu nebude moc| |
-^ JP, 13.2. | "každý z nich"  | Jak se nakonec anotuje "každý z nich"? Kdyby tam bylo "některý z nich", byla by od zájmena koreference na antecedent a mezi "některý" a "z nich" by byl SET. Ale u "každý z nich"? Analogicky by to bylo koreference od zájmena k antecedentu a k tomu ještě koreference mezi "některý" a "z nich"... | |+^ JP, 13.2. | "každý z nich"  | Jak se nakonec anotuje "každý z nich"? Kdyby tam bylo "některý z nich", byla by od zájmena koreference na antecedent a mezi "některý" a "z nich" by byl SET. Ale u "každý z nich"? Analogicky by to bylo koreference od zájmena k antecedentu a k tomu ještě koreference mezi "některý" a "z nich"... **AN:** nevim. kazde reseni vypada dost neintuitivne. Chtelo by to nejakou konvenci. Meli jste toho vic? jak jste to resili?--> S|
 ^ JP, 13.2. | typ "u nás"  | Jak je to s anotací výrazů typu "u nás"? Předpokládal jsem, že se neanotují, protože jde o zájmeno v první osobě, nicméně v manuálu se u typu "tady v Praze" uvádí i příklad "u nás doma"...  **AN:** Pardon, chyba v manualu, nebudeme ty 1/2 osoby dusledne anotovat| | ^ JP, 13.2. | typ "u nás"  | Jak je to s anotací výrazů typu "u nás"? Předpokládal jsem, že se neanotují, protože jde o zájmeno v první osobě, nicméně v manuálu se u typu "tady v Praze" uvádí i příklad "u nás doma"...  **AN:** Pardon, chyba v manualu, nebudeme ty 1/2 osoby dusledne anotovat| |
 ^ JP, 12.2. | typ dnes v 16 hodin  | //"Třídenní koncert nazvaný Trutnov 87 - 94 začíná dnes v 16 hodin v trutnovském letním kině Na bojišti."// Anotuje se nějak vztah mezi //dnes// a //hodin//? Vzhledem k tomu, že v případech typu //u nás doma// se anotuje identická koreference, mi přijde logické označovat v tomto případě vztah SET (a podle dohody by případně šel i PART).  **AN:** Neanotovala bych to vubec, prijde mi to zbytecne | --> M| ^ JP, 12.2. | typ dnes v 16 hodin  | //"Třídenní koncert nazvaný Trutnov 87 - 94 začíná dnes v 16 hodin v trutnovském letním kině Na bojišti."// Anotuje se nějak vztah mezi //dnes// a //hodin//? Vzhledem k tomu, že v případech typu //u nás doma// se anotuje identická koreference, mi přijde logické označovat v tomto případě vztah SET (a podle dohody by případně šel i PART).  **AN:** Neanotovala bych to vubec, prijde mi to zbytecne | --> M|
Line 142: Line 156:
 **RO:** "Společnosti k tomu účelu zvlášť zřízené mohou provozovat loterie...". "K tomu účelu" je sice koreferenční s "provozovat loterie", ale anotuji jako SEGM, protože "společnosti" taky visí na slovese a koreferencí by tu vzniklo asi nevhodné zacyklení. **RO:** "Společnosti k tomu účelu zvlášť zřízené mohou provozovat loterie...". "K tomu účelu" je sice koreferenční s "provozovat loterie", ale anotuji jako SEGM, protože "společnosti" taky visí na slovese a koreferencí by tu vzniklo asi nevhodné zacyklení.
  
-===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== 
  
  
-Honza Krivan, 8.10.2008 
  
-1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten. 
  
-2. Podobna vec v hornim okneobcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny.+ 
 + 
 + 
 + 
 +===== Rozšíření TrEdu ===== 
 + 
 +Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory: 
 + 
 +[[Rozsireni Tredu|Rozšíření TrEdu]] - na samostatné stránce 

[ Back to the navigation ] [ Back to the content ]