[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
anotace-rozsirene-koreference [2008/12/02 14:30]
mirovsky
anotace-rozsirene-koreference [2009/03/16 10:32]
mirovsky
Line 12: Line 12:
  
  
-===== Dokumenty ===== 
-  * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]] 
-  * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]]  
-  * Otázky - odpovědi - diskuze (do 6.11.): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/otazky_odpovedi_diskuze.doc| DOC]] 
-  * Koreference NP s abstraktním významem: [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]] 
-    * Přidávám k poslednímu dokumentu: JK; jmění-jmění, navýšení-navýšení; Základní jmění společnosti je jeden milion korun a podle J. Vlčka její představitelé uvažují na začátku příštího roku o navýšení tohoto jmění. O formě navýšení zatím není rozhodnuto.; obojí coref-text, typ_0 
  
  
  
-===== Anotátoři ===== 
  
- * **JK**: Jan Křiván 
- * **RO**: Radek Ocelák 
- * **JP**: Jiří Pergler  
- * **AN**: Аня Hедолужко 
  
  
  
 +===== Dokumenty =====
 +  * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]
 +  * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]] 
 +  * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]
 +   * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF]] (nekoreferenční anafora - metajazyk, //takový// apod.)
 +  * Mezianotatorska neshoda [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/neshoda.pdf | PDF]]
  
 +   
  
  
Line 37: Line 33:
  
  
 +===== Anotátoři =====
  
 +  * **JK**: * Jan Křivan
 +  * **RO**: Radek Ocelák
 +  * **JP**: Jiří Pergler 
 +  * **AN**: Аня Hедолужко
  
  
Line 52: Line 53:
  
 ===== Diskuze ===== ===== Diskuze =====
-|              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^ + 
-^ schůzka_6.11    | řetězec Petr – to dítě – Petr: opačný vztah hyperonymie.          | řetězec Petr – to dítě {coref_text, typ SYN na “Petr”} – Petr {coref_text, typ SYN na “dítě“}ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení.  -------------- RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec.\\ JP: Proč se "Petr - to dítě" anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER.    | | +[[Diskuze]] na samostatné stránce
-^ schůzka_6.11    | adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.)| řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky)                   | | + 
-^ schůzka_6.11    | „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení.          | je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST, protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční.        | |  +
-^ dotaz RO     Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují.   Př. nadpis "Cizinec jako našinec", v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat? Někde se to ale jako antecedent dá brát - když je třeba v nadpisu "Václav Klaus". |AN: myslím, že by se to stejně melo anotovat - jiný nástroj pro propojení nadpisu a textu článku nemáme a je dobře to mít propojené. Také technicky záhlaví jde potom vždy oddělit    | | +
-^ dotaz JP     Jakým typem koreference spojovat uzly, z nichž jeden je vyjádřen zkratkou (např. ČR - Česká republika, ODS - Občanská demokratická strana)? Anotuji to jako SYN, i když se pochopitelně nabízí i typ 0. |AN: raději SYN       | | +
-^ dotaz JP     Jak anotovat tento případ? V jedné větě je "...někdejší ministr vnitra Barák...", o několik vět dál je "do funkce ministra vnitra nastoupil Rudolf Barák...". Jako typ 0 se samozřejmě propojí Barák-Barák. Ale co s uzly "ministr" a "ministra" (příp. "funkce")? Prozatím to nespojuji, ale taky by bylo možné to projit např. koreferencí typu NR. |   AN: nepropojovala bych to - v pozici antecedenta 'ministr' visi jako zavisky na Barak, navic 'ministry' tady nejsou koreferencni | | +
-^ dotaz JK     Jak řešíte koreference na pomezí SYN a 0? Mám na mysli takové případy, kdy jsou propojeny dva totožné uzly, ale jejich poduzly se liší (případně chybějí). Např. dvojice: společnost - akciová společnost - společnost Incheba; Vlček - ředitel J. Vlček - Jiří Vlček; ministr financí - ministr - tento ministr atd.  |  | |+
  
 ===== Data ===== ===== Data =====
 +
 +[[Přehled o anotovaných datech]] na samostatné stránce.
 +
  
  
-==== Train-1 ==== 
  
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ 
-| data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | - | cmpr9410_001 - lnd94103_106 | | 
-| data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | | 
-| data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | | 
-| data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | - | ln94206_47, ln94206_65 - ln94209_50 | | 
-| data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | - | ln94209_6 - ln95047_051 | | 
-| data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | - | ln95047_061 - ln95048_102 | | 
-| data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | - | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 |  
  
  
 ===== Zajimavé/problematické řetězce ===== ===== Zajimavé/problematické řetězce =====
 +
 +[[Problemy|Zajímavé/problematické řetězce]] na samostatné stránce
 +
 +**JP: K nejasné hranici mezi koreferencí a bridgingem -- posloupnost "vod":**
 +//(1) V podmínkách ČR je však možné, aby na veřejné vodovody, které jsou schopny zajistit nezávadnou a kontrolovanou pitnou __vodu__, bylo připojeno 92 až 95 procent obyvatel.
 +(2) Pražané snížili spotřebu __vody__.
 +(3) Spotřeba pitné __vody__ v Praze výrazně klesla, nyní je na úrovni let 1982 a 1983.
 +(4) Pro Prahu __ji__ vyrábí vodárny Želivka, Káraný a Podolí.
 +(5) Největší podíl (60 procent) má vodárna využívající __vodu__ z vodního díla Želivka.//
 +Vodu v první větě jsem chápal jako generickou. Otázka je, jak je to ve druhé a třetí větě -- logicky jde jakoby jen o určitou "část generické vody" (tj. o tu vodu, která je spotřebována v Praze), nicméně podle struktury vět se podle mě i v těchto případech dá ta voda chápat jako generická.  Např. v té větě (3) se nemluví o "spotřebě vody spotřebované v Praze", ale jen o "pražské spotřebě vody". Tak nevím, všechny "vody" ve větách (1)--(3) jsem spojil koreferencí NR. Ve čtvrté větě se už podle mě jasně mluví o té konkrétní "pražské vodě", připojil jsem ji proto jako SUB. A v páté větě jde jednoznačně o podmnožinu "obecné vody", jinou než ve větě (4). Ty hranice jsou holt nejasné.
 +
 +**JP: Příklad na vztah SET--SUB u uzlu s nespecifickou a uzlu se specifickou referencí:**
 +//O významu přímých investic se můžeme přesvědčit z prvních praktických příkladů. Nejde jenom o samotný příliv peněz, ale také o vytváření pracovních __příležitostí__, zvyšování kvalifikace pracovních sil, zavádění know-how. [...] Celkem dokončené projekty vedly k vytvoření 3500 pracovních __míst__.//
 +
 +**AN:** posloupnost "heroinů" (Ind94103_086):
 +(1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu .
 +(2) Jen za rok 1992 stoupla v New Yorku " návštěvnost " oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků __této drogy__ .
 +(3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry .
 +(4) Od té doby ( tj . přibližně po třicet let ) byl černý trh __tímto opiátem__ přehlcován , a tak __jeho__ cena logicky výrazně poklesla .
 +(5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě .
 +(6) Současný __heroin__ je také mnohem čistší a jemnější než dříve .
 +(7) V běžném __vzorku__ sedmdesátých let byla pouze 3 - 4 procenta čisté __suroviny__ .
 +(8) Nyní jsou k dostání __balíčky__ obsahující až 80 procent čistého __heroinu__ .
 +(9) __Droga__ je tedy tak účinná , že ten , kdo __ji__ užívá , se snadno dostane do " pohody " kouřením nebo šňupáním .
 +
 +Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci.
 +
 +
 **RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla."  **RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla." 
 Byl bych pro to, označovat "Cup" - text. kor. O - "takováhle". Zatímco zájmeno k ní odkazuje, "akce" už s ní koreferenční není. (Je to něco jiného než "tato akce".) Byl bych pro to, označovat "Cup" - text. kor. O - "takováhle". Zatímco zájmeno k ní odkazuje, "akce" už s ní koreferenční není. (Je to něco jiného než "tato akce".)
Line 91: Line 105:
  
 **JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu. **JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu.
 +
 +
 +**RO:** "Společnosti k tomu účelu zvlášť zřízené mohou provozovat loterie...". "K tomu účelu" je sice koreferenční s "provozovat loterie", ale anotuji jako SEGM, protože "společnosti" taky visí na slovese a koreferencí by tu vzniklo asi nevhodné zacyklení.
 +
 +
 +
 +
  
  
  
  
-===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== 
  
 +===== Rozšíření TrEdu =====
  
-Honza Krivan, 8.10.2008+Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory:
  
-1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.+[[Rozsireni Tredu|Rozšíření TrEdu]] - na samostatné stránce
  
-2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny. 

[ Back to the navigation ] [ Back to the content ]