[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
anotace-rozsirene-koreference [2008/11/16 12:50]
ufal
anotace-rozsirene-koreference [2012/04/11 15:45]
ufal
Line 1: Line 1:
 ====== Anotace rozšířené koreference ====== ====== Anotace rozšířené koreference ======
 Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.
 +
 +===== PDT 2.0 =====
 +[[PDT 2.0]] na samostatne strance
 +
 +===== PEDT =====
 +
 +[[PEDT]] na samostatne strance
 +
 +
 +
 +
 +
 +
 +
  
  
Line 9: Line 23:
  
 ===== Dokumenty ===== ===== Dokumenty =====
-  * Manuálek k anotaci rozšířené koreference (aktuální verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]] +  * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]] 
-  * Otázky - odpovědi - diskuze (do 6.11.): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/otazky_odpovedi_diskuze.docDOC]] +  * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf PDF]]  
-  * Koreference NP s abstraktním významem: [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]+  * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]] 
 +   * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF|Příklady k zatím nezavedené bridging skupině ANAF]] (nekoreferenční anafora - metajazyk, //takový// apod.) 
 +  * Mezianotatorska neshoda [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/neshoda.pdf | PDF]]
  
 +   
  
-===== Anotátoři ===== 
  
- * **JK**: Jan Křiván 
- * **RO**: Radek Ocelák 
- * **JP**: Jiří Pergler  
- * **AN**: Аня Hедолужко 
  
  
  
  
 +===== Anotátoři =====
  
 +  * **RO**: Radek Ocelák 
 +  * **JP**: Jiří Pergler 
 +  * **AN**: Аня Hедолужко
 +  * (dříve také: **JK**: Jan Křivan)
  
  
Line 38: Line 55:
  
 ===== Diskuze ===== ===== Diskuze =====
-|              ^ problém            ^ diskuze, řešení          ^ techn.pozn.        ^ + 
-^ schůzka_6.11    | řetězec Petr – to dítě – Petr: opačný vztah hyperonymie.          | řetězec Petr – to dítě {coref_text, typ SYN na “Petr”} – Petr {coref_text, typ SYN na “dítě“}ER zatím nerušíme, ale zahrnujeme tam pouze příklady lexikální hyperonymie (viz příklady v manuálku) a odkazy na slovesa a situace (viz tamtéž). „Petr – dítě“ tak spadá do SYN jako jiné slovní označení.  -------------- RO: Byl to ale, Anjo, ten hlavní případ, kvůli kterému jsi chtěla zachovat ER; že se to chová jinak. Zbylé případy zvláštní kategorii myslím nevyžadují už vůbec.\\ JP: Proč se "Petr - to dítě" anotuje jako SYN? Měl jsem dojem, že přesně tenhle příklad jsme na schůzce vyhodnotili jako jeden z mála jednoznačných příkladů koreference typu ER.    | | +[[Diskuze]] na samostatné stránce
-^ schůzka_6.11    | adjektiva odvozené od pojmenovaných entit, typu německý. Často nejde jednoznačně rozhodnout, jestli se dané „německý“ vztahuje k Německu a má tedy být označeno, nebo třeba k Němcům, nebo vůbec k širší množině (jako německý jazyk apod.)| řešíme, zatím anotovat (jak typy Novak-Novakuv tak i Praha-prazsky)                   | | +
-^ schůzka_6.11    | „leden – červen“. … „ve stejném období loňského roku“. Ve stejném období – jednoznačná koherence, odkaz na „leden – červen“, ale nemáme nástroj pro její označení.          | je tu anafora, ale není koreference. Odkazujeme na místo v kalendáři. Docela typický příklad. Zatím nabízím bridging_REST, protože anotujeme hlavně koreferenci a nemůžeme propojit identitou páry, které nejsou koreferenční.        | |  +
-^ dotaz RO     Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují.   Př. nadpis "Cizinec jako našinec", v textu pak jde o zahraniční klienty lázní v Karlových Varech. Nešlo by třeba vést šipku naopak, jakoby kataforu? Popř. paušálně nadpisy neoznačovat? Někde se to ale jako antecedent dá brát - když je třeba v nadpisu "Václav Klaus". |   | | +
-^ dotaz JP     Jakým typem koreference spojovat uzly, z nichž jeden je vyjádřen zkratkou (např. ČR - Česká republika, ODS - Občanská demokratická strana)? Anotuji to jako SYN, i když se pochopitelně nabízí i typ 0. |       | |+
  
  
 ===== Data ===== ===== Data =====
  
 +[[Přehled o anotovaných datech]] na samostatné stránce.
  
 +[[(Polo-)automatické kontroly dat]] na samostatné stránce.
  
  
Line 56: Line 72:
  
  
 +===== Zajímavé/problematické řetězce =====
  
 +[[Problemy|Zajímavé/problematické řetězce]] na samostatné stránce
  
-==== Train-1 ==== 
  
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ 
-| data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | - | cmpr9410_001 - lnd94103_106 | 
-| data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | 
-| data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | - | ln94202_84 - ln94204_78 | 
-| data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | - | ln94206_38, ln94206_56, mf920922_044 | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | - | ln94206_38, ln94206_56, mf920922_044 | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | - | ln94206_38, ln94206_56, mf920922_044 | 
-| data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | - | ln94206_47, ln94206_65 - ln94209_50 | 
-| data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | - | ln94209_6 - ln95047_051 | 
-| data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | - | ln95047_061 - ln95048_102 | 
  
  
  
-===== Zajimavé/problematické řetězce ===== +===== Rozšíření TrEdu =====
-**RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla."  +
-Byl bych pro to, označovat "Cup" - text. kor. O - "takováhle". Zatímco zájmeno k ní odkazuje, "akce" už s ní koreferenční není. (Je to něco jiného než "tato akce".) +
-**JP:** A co třeba vést z uzlu "akce" bridging šipku typu SUB_SET (na "cup")? Vypadá to sice trochu divně vzhledem k tomu, že "akce" je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu "takováhle" jasnou referenci.+
  
-**RO:** "Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo." - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce)formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo "po revoluci roku 1848".+Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory:
  
-**JP:** "Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem." Jak anotovat vztahy ČR ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.)+[[Rozsireni Tredu|Rozšíření TrEdu]] na samostatné stránce
  
-**JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu. 

[ Back to the navigation ] [ Back to the content ]