[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
anotace-rozsirene-koreference [2009/01/26 17:29]
ufal
anotace-rozsirene-koreference [2012/04/11 15:45]
ufal
Line 1: Line 1:
 ====== Anotace rozšířené koreference ====== ====== Anotace rozšířené koreference ======
 Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT.
 +
 +===== PDT 2.0 =====
 +[[PDT 2.0]] na samostatne strance
 +
 +===== PEDT =====
 +
 +[[PEDT]] na samostatne strance
 +
  
  
Line 17: Line 25:
   * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]   * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]
   * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]]    * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]] 
-  * Otázky - odpovědi - diskuze (do 6.11.): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/otazky_odpovedi_diskuze.doc| DOC]] 
   * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]   * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]
-    +   * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF|Příklady k zatím nezavedené bridging skupině ANAF]] (nekoreferenční anafora - metajazyk, //takový// apod.) 
 +  * Mezianotatorska neshoda [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/neshoda.pdf | PDF]]
  
 +   
  
  
-===== Anotátoři ===== 
  
- * **JK**: Jan Křivan 
- * **RO**: Radek Ocelák 
- * **JP**: Jiří Pergler  
- * **AN**: Аня Hедолужко 
  
  
  
 +===== Anotátoři =====
  
 +  * **RO**: Radek Ocelák 
 +  * **JP**: Jiří Pergler 
 +  * **AN**: Аня Hедолужко
 +  * (dříve také: **JK**: Jan Křivan)
  
  
Line 45: Line 54:
  
  
 +===== Diskuze =====
  
 +[[Diskuze]] na samostatné stránce.
  
  
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
- 
-===== Diskuze ===== 
-viz [[zde]] 
  
 ===== Data ===== ===== Data =====
  
-==== Train-1 ==== +[[Přehled o anotovaných datech]] na samostatné stránce.
- +
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ +
-| data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | 8.12.2008 | cmpr9410_001 - lnd94103_106 | | +
-| data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | | +
-| data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | | +
-| data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | +
-| data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | | +
-| data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | 20.1.2009 | ln94209_6 - ln95047_051 | | +
-| data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | | +
-| data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 |  +
-| soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 | | +
- +
-==== Train-1/2 ==== +
- +
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ +
-| data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | 4.1.2009 | mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028| po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla | +
- +
-==== Train-2 ==== +
- +
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ +
-| data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | - | cmpr9415_038 - ln94203_89, lnd* | | +
-| data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | 23.12.2008 | ln94203_98 - ln94205_84 | po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla | +
-| data_20081208_Anja.zip | 30 | 510 | 8454 | AN | 8.12.2008 | - | ln94205_93 - ln94207_93 | | +
-| data_20090106_Radek_Ocelak.zip | 76 | 1005 | 17067 | RO | 7.1.2009 | - | ln94208_101 - ln95046_096 | | +
-| data_20090106_Jiri_Pergler.zip | 39 | 503 | 8997 | JP | 7.1.2009 | 20.1.2009 | ln95046_106 - ln95049_058 | | +
-| data_20090119_Jiri_Pergler.zip | 40 | 498 | 7910 | JP | 19.1.2009 | 25.1.2009 | ln95049_068 - ln95049_138, mf920922_005 - mf930709_055 | zbytek do tisíce vět |+
  
 +[[(Polo-)automatické kontroly dat]] na samostatné stránce.
  
  
-===== Zajimavé/problematické řetězce ===== 
-**AN:** posloupnost "heroinů" (Ind94103_086): 
-(1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu . 
-(2) Jen za rok 1992 stoupla v New Yorku " návštěvnost " oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků __této drogy__ . 
-(3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry . 
-(4) Od té doby ( tj . přibližně po třicet let ) byl černý trh __tímto opiátem__ přehlcován , a tak __jeho__ cena logicky výrazně poklesla . 
-(5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě . 
-(6) Současný __heroin__ je také mnohem čistší a jemnější než dříve . 
-(7) V běžném __vzorku__ sedmdesátých let byla pouze 3 - 4 procenta čisté __suroviny__ . 
-(8) Nyní jsou k dostání __balíčky__ obsahující až 80 procent čistého __heroinu__ . 
-(9) __Droga__ je tedy tak účinná , že ten , kdo __ji__ užívá , se snadno dostane do " pohody " kouřením nebo šňupáním . 
  
-Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci. 
  
  
-**RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla."  
-Byl bych pro to, označovat "Cup" - text. kor. O - "takováhle". Zatímco zájmeno k ní odkazuje, "akce" už s ní koreferenční není. (Je to něco jiného než "tato akce".) 
-**JP:** A co třeba vést z uzlu "akce" bridging šipku typu SUB_SET (na "cup")? Vypadá to sice trochu divně vzhledem k tomu, že "akce" je zde v singuláru, ale na druhou stranu by takto šipka vedla od substantiva, které má na rozdíl od výrazu "takováhle" jasnou referenci. 
  
-**RO:** "Odcizování začalo po roce 1848. Revoluce přece jenom ve standardní duševní výbavě urozeného člověka těžko hledá místo." - Myslím pěkný případ, kdy použít bridging Rest (rok 1848 - revoluce): formálně to nejde spojit jinak, ale koherenci textu to přispívá stejně, jako kdyby tam bylo "po revoluci roku 1848". 
  
-**JP:** "Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem." Jak anotovat vztahy ČR - ČSFR a Slovensko - ČSFR? Nabízí se bridging typu PART, ale přesně vzato to tomu neodpovídá. Jiné možnosti jsou označit to jako REST nebo to neanotovat vůbec. (Něco jiného je vztah SRN - bývalé východní Německo, kde je to jednoznačně PART.)+===== Zajímavé/problematické řetězce =====
  
-**JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu.+[[Problemy|Zajímavé/problematické řetězce]] na samostatné stránce
  
  
  
  
-===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== 
  
 +===== Rozšíření TrEdu =====
  
-Honza Krivan, 8.10.2008+Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory:
  
-1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.+[[Rozsireni Tredu|Rozšíření TrEdu]] - na samostatné stránce
  
-2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny. 

[ Back to the navigation ] [ Back to the content ]