[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
anotace-rozsirene-koreference [2009/01/26 17:29]
ufal
anotace-rozsirene-koreference [2009/03/16 10:31]
mirovsky
Line 14: Line 14:
  
  
-===== Dokumenty ===== 
-  * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]] 
-  * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]]  
-  * Otázky - odpovědi - diskuze (do 6.11.): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/otazky_odpovedi_diskuze.doc| DOC]] 
-  * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]] 
-     
  
  
  
-===== Anotátoři ===== 
  
- * **JK**: Jan Křivan 
- * **RO**: Radek Ocelák 
- * **JP**: Jiří Pergler  
- * **AN**: Аня Hедолужко 
  
 +===== Dokumenty =====
 +  * Manuálek k anotaci rozšířené koreference (stručná verze): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/manual_RK_kratky.pdf| PDF]]
 +  * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.):[[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/projekt_anotace.pdf | PDF]] 
 +  * Koreference NP s abstraktním významem (**verze 6.12.**): [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/table_abstr.doc | DOC]]
 +   * //**NEW!**// [[Příklady k zatím nezavedené bridging skupině ANOF]] (nekoreferenční anafora - metajazyk, //takový// apod.)
 +  * Mezianotatorska neshoda [[http://ufal.mff.cuni.cz/~nedoluzko/koref_anot/neshoda.pdf | PDF]]
  
 +   
  
  
Line 37: Line 33:
  
  
 +===== Anotátoři =====
  
 +  * **JK**: * Jan Křivan
 +  * **RO**: Radek Ocelák
 +  * **JP**: Jiří Pergler 
 +  * **AN**: Аня Hедолужко
  
  
Line 51: Line 52:
  
  
 +===== Diskuze =====
  
 +[[Diskuze]] na samostatné stránce.
  
  
- 
- 
- 
- 
- 
- 
- 
- 
-===== Diskuze ===== 
-viz [[zde]] 
  
 ===== Data ===== ===== Data =====
  
-==== Train-1 ====+[[Přehled o anotovaných datech]] na samostatné stránce.
  
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ 
-| data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | 8.12.2008 | cmpr9410_001 - lnd94103_106 | | 
-| data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | | 
-| data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | | 
-| data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | 
-| data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | | 
-| data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | 20.1.2009 | ln94209_6 - ln95047_051 | | 
-| data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | | 
-| data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 |  
-| soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 | | 
  
-==== Train-1/2 ==== 
  
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ 
-| data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | 4.1.2009 | mf920922_135 - mf930713_156, train-2: cmpr9410_002 - cmpr9415_028| po vrácení jsem doplnil původní textovou koreferenci, která v některých souborech chyběla | 
  
-==== Train-2 ==== 
  
-^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ +===== Zajimavé/problematické řetězce ===== 
-| data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | | cmpr9415_038 ln94203_89, lnd| | +**JP: K nejasné hranici mezi koreferencí a bridgingem -- posloupnost "vod":*
-| data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | 23.12.2008 | ln94203_98 - ln94205_84 | po vrácení jsem doplnil původní textovou koreferencikterá některých souborech chyběla | +//(1) V podmínkách ČR je však možné, aby na veřejné vodovody, které jsou schopny zajistit nezávadnou a kontrolovanou pitnou __vodu__, bylo připojeno 92 až 95 procent obyvatel. 
-| data_20081208_Anja.zip | 30 | 510 | 8454 | AN | 8.12.2008 | | ln94205_93 ln94207_93 | | +(2) Pražané snížili spotřebu __vody__. 
-| data_20090106_Radek_Ocelak.zip | 76 | 1005 | 17067 | RO | 7.1.2009 | - | ln94208_101 - ln95046_096 | | +(3) Spotřeba pitné __vody__ v Praze výrazně klesla, nyní je na úrovni let 1982 a 1983. 
-| data_20090106_Jiri_Pergler.zip | 39 | 503 | 8997 | JP | 7.1.2009 | 20.1.2009 | ln95046_106 ln95049_058 | | +(4) Pro Prahu __ji__ vyrábí vodárny Želivka, Káraný a Podolí. 
-| data_20090119_Jiri_Pergler.zip | 40 | 498 | 7910 | JP | 19.1.2009 | 25.1.2009 | ln95049_068 - ln95049_138mf920922_005 - mf930709_055 | zbytek do tisíce vět |+(5) Největší podíl (60 procent) má vodárna využívající __vodu__ z vodního díla Želivka.// 
 +Vodu v první větě jsem chápal jako generickou. Otázka jejak je to ve druhé a třetí tě -- logicky jde jakoby jen o určitou "část generické vody" (tjo tu vodu, která je spotřebována v Praze), nicméně podle struktury vět se podle mě i v těchto případech dá ta voda chápat jako generická Napřv té větě (3) se nemluví o "spotřebě vody spotřebované v Praze", ale jen o "pražské spotřebě vody"Tak nevím, všechny "vody" ve větách (1)--(3) jsem spojil koreferencí NRVe čtvrté větě se už podle mě jasně mluví o té konkrétní "pražské vodě", připojil jsem ji proto jako SUBA v páté větě jde jednoznačně o podmnožinu "obecné vody"jinou než ve větě (4). Ty hranice jsou holt nejasné.
  
 +**JP: Příklad na vztah SET--SUB u uzlu s nespecifickou a uzlu se specifickou referencí:**
 +//O významu přímých investic se můžeme přesvědčit z prvních praktických příkladů. Nejde jenom o samotný příliv peněz, ale také o vytváření pracovních __příležitostí__, zvyšování kvalifikace pracovních sil, zavádění know-how. [...] Celkem dokončené projekty vedly k vytvoření 3500 pracovních __míst__.//
  
- 
-===== Zajimavé/problematické řetězce ===== 
 **AN:** posloupnost "heroinů" (Ind94103_086): **AN:** posloupnost "heroinů" (Ind94103_086):
 (1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu . (1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu .
Line 125: Line 101:
  
 **JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu. **JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." Moskva je zde metonymickým označením pro Rusko, proto to anotuji jako koreferenci typu SYN s NP "Rusko" v předchozím textu.
 +
 +
 +**RO:** "Společnosti k tomu účelu zvlášť zřízené mohou provozovat loterie...". "K tomu účelu" je sice koreferenční s "provozovat loterie", ale anotuji jako SEGM, protože "společnosti" taky visí na slovese a koreferencí by tu vzniklo asi nevhodné zacyklení.
 +
 +
 +
 +
  
  
  
  
-===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== 
  
 +===== Rozšíření TrEdu =====
  
-Honza Krivan, 8.10.2008+Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory:
  
-1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten.+[[Rozsireni Tredu|Rozšíření TrEdu]] - na samostatné stránce
  
-2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny. 

[ Back to the navigation ] [ Back to the content ]