Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
anotace-rozsirene-koreference [2008/12/07 10:01] ufal |
anotace-rozsirene-koreference [2009/03/16 10:31] mirovsky |
||
---|---|---|---|
Line 14: | Line 14: | ||
- | ===== Dokumenty ===== | ||
- | * Manuálek k anotaci rozšířené koreference (stručná verze): [[http:// | ||
- | * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.): | ||
- | * Otázky - odpovědi - diskuze (do 6.11.): [[http:// | ||
- | * Koreference NP s abstraktním významem (**verze 6.12.**): [[http:// | ||
- | | ||
- | ===== Anotátoři ===== | ||
- | * **JK**: Jan Křiván | ||
- | * **RO**: Radek Ocelák | ||
- | * **JP**: Jiří Pergler | ||
- | * **AN**: Аня Hедолужко | ||
+ | ===== Dokumenty ===== | ||
+ | * Manuálek k anotaci rozšířené koreference (stručná verze): [[http:// | ||
+ | * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.): | ||
+ | * Koreference NP s abstraktním významem (**verze 6.12.**): [[http:// | ||
+ | * // | ||
+ | * Mezianotatorska neshoda [[http:// | ||
+ | |||
Line 37: | Line 33: | ||
+ | ===== Anotátoři ===== | ||
+ | * **JK**: * Jan Křivan | ||
+ | * **RO**: Radek Ocelák | ||
+ | * **JP**: Jiří Pergler | ||
+ | * **AN**: Аня Hедолужко | ||
Line 51: | Line 52: | ||
+ | ===== Diskuze ===== | ||
+ | [[Diskuze]] na samostatné stránce. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Diskuze ===== | ||
- | | ^ problém | ||
- | ^ dotaz, AN, 7.12 | typ koreference virus HIV - v tomto směru| Příklad: //Jehly přenášející virus HIV jsou příliš velkým rizikem . A právě to , že dnešní heroin je __v tomto směru__ relativně bezpečný , způsobuje jeho zvyšující se oblibu .// Kam byste vztahli //v tomto směru//? A čím?| | | ||
- | ^ AN, 3.12 | „zaměstnanci – každý ze zaměstnanců“| Poněvadž „každý“ v tektogramatickém stromě má substantivní platnost, v konstrukci „každý ze zaměstnanců“ anotujeme koreferenci od něj, PP „ze zaměstnanců“ necháváme bez šipky, jako závislý uzel. Srov. //(13)Podle přesvědčení majitelů dosáhla prosperity zejména proto , že zaměstnává lidi , na které //{ coref_gram, na „člověk“}// | ||
- | ^ AN, 3.12 | " | ||
- | ^ AN, 3.12 | bridging na spojku | Je možné však i bridging na spojku, pokud je to ze sémantického hlediska logičtější. Srov. //Saldo běžného účtu platební bilance podle odhadu dosáhlo vloni cca 600 mil . USD , tj . téměř 2 % HDP . | ||
- | I když letos a// {bridging, typ_CONTRAST na „vloni“} // | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ Predikát vs. subjekt (JP) | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_6.11 | ||
- | ^ schůzka_6.11 | ||
- | ^ schůzka_6.11 | ||
- | ^ dotaz RO | Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují. | ||
- | ^ dotaz JP | ||
- | ^ dotaz JP | Jak anotovat tento případ? V jedné větě je " | ||
- | ^ dotaz JK | Jak řešíte koreference na pomezí SYN a 0? Mám na mysli takové případy, kdy jsou propojeny dva totožné uzly, ale jejich poduzly se liší (případně chybějí). Např. dvojice: společnost - akciová společnost - společnost Incheba; Vlček - ředitel J. Vlček - Jiří Vlček; ministr financí - ministr - tento ministr atd. | AN: vždy jako typ 0 | +M| | ||
===== Data ===== | ===== Data ===== | ||
+ | [[Přehled o anotovaných datech]] na samostatné stránce. | ||
Line 109: | Line 66: | ||
+ | ===== Zajimavé/ | ||
+ | **JP: K nejasné hranici mezi koreferencí a bridgingem -- posloupnost " | ||
+ | //(1) V podmínkách ČR je však možné, aby na veřejné vodovody, které jsou schopny zajistit nezávadnou a kontrolovanou pitnou __vodu__, bylo připojeno 92 až 95 procent obyvatel. | ||
+ | (2) Pražané snížili spotřebu __vody__. | ||
+ | (3) Spotřeba pitné __vody__ v Praze výrazně klesla, nyní je na úrovni let 1982 a 1983. | ||
+ | (4) Pro Prahu __ji__ vyrábí vodárny Želivka, Káraný a Podolí. | ||
+ | (5) Největší podíl (60 procent) má vodárna využívající __vodu__ z vodního díla Želivka.// | ||
+ | Vodu v první větě jsem chápal jako generickou. Otázka je, jak je to ve druhé a třetí větě -- logicky jde jakoby jen o určitou " | ||
+ | **JP: Příklad na vztah SET--SUB u uzlu s nespecifickou a uzlu se specifickou referencí: | ||
+ | //O významu přímých investic se můžeme přesvědčit z prvních praktických příkladů. Nejde jenom o samotný příliv peněz, ale také o vytváření pracovních __příležitostí__, | ||
- | ==== Train-1 ==== | ||
- | |||
- | ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ | ||
- | | data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | - | cmpr9410_001 - lnd94103_106 | | | ||
- | | data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | | | ||
- | | data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | | | ||
- | | data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | | | ||
- | | data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | - | ln94209_6 - ln95047_051 | | | ||
- | | data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | | | ||
- | | data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 | | ||
- | | soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 | | | ||
- | |||
- | |||
- | ==== Train-1/2 ==== | ||
- | |||
- | ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ | ||
- | | data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | - | mf920922_135 - mf930713_156, | ||
- | |||
- | |||
- | ==== Train-2 ==== | ||
- | |||
- | ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ | ||
- | | data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | - | cmpr9415_038 - ln94203_89, lnd* | | | ||
- | | data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | - | ln94203_98 - ln94205_84 | | | ||
- | |||
- | |||
- | |||
- | ===== Zajimavé/ | ||
**AN:** posloupnost " | **AN:** posloupnost " | ||
(1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu . | (1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu . | ||
Line 155: | Line 89: | ||
(9) __Droga__ je tedy tak účinná , že ten , kdo __ji__ užívá , se snadno dostane do " pohody " kouřením nebo šňupáním . | (9) __Droga__ je tedy tak účinná , že ten , kdo __ji__ užívá , se snadno dostane do " pohody " kouřením nebo šňupáním . | ||
- | Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). | + | Problematické věty jsou hlavně (7) a (8), kde nevím, jak jde propojit vzorky s heroinem, a pak k nim dále připojit surovinu, balíčky, čistý heroin a drogu v (9). V anotaci jsem to nakonec co nejvíc propojila na úkor skutečné koreferenci. |
Line 167: | Line 101: | ||
**JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." | **JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." | ||
+ | |||
+ | |||
+ | **RO:** " | ||
+ | |||
+ | |||
+ | |||
+ | |||
- | ===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== | ||
+ | ===== Rozšíření TrEdu ===== | ||
- | Honza Krivan, 8.10.2008 | + | Pro TrEd existuje rozšíření pro anotaci rozšířené textové koreference a bridging anaphory: |
- | 1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje | + | [[Rozsireni Tredu|Rozšíření TrEdu]] - na samostatné stránce |
- | 2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny. |