Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
anotace-rozsirene-koreference [2008/12/07 09:56] ufal |
anotace-rozsirene-koreference [2012/04/11 15:57] (current) ufal |
||
---|---|---|---|
Line 2: | Line 2: | ||
Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. | Anotace rozšířené koreference je projekt anotace jmenné koreference a asociační anafory (bridging anaphora) na PDT. | ||
+ | ===== PDT 2.0 ===== | ||
+ | [[PDT 2.0]] na samostatne strance | ||
+ | ===== Anotace textove koreference na PEDT ===== | ||
+ | [[PEDT]] na samostatne strance | ||
Line 14: | Line 18: | ||
- | ===== Dokumenty ===== | ||
- | * Manuálek k anotaci rozšířené koreference (stručná verze): [[http:// | ||
- | * Manuálek k anotaci rozšířené koreference (podrobná neupravená verze, 6.12.): | ||
- | * Otázky - odpovědi - diskuze (do 6.11.): [[http:// | ||
- | * Koreference NP s abstraktním významem (**verze 6.12.**): [[http:// | ||
- | | ||
- | |||
- | ===== Anotátoři ===== | ||
- | |||
- | * **JK**: Jan Křiván | ||
- | * **RO**: Radek Ocelák | ||
- | * **JP**: Jiří Pergler | ||
- | * **AN**: Аня Hедолужко | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Diskuze ===== | ||
- | | ^ problém | ||
- | ^ dotaz, AN, 7.12 | typ koreference virus HIV - v tomto směru| Příklad: //Jehly přenášející virus HIV jsou příliš velkým rizikem . A právě to , že dnešní heroin je __v tomto směru__ relativně bezpečný , způsobuje jeho zvyšující se oblibu .// Kam byste vztahli //v tomto směru//? A čím?| | | ||
- | ^ AN, 3.12 | „zaměstnanci – každý ze zaměstnanců“| Poněvadž „každý“ v tektogramatickém stromě má substantivní platnost, v konstrukci „každý ze zaměstnanců“ anotujeme koreferenci od něj, PP „ze zaměstnanců“ necháváme bez šipky, jako závislý uzel. Srov. //(13)Podle přesvědčení majitelů dosáhla prosperity zejména proto , že zaměstnává lidi , na které //{ coref_gram, na „člověk“}// | ||
- | ^ AN, 3.12 | " | ||
- | ^ AN, 3.12 | bridging na spojku | Je možné však i bridging na spojku, pokud je to ze sémantického hlediska logičtější. Srov. //Saldo běžného účtu platební bilance podle odhadu dosáhlo vloni cca 600 mil . USD , tj . téměř 2 % HDP . | ||
- | I když letos a// {bridging, typ_CONTRAST na „vloni“} // | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ Predikát vs. subjekt (JP) | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_2.12 | ||
- | ^ schůzka_6.11 | ||
- | ^ schůzka_6.11 | ||
- | ^ schůzka_6.11 | ||
- | ^ dotaz RO | Je vhodné začínat koreferenční řetězce už u uzlů z nadpisu článku? Moc se mi to nezdá - často jimi žádná jasná reference ještě nevzniká, jsou vytvářeny až po textu a spíš do něj odkazují. | ||
- | ^ dotaz JP | ||
- | ^ dotaz JP | Jak anotovat tento případ? V jedné větě je " | ||
- | ^ dotaz JK | Jak řešíte koreference na pomezí SYN a 0? Mám na mysli takové případy, kdy jsou propojeny dva totožné uzly, ale jejich poduzly se liší (případně chybějí). Např. dvojice: společnost - akciová společnost - společnost Incheba; Vlček - ředitel J. Vlček - Jiří Vlček; ministr financí - ministr - tento ministr atd. | AN: vždy jako typ 0 | +M| | ||
- | |||
- | |||
- | ===== Data ===== | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ==== Train-1 ==== | ||
- | |||
- | ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ | ||
- | | data_20081016_Anja.zip | 28 | 479 | 7190 | AN | 16.10.2008 | - | cmpr9410_001 - lnd94103_106 | | | ||
- | | data_20081016_Radek_Ocelak.zip | 31 | 498 | 8922 | RO | 16.10.2008 | 10.11.2008 | lnd94103_116 - ln94202_75 | | | ||
- | | data_20081016_Jan_Krivan.zip | 31 | 496 | 9305 | JK | 16.10.2008 | 2.12.2008 | ln94202_84 - ln94204_78 | | | ||
- | | data_20081016_Jiri_Pergler.zip | 24 | 246 | 4068 | JP | 16.10.2008 | 6.11.2008 | ln94204_87 - ln94206_29 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | AN | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | RO | 5.11.2008 | 10.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | JK | 5.11.2008 | 2.12.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081105_test_shody.zip | 3 | 41 | 585 | JP | 5.11.2008 | 16.11.2008 | ln94206_38, ln94206_56, mf920922_044 | | | ||
- | | data_20081106_Radek_Ocelak.zip | 41 | 816 | 13178 | RO | 6.11.2008 | 3.12.2008 | ln94206_47, ln94206_65 - ln94209_50 | | | ||
- | | data_20081106_Jan_Krivan.zip | 63 | 801 | 14566 | JK | 6.11.2008 | - | ln94209_6 - ln95047_051 | | | ||
- | | data_20081106_Jiri_Pergler.zip | 19 | 404 | 6862 | JP | 6.11.2008 | 1.12.2008 | ln95047_061 - ln95048_102 | | | ||
- | | data_20081106_nahrada_Radek_Ocelak.zip | 8 | 76 | 1343 | RO | 26.11.2008 | 3.12.2008 | mf920922_054 - mf920922_125 | náhrada za 83 vět (1610 slov) souboru ln94208_11 | | ||
- | | soubor ln94208_11 | 1 | 83 | 1610 | AN | - | 1.12.2008 | ln94208_11 | | | ||
- | |||
- | |||
- | ==== Train-1/2 ==== | ||
- | |||
- | ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ | ||
- | | data_20081202_Radek_Ocelak.zip | 57 | 1029 | 15554 | RO | 2.12.2008 | - | mf920922_135 - mf930713_156, | ||
- | |||
- | |||
- | ==== Train-2 ==== | ||
- | |||
- | ^ data ^ # souborů ^ # vět ^ # slov ^ anotátor ^ odesláno ^ vráceno ^ soubory ^ poznámka ^ | ||
- | | data_20081202_Jan_Krivan.zip | 63 | 1010 | 15951 | JK | 2.12.2008 | - | cmpr9415_038 - ln94203_89, lnd* | | | ||
- | | data_20081202_Jiri_Pergler.zip | 30 | 502 | 8505 | JP | 2.12.2008 | - | ln94203_98 - ln94205_84 | | | ||
- | |||
- | |||
- | ===== Zajimavé/ | ||
- | **AN:** posloupnost " | ||
- | (1) Ačkoli neexistují žádné spolehlivé statistiky , znalci zaregistrovali nárůst zatčení v souvislosti s __heroinem__ a hospitalizací ze stejného důvodu . | ||
- | (2) Jen za rok 1992 stoupla v New Yorku " návštěvnost " oddělení pro zvláštní případy o 34 % a uvězněno bylo o 16 % víc překupníků a pašeráků __této drogy__ . | ||
- | (3) Je jasné , že podmínky pro vznik heroinové epidemie jsou až nebezpečně příznivé , podobně jako tomu bylo v Americe beatnické éry . | ||
- | (4) Od té doby ( tj . přibližně po třicet let ) byl černý trh __tímto opiátem__ přehlcován , a tak __jeho__ cena logicky výrazně poklesla . | ||
- | (5) Nyní stojí skoro stejně jako crack , který patří do levnějších kategorií středně těžkých drog a je právě velice v módě . | ||
- | (6) Současný __heroin__ je také mnohem čistší a jemnější než dříve . | ||
- | (7) V běžném __vzorku__ sedmdesátých let byla pouze 3 - 4 procenta čisté __suroviny__ . | ||
- | (8) Nyní jsou k dostání __balíčky__ obsahující až 80 procent čistého __heroinu__ . | ||
- | (9) __Droga__ je tedy tak účinná , že ten , kdo __ji__ užívá , se snadno dostane do " pohody " kouřením nebo šňupáním . | ||
- | |||
- | Problematické věty jsou hlavně (7) a (8), kde vůbec nevím, jak jde propojit vzorky s heroinem | ||
- | |||
- | |||
- | **RO:** "Jak se vám zamlouvá Pragobanka Cup?" "V tomhle termínu takováhle akce chyběla." | ||
- | Byl bych pro to, označovat " | ||
- | **JP:** A co třeba vést z uzlu " | ||
- | |||
- | **RO:** " | ||
- | |||
- | **JP:** "Dnes, po rozdělení ČSFR, je jasné, že osud ČR bude stále více spojený s Německem a přes něj s Evropskou unií a osud Slovenska s Ruskem." | ||
- | |||
- | **JP:** "Kdo volil Hnutí za demokratické Slovensko (...), volil Moskvu..." | ||
- | |||
- | |||
- | |||
- | |||
- | ===== Zatím nevyřešené poznámky k bridging rozšíření pro TrEd (náměty na zlepšení) ===== | ||
- | |||
- | |||
- | Honza Krivan, 8.10.2008 | ||
- | |||
- | 1. Neni mozne vypnout funkci, kdy pri vybrani slova v kontextovem seznamu vet se strom vycentruje na toto slovo/uzel? Mne napriklad velmi vyhovuje, kdyz si nastavim okoli se stromy (pritom nejsou videt cele), ale tohle centrovani velmi zdrzuje. Mnohem vic by se mi libilo, kdyby se uzel jen zazlutil a sam bych si mohl posunout rolovaci listou. Idealne kdyby centrovani fungovalo jen v okamziku, kdy strom s vybranym slovem jeste neni vubec nacten. | ||
- | |||
- | 2. Podobna vec v hornim okne: obcas zacne program nesmyslne pohybovat s kontextovym seznamem vet: okno zacne rolovat, vybrane slovo se objevi bud na spodu okna, nebo naopak uplne nahore mimo zorne pole... To cele zpusobi jen jedno moje kliknuti na slovo. Uz mi kvuli tomu dokonce spadl i cely program. Idealni by bylo, kdyby se lista vubec nepohybovala a reagovala jen na moje manualni pokyny. |