This is an old revision of the document!
Table of Contents
Projekt anotace diskurzu (textových, promluvových vztahů)
Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: navrhy
Cíle projektu
Anotace diskurzu je planována jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (mezipropoziční vztahy, diskurz).
Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy v rámci jednoho stromu) jsou v TR dostatečně zpracované.
V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly:
- zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů
- sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta
Z mezivětných vztahů bychom doplnili:
- propojení přímé řeči o více větách (stromech)
- spojení všech parcelací
Na projektu se podílejí
lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová
technicky: Zdeněk Žabokrtský, Jirka Mírovský, Petr Pajas, Pavel Češka
Zadané práce
LM + ZB: disertace, (ZB na FF )
Podpora projekty
GAČR Evy Hajičové a Šárky Zikánové (od r. 2009)
GAUKy (od r. 2009):
3letý GAUK LM na anotaci konektorů
2letý GAUK ZB na sémantiku synsémantik (na FF)
Možnost mezinárodní spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank
Anotační poznámky
ZDE shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse,
nové poznámky píšeme vždy nahoru, staré nemažeme
Zápisy ze schůzek
podklady pro schůzku 11-02-2008podklady_11-2-2008.pdf
zápis-18-02-2008zapis-18-02-2008.pdf
aktuální plán postupu 20-10-2008diskurz-plan-1-.doc
zápis 07-11-2008 zapis-07-11-2008.doc
zápis 25-11-2008: výběr konektorů k preanotaci 25-11-2008.doc
zápis z 2-12-2008: technické řešení diskurzu technicke-reseni-diskurzu-2-.doc
zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II zapis-15-12-2008.doc
zápis z 30-3-2009 a předchozí: zapis_30_3_09.doc
Další materiály
- Anotace diskurzu v PDT – prezentace pro pondělní seminář ÚFALu 26.11. 2007, ŠZ
- Odkaz na Penn Discourse Treebank 2.0
- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu http://people.csail.mit.edu/regina/6892/
- MANUÁL PDTB 2.0 ke stáhnutí manual_PDTB_2
- Článek a prezentace o diskurzu na konferenci LREC 2008, LM, ŠZ, EH
- Seznamy konektorů od Zuzky:
české konektory
české konektory abecedně
doplněný seznam možných českých konektorů
- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky)
- Zuzčiny poznámky k manuálu PDTB 2.0 poznamky-k-manualu-pdtb_changed.doc
- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) tahak-typy-vztahu.doc
- Základní bibliografie k podklasifikaci textovych vztahůbibliografie-k-podklasifikaci-textovych-vztahu.doc
Aktuálně
(LM, 2.3.2009)
- další úpravy tredu pro anotaci v kontextu discourse
- úpravy setu sémantických textových vztahů
- první cvičná data pro měření shody
- pondělní seminář 9.3. - přehled nejnovější práce
(LM, 5.1.2009)
- první verze tredího kontextu discourse se zabíhá a zkouší
- konverze dat pro anotaci
- oanotovat vybrané konektory:
však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,
nicméně, konkrétně, například, vlastně, vždyť, zatímco
- první zkoumaný konektor: přesto
- první zkoumaná skupina vztahů (z PDTB): contingency
Anotační tabulka
navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce:
1. typ vztahu (r: sarciny zkratky* komentar bez diakritiky) (hvězdička odděluje formalizovanou a volnou část komentáře)
2. rozsah argumentů (1: PAR* nespojita vsuvka s RHEM)
3. konektor (pokud je v textu)
nahraditelnost (nahr: jakým slovem, s diakritikou!)
vazba na pozici - větná, relativní (pozice:)
souvýskyt (s možnými konektory, jiný souvýskyt)(souv:)
negace (neg:)
morfologické zvláštnosti okolí (morfg:)
odkaz do stejného stromu (ss:)
ostatní (etc:)
Spolupráce
- výrazná spolupráce s anotací rozšířené textové koreference (Anja)
- anotace dialogu pro Companions (Silvie)
- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
Rozšíření pro Tred pro anotaci diskurzu
20081217 (JM):
Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anafory. Původní záměr byl, že se budou nadále vyvíjet jako jedno rozšíření, ale to se nepotvrdilo.
Jednoduchý návod k instalaci a použití:
Instalace:
Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/
Nainstalujte rozšíření Discourse Annotation (Session → Manage Extensions)
Ovládání zobrazení:
Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami:
Alt+b - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging
Alt+d - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging)
Alt+f - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny
Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto:
Ctrl+b - přepne zobrazení bridging anafory
Ctrl+r - přepne zobrazení gramatické koreference
Ctrl+t - přepne zobrazení textové koreference
Ctrl+d - přepne zobrazení čistě diskurzních šipek
Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách.
Editace diskurzních šipek:
Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách.
mezera - přepne označení budoucího cílového uzlu diskurzní šipky; možno postupně vybrat více uzlů; používá se též pro výběr uzlů pro vytvoření skupiny
Ctrl+mezera - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně)
f (forget) - ruční zapomenutí všech označených uzlů
d (discourse) - vloží diskurzní šipku z aktuálního uzlu do zapamatovaného uzlu; zobrazí se dialogové okno pro vložení typu
c (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
r (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
x - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
Práce se skupinami uzlů:
Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto:
- v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě
- při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky
g (group) - vytvoří skupinu z označených uzlů
Ctrl+g - zruší první skupinu, jejíž prvkem je aktuální uzel
V případě, že začátek a/nebo konec šipky je v reprezentujícím uzlu nějaké skupiny, tento začátek a/nebo konec šipky se vztahuje k celé skupině. V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky.
Ostatní:
Ctrl+c (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky)
Ctrl+k (asi 'k'olaps) - přepne kolapsované zobrazení uzlů
Interní poznámky
interní poznámky pouze pro přihlášené
Bibliografie k diskurzu
výběr článků a statí:
Adamec, P. (1995). Konektivní částice a jiné textově propojovací výrazy v současné češtině. In Přednášky z 37. a 38. běhu LŠSS, Praha: Univerzita Karlova, s. 59-64.
Asher, N. (1993). Reference to Abstract Objects in Discourse. Kluwer Academic Publishers, Dordrecht.
Asher, N. – Lascarides, A. (2003). Logics of Conversation. Cambridge University Press.
Bedřichová, Z. (2008). Částice implikující presupozici v češtině, diplomová práce. Univerzita Karlova, Praha.
Daneš, F. (1985). Věta a text. Academia, Praha.
Hajič, J. et al. (2006). Prague Dependency Treebank 2.0. Linguistic Data Consortium, Philadelphia.
Hajičová, E. (1993). Issues of Sentence Structure and Discourse Patterns. Charles University, Prague.
Hajičová, E. et al. (2006). An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82–89.
Halliday, M. A. K. – Hasan, R. (1976). Cohesion in English. Longman, London.
Helbig, H. (2005). Knowledge Representation and the Semantics of Natural Language. Springer.
Hobbs, J. R. (1985). On the Coherence and Structure of Discourse, Report No. CSLI-85-37, Center for the Study of Language and Information, Stanford University.
Hoffmannová, J. (1983). Sémantické a pragmatické aspekty koherence textu. Disertační práce, Linguistica VI, ČSAV, Praha.
Joshi, A. et al. (2006). Discourse Annotation: Discourse Connectives and Discourse Relations. Tutorial at the Association for Computational Linguistics, Sydney.
Lee, A. et al. (2006). Complexity of Dependencies in Discourse: Are Dependencies in Discourse More Complex Than in Syntax? Proceedings of the 5th International Workshop on Treebanks and Linguistic Theories. Prague.
Mikulová, M. et al. (2005). Annotation on the Tectogrammatical Layer in the Prague Dependency Treebank: Annotation Manual. Universitas Carolina Pragensis, Prague.
Miltsakaki, E. et al. (2004). The Penn Discourse Treebank. In Proceedings of the Fourth International Conference on Language Resources and Evaluation. LREC 2004, Lisbon, Portugal.
Mladová, L. (2008). Diskurzní vztahy v češtině a jejich zachycení v anotovaném korpusu. Diplomová práce. Univerzita Karlova, Praha.
Nedoluzhko, A. (2007). Zpráva k anotování rozšířené textové koreference a bridging vztahů v Pražském závislostním korpusu. Technická zpráva. Univerzita Karlova, Praha.
Novák, V. (2008). Semantic Network Manual Annotation and its Evaluation. Institute of Formal and Applied Linguistics, Charles University, Prague
Pasch, R. et al. (2003). Handbuch der deutschen Konnektoren. Walter De Gruyter Inc.
Prasat, R. et al. (2008). Penn Discourse Treebank Version 2.0. Linguistic Data Consortium, Philadelphia.
Seuren, P.A.M. (1985). Discourse Semantics. Blackwell Pub.
Sgall, P. et al. (1969). A Functional Approach to Syntax in Generative Description of Language. Američan Elsevier, New York.
The Penn Discourse Treebank 1.0 Annotation Manual. (2006). http://www.seas.upenn.edu/~pdtb/papers/pdtb-1.0-annotation-manual.pdf
The Penn Discourse Treebank 2.0 Annotation Manual. (2007). http://www.seas.upenn.edu/~pdtb/PDTBAPI/pdtb-annotation-manual.pdf
The Prague Czech-English Dependency Treebank 1.0 http://ufal.mff.cuni.cz/pcedt/doc/PCEDT_main.html
Webber, B. (2004). D-LTAG: Extending Lexicalized TAG to Discourse. Cognitive Science, 28 (5), pp. 751-779.
Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics, Charles University, Prague.