[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
projekt-anotace-diskurzu [2008/05/09 15:54]
anotator vytvořeno
projekt-anotace-diskurzu [2008/12/17 16:52]
mirovsky
Line 1: Line 1:
-====== Projekt anotace diskurzu ======+====== Projekt anotace diskurzu (mezipropozičních vztahů)======
  
-==== Předběžné poznámky a materiály k projektu: ====+Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zdehttps://wiki.ufal.ms.mff.cuni.cz/internal:pdt25:navrhy
  
  
-Rovina anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (diskurz). 
  
-==== Kdo se v tom, alespoň částečně, angažuje: ====+==== Cíle projektu ====
  
-prof. E. HajičováŠárka ZikánováLucie Mladová, Zdeněk ŽabokrtskýZuzka BedřichováKatka Veselá +Anotace diskurzu je planována jako součást další“vyšší” roviny v PDTve které bude podrobně zpracována koreferencepojmenované entity a textové vztahy (mezipropoziční vztahydiskurz). 
-==== Zadané práce: ==== +Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), tudíž je TR zatím nezachycujeTR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy v rámci jednoho stromu) jsou v TR dostatečně zpracované. 
- LM + ZB: disertace, ZB na FF :-+
-==== Granty: ==== +
- čeká se na schválení GAČRu paní profesorky Hajičové Šárky Zikánové +
-Možnost mezinárodního grantu v návaznosti na profJoshiho a Penn Discourse Treebank+
  
-==== Materiály====+V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly: 
 +- zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů 
 +- sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta 
 +Z mezivětných vztahů bychom doplnili: 
 +- propojení přímé řeči o více větách (stromech) 
 +- spojení všech parcelací 
  
-Poznámky + zápisy z “diskurzních sezení”: 
-{{podklady_11-2-2008.pdf|podklady_schuzka 11-02-2008}} 
-{{zapis-18-02-2008.pdf|zapis_schuzka 18-02-2008}} 
  
-Brzy přibudou též: 
  
-Anotace diskurzu v PDT – prezentace pro ÚFAL  26.11. 2007, Šárka Zikánová +==== Na projektu se podílejí ====  
-Článek o diskurzu na LREC 2008 +
-Diplomka LM+
  
-==== Kooperace==== +lingvistickyprof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová 
-- výrazná kooperace s anotací TFA a koreference (rozvedení anotace textové koreference) +technicky: Zdeněk ŽabokrtskýJirka Mírovský, Pavel Češka
-- anotace dialogu pro Companions (Silvie) +
-technicky: vytvoření anotačního prostředí – kontext “megatree” v treduprvní hrubou verzi už dal dohromady Pepa Toman:+
  
-demo+==== Zadané práce ==== 
 + LM + ZB: disertace, (ZB na FF :-)) 
 + 
 + 
 +==== Plánovaná podpora projekty ==== 
 +Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové 
 +Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
 + 
 +Zadané návrhy na granty (všechny nové): 
 +GAUKy : 
 +3letý GAUK LM na anotaci konektorů 
 +2letý GAUK ZB na sémantiku synsémantik (na FF) 
 +1letý GAUK Pavla Češky na technickou podporu anotace diskurzu 
 + 
 +==== Zápisy ze schůzek ==== 
 +podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} 
 +zápis-18-02-2008{{zapis-18-02-2008.pdf|}} 
 +aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} 
 +zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
 +zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} 
 +zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} 
 +zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}} 
 + 
 +==== Další materiály ==== 
 +- Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ 
 +- Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] 
 +- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} 
 +- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH 
 +- Seznamy konektorů od Zuzky:  
 +{{czech-connectives.xls|české konektory}}  
 +{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
 +{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
 +- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) 
 +- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}} 
 + 
 + 
 +==== Aktuálně ==== 
 +- domyslet technické řešení anotace diskurzu 
 +- převést to do TrEdu 
 +- oanotovat vybrané konektory:  
 +**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  
 +   nicméně, konkrétně, například, vlastně, vždyť, zatímco** 
 + 
 +- první zkoumaný konektor: **přesto** 
 +- první zkoumaná skupina vztahů (z PDTB): **contingency** 
 + 
 +**- navržená tabulka vlastností konektorů pro anotaci:** 
 + 
 +  - typ vztahu 
 +  - nahraditelnost 
 +  - vazba na pozici (větná, relativní) 
 +  - souvýskyt (s možnými konektory, jiný souvýskyt) 
 +  - negace 
 +  - morfologické zvláštnosti okolí 
 +  - odkaz do stejného stromu 
 +  - ostatní 
 + 
 + 
 + 
 +==== Spolupráce ==== 
 +- výrazná spolupráce s anotací rozšířené textové koreference (Anja) 
 +- anotace dialogu pro Companions (Silvie 
 +- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka 
 + 
 +ukázka megastromu, stav z března 2008:  
 +{{megastrom2.png|}} 
 + 
 +==== Rozšíření pro Tred pro anotaci diskurzu ==== 
 +20081217 (JM): Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anafory. Zachovává funkčnost původního rozšíření, s tím, 
 +že se dále budou možná vyvíjet jako jedno rozšíření. 
 +== Jednoduchý návod k instalaci a použití: == 
 + 
 +==== Bibliografie k diskurzu ==== 
 +výběr článků a statí: 
 + 
 +Adamec, P. (1995). Konektivní částice a jiné textově propojovací výrazy v současné češtině. In Přednášky z 37. a 38. běhu LŠSS, Praha: Univerzita Karlova, s. 59-64. 
 + 
 +Asher, N. (1993). Reference to Abstract Objects in Discourse. Kluwer Academic Publishers, Dordrecht. 
 + 
 +Asher, N. – Lascarides, A. (2003). Logics of Conversation. Cambridge University Press. 
 + 
 +Bedřichová, Z. (2008). Částice implikující presupozici v češtině, diplomová práce. Univerzita Karlova, Praha. 
 + 
 +Daneš, F. (1985). Věta a text. Academia, Praha. 
 + 
 +Hajič, J. et al. (2006). Prague Dependency Treebank 2.0. Linguistic Data Consortium, Philadelphia. 
 + 
 +Hajičová, E. (1993). Issues of Sentence Structure and Discourse Patterns. Charles University, Prague. 
 + 
 +Hajičová, E. et al. (2006). An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82–89. 
 + 
 +Halliday, M. A. K. – Hasan, R. (1976). Cohesion in English. Longman, London. 
 + 
 +Helbig, H. (2005). Knowledge Representation and the Semantics of Natural Language. Springer. 
 + 
 +Hobbs, J. R. (1985). On the Coherence and Structure of Discourse, Report No. CSLI-85-37, Center for the Study of Language and Information, Stanford University. 
 + 
 +Hoffmannová, J. (1983). Sémantické a pragmatické aspekty koherence textu. Disertační práce, Linguistica VI, ČSAV, Praha. 
 + 
 +Joshi, A. et al. (2006). Discourse Annotation: Discourse Connectives and Discourse Relations. Tutorial at the Association for Computational Linguistics, Sydney. 
 + 
 +Lee, A. et al. (2006). Complexity of Dependencies in Discourse: Are Dependencies in Discourse More Complex Than in Syntax? Proceedings of the 5th International Workshop on Treebanks and Linguistic Theories. Prague. 
 + 
 +Mikulová, M. et al. (2005). Annotation on the Tectogrammatical Layer in the Prague Dependency Treebank: Annotation Manual. Universitas Carolina Pragensis, Prague. 
 + 
 +Miltsakaki, E. et al. (2004). The Penn Discourse Treebank. In Proceedings of the Fourth International Conference on Language Resources and Evaluation. LREC 2004, Lisbon, Portugal. 
 + 
 +Mladová, L. (2008). Diskurzní vztahy v češtině a jejich zachycení v anotovaném korpusu. Diplomová práce. Univerzita Karlova, Praha. 
 + 
 +Nedoluzhko, A. (2007). Zpráva k anotování rozšířené textové koreference a bridging vztahů v Pražském závislostním korpusu. Technická zpráva. Univerzita Karlova, Praha. 
 + 
 +Novák, V. (2008). Semantic Network Manual Annotation and its Evaluation. Institute of Formal and Applied Linguistics, Charles University, Prague 
 + 
 +Pasch, R. et al. (2003). Handbuch der deutschen Konnektoren. Walter De Gruyter Inc. 
 + 
 +Prasat, R. et al. (2008). Penn Discourse Treebank Version 2.0. Linguistic Data Consortium, Philadelphia. 
 + 
 +Seuren, P.A.M. (1985). Discourse Semantics. Blackwell Pub. 
 + 
 +Sgall, P. et al. (1969). A Functional Approach to Syntax in Generative Description of Language. Američan Elsevier, New York. 
 + 
 +The Penn Discourse Treebank 1.0 Annotation Manual. (2006). http://www.seas.upenn.edu/~pdtb/papers/pdtb-1.0-annotation-manual.pdf 
 + 
 +The Penn Discourse Treebank 2.0 Annotation Manual. (2007). http://www.seas.upenn.edu/~pdtb/PDTBAPI/pdtb-annotation-manual.pdf 
 + 
 +The Prague Czech-English Dependency Treebank 1.0 http://ufal.mff.cuni.cz/pcedt/doc/PCEDT_main.html 
 + 
 +Webber, B. (2004). D-LTAG: Extending Lexicalized TAG to Discourse. Cognitive Science, 28 (5), pp. 751-779. 
 + 
 +Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics, Charles University, Prague.

[ Back to the navigation ] [ Back to the content ]