[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
projekt-anotace-diskurzu [2008/11/11 10:29]
ufal
projekt-anotace-diskurzu [2018/10/19 13:24]
ufal [__Rozšíření TrEdu pro anotaci diskurzu_]
Line 1: Line 1:
-====== Projekt anotace diskurzu ======+====== Projekt anotace diskurzu (textových, promluvových vztahů)======
  
 +Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal:pdt25:navrhy]]
  
-==== Předběžné poznámky a materiály k projektu ==== 
  
-Anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (diskurz). 
  
-==== Kdo se v tom angažuje ====  +==== Cíle projektu ====
  
-prof. E. HajičováŠárka ZikánováLucie Mladová, Zdeněk ŽabokrtskýZuzka BedřichováKatka Veselá +Anotace diskurzu je planována jako součást další“vyšší” roviny v PDTve které bude podrobně zpracována koreferencepojmenované entity a textové vztahy (mezipropoziční vztahydiskurz). 
-==== Zadané práce ==== +Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahykteré se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy rámci jednoho stromu) jsou v TR dostatečně zpracované
- LM + ZB: disertace(ZB na FF :-)) +
-==== Granty ==== +
-Čeká se na schválení GAČRu paní profesorky Hajičové Šárky Zikánové +
-Možnost mezinárodního grantu návaznosti na profJoshiho a Penn Discourse Treebank+
  
 +V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly:
 +- zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů
 +- sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta
 +Z mezivětných vztahů bychom doplnili:
 +- propojení přímé řeči o více větách (stromech)
 +- spojení všech parcelací 
  
  
Line 21: Line 22:
  
  
-==== Materiály ====+==== Na projektu se podílejí ====   
 + 
 +lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová) 
 +technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský) 
 + 
 +anotátoři: 
 + 
 +**PJ** Pavlína Jínová 
 +**VP** Veronika Pavlíková 
 +**MR** Magdaléna Rysová 
 +**JZ** Jana Zdeňková 
 +(dříve i **HF** Helena Filipová) 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Průběh projektu ==== 
 + 
 +[[projekt-anotace-diskurzu:prubeh|Průběh projektu]] na samostatné stránce 
 + 
 +==== VŠE K ANOTACI ==== 
 + 
 +[[:internal:projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Různé materiály ==== 
 +- Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] 
 +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] 
 +- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ 
 +|http://people.csail.mit.edu/regina/6892/]] 
 +- MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}} 
 +- Seznamy konektorů od Zuzky:  
 +{{internal:czech-connectives.xls|české konektory}}  
 +{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
 +{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
 +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} 
 +- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} 
 +- Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} 
 + 
 +==== Bylo ==== 
 +(LM, 2.3.2009) 
 +- další úpravy tredu pro anotaci v kontextu discourse 
 +- úpravy setu sémantických textových vztahů 
 +- první cvičná data pro měření shody 
 +- pondělní seminář 9.3. - přehled nejnovější práce 
 + 
 +(LM, 5.1.2009) 
 +- první verze tredího kontextu discourse se zabíhá a zkouší 
 +- konverze dat pro anotaci 
  
-Poznámky + zápisy z “diskurzních sezení” 
-{{podklady_11-2-2008.pdf|podklady_schuzka 11-02-2008}} 
-{{zapis-18-02-2008.pdf|zapis_schuzka 18-02-2008}} 
  
-Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ 
-Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] 
-{{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH 
  
  
Line 36: Line 105:
  
 ==== Spolupráce ==== ==== Spolupráce ====
-- výrazná kooperace s anotací TFA a koreference (rozvedení anotace textové koreference)+- výrazná spolupráce s anotací rozšířené textové koreference (Anja)
 - anotace dialogu pro Companions (Silvie) - anotace dialogu pro Companions (Silvie)
-- technicky: vytvoření anotačního prostředí – kontext megatree” v TrEdu, první hrubou verzi už dal dohromady Pepa Toman:+- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Rozšíření TrEdu pro anotaci diskurzu ==== 
 +=== 20081217 - 20181019 (JM): === 
 +Podpora pro anotaci diskurzu užívá rozšíření TrEdu **discourse** a **nondeprel** (non-dependency relations annotation). 
 +=== Jednoduchý návod k instalaci a použití: === 
 +==Instalace:== 
 +TrEd instalujte ze stránky http://ufal.mff.cuni.cz/tred/ 
 +Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions) 
 + 
 +Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph::Kruskal. 
 +V **Linux**u se to provádí takto: 
 +sudo -s  
 +# cpan -i Graph::Kruskal 
 +Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. 
 +**Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client" from Strawberry entry in Start menu. Type "install Module::Name" there." 
 + 
 + 
 +==Ovládání zobrazení:== 
 +Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: 
 +**Alt+b** - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging 
 +**Alt+d** - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) 
 +**Alt+f** - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny 
 + 
 +Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: 
 +**Ctrl+b** - přepne zobrazení bridging anafory 
 +**Ctrl+r** - přepne zobrazení gramatické koreference 
 +**Ctrl+t** - přepne zobrazení textové koreference 
 +**Ctrl+d** - přepne zobrazení čistě diskurzních šipek 
 + 
 +Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. 
 + 
 +**s** - vybere zdroj (anotátora), jehož šipky se mají zobrazovat 
 +**S** (Shift+s) - schová/zobrazí zdroj anotace (anotátora) u typu, rozsahu a komentáře šipky 
 + 
 +==Editace diskurzních šipek:== 
 +Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. 
 +**mezera** - přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny 
 +**Ctrl+levé tlačítko na uzlu** - podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel 
 +**Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel 
 +**Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) 
 +**Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině) 
 +**f** (forget) - ruční zapomenutí všech označených uzlů a skupin 
 +**d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky; dalších vložených šipek se naposledy vložená hodnota použije automaticky) 
 +**D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu 
 +**E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek 
 +**M** - přepnutí vlastnosti šipky ''is_implicit''; pokud je nastaven, zobrazuje se jako suffix _Imp za diskurzním typem; jeho nastavení na 1 způsobí automatické vyvolání makra pro vložení hodnoty atributu connective_inserted 
 +**a** - přepnutí vlastnosti šipky ''is_secondary'' 
 +**t** - přepnutí vlastnosti šipky ''is_negated'' 
 +**I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:” 
 +**p** - přepnutí vlastnosti šipky ''is_NP''; pokud je nastaveno na 1, zobrazuje se jako suffix _NP za diskurzním typem 
 +**C** (is Compositional) - přepnutí vlastnosti šipky ''is_compositional''; pokud je nastaveno na 1, zobrazuje se jako suffix _CP (Compositional Phrase) za nápisem connective 
 +**w, e** - nastavení rozsahu výchozího a cílového argumentu 
 +**x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr 
 + 
 +==Práce se skupinami uzlů:== 
 +Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: 
 +- v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě 
 +- při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky 
 +**g** (group) - vytvoří skupinu z označených uzlů 
 +**Ctrl+g** - zruší vybranou skupinu 
 +Šipky, které končí či začínají ve skupině uzlů, opticky i datově končí či začínají v reprezentujících uzlech skupin. 
 +V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. 
 + 
 +==Ostatní:== 
 +**Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) 
 +**F** (discourse Feature) - vložení hodnoty atributu discourse_feature 
 +**G** - vložení hodnoty atributu discourse_macrostructure 
 +**Ctrl+k** ('k'ompatkní zobrazení) - přepne kompaktní zobrazení uzlů 
 +**u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů) 
 +**h** - vložení hodnoty atributu discourse_special (zastaralé, nahrazeno atributy discourse_feature a discourse_macrostructure) 
 +**j** - nastaví typ vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**k** - nastaví příznak negace u vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) 
 +**z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu 
 + 
 + 
 + 
 +==== Bibliografie k diskurzu ==== 
 +výběr článků a statí: 
 + 
 +Adamec, P. (1995). Konektivní částice a jiné textově propojovací výrazy v současné češtině. In Přednášky z 37. a 38. běhu LŠSS, Praha: Univerzita Karlova, s. 59-64. 
 + 
 +Asher, N. (1993). Reference to Abstract Objects in Discourse. Kluwer Academic Publishers, Dordrecht. 
 + 
 +Asher, N. – Lascarides, A. (2003). Logics of Conversation. Cambridge University Press. 
 + 
 +Bedřichová, Z. (2008). Částice implikující presupozici v češtině, diplomová práce. Univerzita Karlova, Praha. 
 + 
 +Daneš, F. (1985). Věta a text. Academia, Praha. 
 + 
 +Hajič, J. et al. (2006). Prague Dependency Treebank 2.0. Linguistic Data Consortium, Philadelphia. 
 + 
 +Hajičová, E. (1993). Issues of Sentence Structure and Discourse Patterns. Charles University, Prague. 
 + 
 +Hajičová, E. et al. (2006). An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82–89. 
 + 
 +Halliday, M. A. K. – Hasan, R. (1976). Cohesion in English. Longman, London. 
 + 
 +Helbig, H. (2005). Knowledge Representation and the Semantics of Natural Language. Springer. 
 + 
 +Hobbs, J. R. (1985). On the Coherence and Structure of Discourse, Report No. CSLI-85-37, Center for the Study of Language and Information, Stanford University. 
 + 
 +Hoffmannová, J. (1983). Sémantické a pragmatické aspekty koherence textu. Disertační práce, Linguistica VI, ČSAV, Praha. 
 + 
 +Joshi, A. et al. (2006). Discourse Annotation: Discourse Connectives and Discourse Relations. Tutorial at the Association for Computational Linguistics, Sydney. 
 + 
 +Lee, A. et al. (2006). Complexity of Dependencies in Discourse: Are Dependencies in Discourse More Complex Than in Syntax? Proceedings of the 5th International Workshop on Treebanks and Linguistic Theories. Prague. 
 + 
 +Mikulová, M. et al. (2005). Annotation on the Tectogrammatical Layer in the Prague Dependency Treebank: Annotation Manual. Universitas Carolina Pragensis, Prague. 
 + 
 +Miltsakaki, E. et al. (2004). The Penn Discourse Treebank. In Proceedings of the Fourth International Conference on Language Resources and Evaluation. LREC 2004, Lisbon, Portugal. 
 + 
 +Mladová, L. (2008). Diskurzní vztahy v češtině a jejich zachycení v anotovaném korpusu. Diplomová práce. Univerzita Karlova, Praha. 
 + 
 +Nedoluzhko, A. (2007). Zpráva k anotování rozšířené textové koreference a bridging vztahů v Pražském závislostním korpusu. Technická zpráva. Univerzita Karlova, Praha. 
 + 
 +Novák, V. (2008). Semantic Network Manual Annotation and its Evaluation. Institute of Formal and Applied Linguistics, Charles University, Prague 
 + 
 +Pasch, R. et al. (2003). Handbuch der deutschen Konnektoren. Walter De Gruyter Inc. 
 + 
 +Prasat, R. et al. (2008). Penn Discourse Treebank Version 2.0. Linguistic Data Consortium, Philadelphia. 
 + 
 +Seuren, P.A.M. (1985). Discourse Semantics. Blackwell Pub. 
 + 
 +Sgall, P. et al. (1969). A Functional Approach to Syntax in Generative Description of Language. Američan Elsevier, New York. 
 + 
 +The Penn Discourse Treebank 1.0 Annotation Manual. (2006). http://www.seas.upenn.edu/~pdtb/papers/pdtb-1.0-annotation-manual.pdf 
 + 
 +The Penn Discourse Treebank 2.0 Annotation Manual. (2007). http://www.seas.upenn.edu/~pdtb/PDTBAPI/pdtb-annotation-manual.pdf
  
-ukázka megastromu +The Prague Czech-English Dependency Treebank 1.0 http://ufal.mff.cuni.cz/pcedt/doc/PCEDT_main.html
-{{megastrom2.png|}}+
  
 +Webber, B. (2004). D-LTAG: Extending Lexicalized TAG to Discourse. Cognitive Science, 28 (5), pp. 751-779.
  
-==== Zápisy ze schůzek ====+Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics, Charles University, Prague.

[ Back to the navigation ] [ Back to the content ]