Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
projekt-anotace-diskurzu [2008/05/09 18:28] anotator |
projekt-anotace-diskurzu [2018/10/19 13:24] ufal [__Rozšíření TrEdu pro anotaci diskurzu_] |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Projekt anotace diskurzu ====== | + | ====== Projekt anotace diskurzu |
- | ==== Předběžné poznámky a materiály k projektu | + | Doplňující informace o tomto projektu |
- | Rovina anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, | ||
- | ==== Kdo se v tom, alespoň částečně, | ||
- | prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zdeněk Žabokrtský, | + | ==== Cíle projektu |
- | ==== Zadané práce | + | |
- | LM + ZB: disertace, ZB na FF :-) | + | |
- | ==== Granty ==== | + | |
- | | + | |
- | Možnost mezinárodního grantu v návaznosti na prof. Joshiho a Penn Discourse Treebank | + | |
- | ==== Materiály ==== | + | Anotace diskurzu je planována jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, |
+ | Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy v rámci jednoho stromu) jsou v TR dostatečně zpracované. | ||
- | Poznámky + zápisy z “diskurzních sezení” | + | V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly: |
- | {{podklady_11-2-2008.pdf|podklady_schuzka 11-02-2008}} | + | - zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů |
- | {{zapis-18-02-2008.pdf|zapis_schuzka 18-02-2008}} | + | - sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta |
+ | Z mezivětných vztahů bychom doplnili: | ||
+ | - propojení přímé řeči o více větách (stromech) | ||
+ | - spojení všech parcelací | ||
- | Brzy přibudou též: | ||
- | Anotace diskurzu v PDT – prezentace pro ÚFAL 26.11. 2007, Šárka Zikánová | ||
- | Článek o diskurzu na LREC 2008 | ||
- | Diplomka LM | ||
- | ==== Kooperace | + | |
- | - výrazná | + | ==== Na projektu se podílejí ==== |
+ | |||
+ | lingvisticky: | ||
+ | technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský) | ||
+ | |||
+ | anotátoři: | ||
+ | |||
+ | **PJ** Pavlína Jínová | ||
+ | **VP** Veronika Pavlíková | ||
+ | **MR** Magdaléna Rysová | ||
+ | **JZ** Jana Zdeňková | ||
+ | (dříve i **HF** Helena Filipová) | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Průběh projektu ==== | ||
+ | |||
+ | [[projekt-anotace-diskurzu: | ||
+ | |||
+ | ==== VŠE K ANOTACI ==== | ||
+ | |||
+ | [[: | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Různé materiály ==== | ||
+ | - Odkaz na [[http:// | ||
+ | - [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] | ||
+ | - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http:// | ||
+ | |http:// | ||
+ | - MANUÁL PDTB 2.0 ke stáhnutí {{internal: | ||
+ | - Seznamy konektorů od Zuzky: | ||
+ | {{internal: | ||
+ | {{internal: | ||
+ | {{internal: | ||
+ | - Zuzčiny poznámky k manuálu PDTB 2.0 {{internal: | ||
+ | - Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal: | ||
+ | - Základní bibliografie k podklasifikaci textovych vztahů{{internal: | ||
+ | |||
+ | ==== Bylo ==== | ||
+ | (LM, 2.3.2009) | ||
+ | - další úpravy tredu pro anotaci v kontextu discourse | ||
+ | - úpravy setu sémantických textových vztahů | ||
+ | - první cvičná data pro měření shody | ||
+ | - pondělní seminář 9.3. - přehled nejnovější práce | ||
+ | |||
+ | (LM, 5.1.2009) | ||
+ | - první verze tredího kontextu discourse se zabíhá a zkouší | ||
+ | - konverze dat pro anotaci | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Spolupráce | ||
+ | - výrazná | ||
- anotace dialogu pro Companions (Silvie) | - anotace dialogu pro Companions (Silvie) | ||
- | - technicky: vytvoření anotačního prostředí – kontext | + | - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, |
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Rozšíření TrEdu pro anotaci diskurzu ==== | ||
+ | === 20081217 - 20181019 (JM): === | ||
+ | Podpora pro anotaci diskurzu užívá rozšíření TrEdu **discourse** a **nondeprel** (non-dependency relations annotation). | ||
+ | === Jednoduchý návod k instalaci a použití: === | ||
+ | ==Instalace: | ||
+ | TrEd instalujte ze stránky http:// | ||
+ | Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions) | ||
+ | |||
+ | Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph:: | ||
+ | V **Linux**u se to provádí takto: | ||
+ | sudo -s | ||
+ | # cpan -i Graph:: | ||
+ | Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. | ||
+ | **Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client" | ||
+ | |||
+ | |||
+ | ==Ovládání zobrazení: | ||
+ | Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: | ||
+ | **Alt+b** - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, | ||
+ | **Alt+d** - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) | ||
+ | **Alt+f** - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny | ||
+ | |||
+ | Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: | ||
+ | **Ctrl+b** - přepne zobrazení bridging anafory | ||
+ | **Ctrl+r** - přepne zobrazení gramatické koreference | ||
+ | **Ctrl+t** - přepne zobrazení textové koreference | ||
+ | **Ctrl+d** - přepne zobrazení čistě diskurzních šipek | ||
+ | |||
+ | Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. | ||
+ | |||
+ | **s** - vybere zdroj (anotátora), | ||
+ | **S** (Shift+s) - schová/ | ||
+ | |||
+ | ==Editace diskurzních šipek:== | ||
+ | Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. | ||
+ | **mezera** - přepne označení budoucího cílového uzlu/ | ||
+ | **Ctrl+levé tlačítko na uzlu** - podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel | ||
+ | **Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel | ||
+ | **Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) | ||
+ | **Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině) | ||
+ | **f** (forget) - ruční zapomenutí všech označených uzlů a skupin | ||
+ | **d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první | ||
+ | **D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu | ||
+ | **E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) | ||
+ | **A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) | ||
+ | **l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) | ||
+ | **c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek | ||
+ | **M** - přepnutí vlastnosti šipky '' | ||
+ | **a** - přepnutí vlastnosti šipky '' | ||
+ | **t** - přepnutí vlastnosti šipky '' | ||
+ | **I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:” | ||
+ | **p** - přepnutí vlastnosti šipky '' | ||
+ | **C** (is Compositional) - přepnutí vlastnosti šipky '' | ||
+ | **w, e** - nastavení rozsahu výchozího a cílového argumentu | ||
+ | **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou | ||
+ | **m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou | ||
+ | **v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr | ||
+ | |||
+ | ==Práce se skupinami uzlů:== | ||
+ | Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: | ||
+ | - v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě | ||
+ | - při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky | ||
+ | **g** (group) - vytvoří skupinu z označených uzlů | ||
+ | **Ctrl+g** - zruší vybranou skupinu | ||
+ | Šipky, které končí či začínají ve skupině uzlů, opticky i datově končí či začínají v reprezentujících uzlech skupin. | ||
+ | V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. | ||
+ | |||
+ | ==Ostatní: | ||
+ | **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) | ||
+ | **F** (discourse Feature) - vložení hodnoty atributu discourse_feature | ||
+ | **G** - vložení hodnoty atributu discourse_macrostructure | ||
+ | **Ctrl+k** (' | ||
+ | **u** (' | ||
+ | **h** - vložení hodnoty atributu discourse_special (zastaralé, | ||
+ | **j** - nastaví typ vztahu, který jinak neznačíme, | ||
+ | **k** - nastaví příznak negace u vztahu, který jinak neznačíme, | ||
+ | **Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) | ||
+ | **z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu | ||
+ | |||
+ | |||
+ | |||
+ | ==== Bibliografie k diskurzu ==== | ||
+ | výběr článků a statí: | ||
+ | |||
+ | Adamec, P. (1995). Konektivní částice a jiné textově propojovací výrazy v současné češtině. In Přednášky z 37. a 38. běhu LŠSS, Praha: Univerzita Karlova, s. 59-64. | ||
+ | |||
+ | Asher, N. (1993). Reference to Abstract Objects in Discourse. Kluwer Academic Publishers, Dordrecht. | ||
+ | |||
+ | Asher, N. – Lascarides, A. (2003). Logics of Conversation. Cambridge University Press. | ||
+ | |||
+ | Bedřichová, | ||
+ | |||
+ | Daneš, F. (1985). Věta a text. Academia, Praha. | ||
+ | |||
+ | Hajič, J. et al. (2006). Prague Dependency Treebank 2.0. Linguistic Data Consortium, Philadelphia. | ||
+ | |||
+ | Hajičová, E. (1993). Issues of Sentence Structure and Discourse Patterns. Charles University, Prague. | ||
+ | |||
+ | Hajičová, E. et al. (2006). An Annotated Corpus as a Test Bed for Discourse Structure Analysis. In Proceedings of the Workshop on Constraints in Discourse, National University of Ireland, Maynooth, Ireland, pp. 82–89. | ||
+ | |||
+ | Halliday, M. A. K. – Hasan, R. (1976). Cohesion in English. Longman, London. | ||
+ | |||
+ | Helbig, H. (2005). Knowledge Representation and the Semantics of Natural Language. Springer. | ||
+ | |||
+ | Hobbs, J. R. (1985). On the Coherence and Structure of Discourse, Report No. CSLI-85-37, Center for the Study of Language and Information, | ||
+ | |||
+ | Hoffmannová, | ||
+ | |||
+ | Joshi, A. et al. (2006). Discourse Annotation: Discourse Connectives and Discourse Relations. Tutorial at the Association for Computational Linguistics, | ||
+ | |||
+ | Lee, A. et al. (2006). Complexity of Dependencies in Discourse: Are Dependencies in Discourse More Complex Than in Syntax? Proceedings of the 5th International Workshop on Treebanks and Linguistic Theories. Prague. | ||
+ | |||
+ | Mikulová, M. et al. (2005). Annotation on the Tectogrammatical Layer in the Prague Dependency Treebank: Annotation Manual. Universitas Carolina Pragensis, Prague. | ||
+ | |||
+ | Miltsakaki, E. et al. (2004). The Penn Discourse Treebank. In Proceedings of the Fourth International Conference on Language Resources and Evaluation. LREC 2004, Lisbon, Portugal. | ||
+ | |||
+ | Mladová, L. (2008). Diskurzní vztahy v češtině a jejich zachycení v anotovaném korpusu. Diplomová práce. Univerzita Karlova, Praha. | ||
+ | |||
+ | Nedoluzhko, A. (2007). Zpráva k anotování rozšířené textové koreference a bridging vztahů v Pražském závislostním korpusu. Technická zpráva. Univerzita Karlova, Praha. | ||
+ | |||
+ | Novák, V. (2008). Semantic Network Manual Annotation and its Evaluation. Institute of Formal and Applied Linguistics, | ||
+ | |||
+ | Pasch, R. et al. (2003). Handbuch der deutschen Konnektoren. Walter De Gruyter Inc. | ||
+ | |||
+ | Prasat, R. et al. (2008). Penn Discourse Treebank Version 2.0. Linguistic Data Consortium, Philadelphia. | ||
+ | |||
+ | Seuren, P.A.M. (1985). Discourse Semantics. Blackwell Pub. | ||
+ | |||
+ | Sgall, P. et al. (1969). A Functional Approach to Syntax in Generative Description of Language. Američan Elsevier, New York. | ||
+ | |||
+ | The Penn Discourse Treebank 1.0 Annotation Manual. (2006). http:// | ||
+ | |||
+ | The Penn Discourse Treebank 2.0 Annotation Manual. (2007). http:// | ||
+ | |||
+ | The Prague Czech-English Dependency Treebank 1.0 http:// | ||
+ | |||
+ | Webber, B. (2004). D-LTAG: Extending Lexicalized TAG to Discourse. Cognitive Science, 28 (5), pp. 751-779. | ||
- | ukázka megastromu: | + | Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics, |
- | {{megastrom2.png|}} | + |