[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
projekt-anotace-diskurzu [2008/11/11 16:24]
anotator
projekt-anotace-diskurzu [2018/10/19 13:24] (current)
ufal [__Rozšíření TrEdu pro anotaci diskurzu_]
Line 1: Line 1:
-====== Projekt anotace diskurzu ======+====== Projekt anotace diskurzu ​(textových,​ promluvových vztahů)======
  
-Doplňující ​aktuální ​informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: https://​wiki.ufal.ms.mff.cuni.cz/​internal:​pdt25:​navrhy+Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal:​pdt25:​navrhy]]
  
-==== Předběžné poznámky a materiály k projektu ==== 
  
-Anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference,​ pojmenované entity a textové vztahy (diskurz). 
  
-==== Kdo se v tom angažuje ​====  +==== Cíle projektu ​====
  
-prof. E. HajičováŠárka ZikánováLucie Mladová, Zdeněk ŽabokrtskýZuzka BedřichováKatka Veselá +Anotace diskurzu je planována jako součást další“vyšší” roviny v PDTve které bude podrobně zpracována koreferencepojmenované entity a textové vztahy (mezipropoziční vztahydiskurz). 
-==== Zadané práce ==== +Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahykteré se podílejí ​na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap),​ protože tyto textové vztahy (tj. vztahy ​rámci jednoho stromu) jsou v TR dostatečně zpracované
- LM + ZB: disertace(ZB na FF :-)) +
-==== Granty ==== +
-Čeká se na schválení GAČRu paní profesorky Hajičové ​Šárky Zikánové +
-Možnost mezinárodního grantu ​návaznosti na profJoshiho a Penn Discourse Treebank+
  
 +V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly:
 +- zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů
 +- sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta
 +Z mezivětných vztahů bychom doplnili:
 +- propojení přímé řeči o více větách (stromech)
 +- spojení všech parcelací ​
  
  
Line 22: Line 22:
  
  
 +==== Na projektu se podílejí ====  ​
 +
 +lingvisticky:​ prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová)
 +technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský)
 +
 +anotátoři:​
 +
 +**PJ** Pavlína Jínová
 +**VP** Veronika Pavlíková
 +**MR** Magdaléna Rysová
 +**JZ** Jana Zdeňková
 +(dříve i **HF** Helena Filipová)
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +==== Průběh projektu ====
 +
 +[[projekt-anotace-diskurzu:​prubeh|Průběh projektu]] na samostatné stránce
 +
 +==== VŠE K ANOTACI ====
 +
 +[[:​internal:​projekt-anotace-diskurzu:​index|Interní poznámky]] pouze pro přihlášené
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +==== Různé materiály ====
 +- Odkaz na  [[http://​www.seas.upenn.edu/​~pdtb/​|Penn Discourse Treebank 2.0]]
 +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]]
 +- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://​people.csail.mit.edu/​regina/​6892/​
 +|http://​people.csail.mit.edu/​regina/​6892/​]]
 +- MANUÁL PDTB 2.0 ke stáhnutí {{internal:​pdtb-annotation-manual.pdf|manual_PDTB_2}}
 +- Seznamy konektorů od Zuzky: ​
 +{{internal:​czech-connectives.xls|české konektory}} ​
 +{{internal:​czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}} ​
 +{{internal:​konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}}
 +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:​poznamky-k-manualu-pdtb_changed.doc|}}
 +- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:​tahak-typy-vztahu.doc|}}
 +- Základní bibliografie k podklasifikaci textovych vztahů{{internal:​bibliografie-k-podklasifikaci-textovych-vztahu.doc|}}
 +
 +==== Bylo ====
 +(LM, 2.3.2009)
 +- další úpravy tredu pro anotaci v kontextu discourse
 +- úpravy setu sémantických textových vztahů
 +- první cvičná data pro měření shody
 +- pondělní seminář 9.3. - přehled nejnovější práce
 +
 +(LM, 5.1.2009)
 +- první verze tredího kontextu discourse se zabíhá a zkouší
 +- konverze dat pro anotaci
  
-==== Materiály ==== 
  
-Poznámky + zápisy z “diskurzních sezení” 
-{{podklady_11-2-2008.pdf|podklady_schuzka 11-02-2008}} 
-{{zapis-18-02-2008.pdf|zapis_schuzka 18-02-2008}} 
  
-Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ 
-Odkaz na  [[http://​www.seas.upenn.edu/​~pdtb/​|Penn Discourse Treebank 2.0]] 
-MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} 
-{{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH 
  
  
Line 39: Line 105:
  
 ==== Spolupráce ==== ==== Spolupráce ====
-- výrazná ​kooperace ​s anotací ​TFA a koreference (rozvedení anotace textové koreference)+- výrazná ​spolupráce ​s anotací ​rozšířené textové ​koreference (Anja)
 - anotace dialogu pro Companions (Silvie) - anotace dialogu pro Companions (Silvie)
-- technicky: vytvoření anotačního prostředí – kontext ​megatree” v TrEdu, ​první hrubou verzi už dal dohromady ​Pepa Toman:+- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, ​(Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
-ukázka megastromu: ​ 
-{{megastrom2.png|}} 
  
  
Line 50: Line 114:
  
  
-==== Zápisy ​ze schůzek ==== + 
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}}+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Rozšíření TrEdu pro anotaci diskurzu ==== 
 +=== 20081217 - 20181019 (JM): === 
 +Podpora pro anotaci diskurzu užívá rozšíření TrEdu **discourse** a **nondeprel** (non-dependency relations annotation). 
 +=== Jednoduchý návod k instalaci a použití: === 
 +==Instalace:​== 
 +TrEd instalujte ​ze stránky http://​ufal.mff.cuni.cz/​tred/​ 
 +Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions) 
 + 
 +Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph::​Kruskal. 
 +V **Linux**u se to provádí takto: 
 +sudo -s  
 +# cpan -i Graph::​Kruskal 
 +Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. 
 +**Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client"​ from Strawberry entry in Start menu. Type "​install Module::​Name"​ there."​ 
 + 
 + 
 +==Ovládání zobrazení:== 
 +Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami:​ 
 +**Alt+b** ​bridging mode vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference,​ bridging 
 +**Alt+d** ​pure discourse mode vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) 
 +**Alt+f** ​full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny 
 + 
 +Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: 
 +**Ctrl+b** - přepne zobrazení bridging anafory 
 +**Ctrl+r** - přepne zobrazení gramatické koreference 
 +**Ctrl+t** - přepne zobrazení textové koreference 
 +**Ctrl+d** - přepne zobrazení čistě diskurzních šipek 
 + 
 +Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. 
 + 
 +**s** - vybere zdroj (anotátora),​ jehož šipky se mají zobrazovat 
 +**S** (Shift+s) - schová/​zobrazí zdroj anotace (anotátora) u typu, rozsahu a komentáře šipky 
 + 
 +==Editace diskurzních šipek:== 
 +Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. 
 +**mezera** - přepne označení budoucího cílového uzlu/​skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny 
 +**Ctrl+levé tlačítko na uzlu** - podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel 
 +**Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel 
 +**Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) 
 +**Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině) 
 +**f** (forget) - ruční zapomenutí všech označených uzlů a skupin 
 +**d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky;​ u dalších vložených šipek se naposledy vložená hodnota použije automaticky) 
 +**D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu 
 +**E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek 
 +**M** - přepnutí vlastnosti šipky ''​is_implicit'';​ pokud je nastaven, zobrazuje se jako suffix _Imp za diskurzním typem; jeho nastavení na 1 způsobí automatické vyvolání makra pro vložení hodnoty atributu connective_inserted 
 +**a** - přepnutí vlastnosti šipky ''​is_secondary''​ 
 +**t** - přepnutí vlastnosti šipky ''​is_negated''​ 
 +**I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:​” 
 +**p** - přepnutí vlastnosti šipky ''​is_NP'';​ pokud je nastaveno na 1, zobrazuje se jako suffix _NP za diskurzním typem 
 +**C** (is Compositional) - přepnutí vlastnosti šipky ''​is_compositional'';​ pokud je nastaveno na 1, zobrazuje se jako suffix _CP (Compositional Phrase) za nápisem connective 
 +**w, e** - nastavení rozsahu výchozího a cílového argumentu 
 +**x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr 
 + 
 +==Práce se skupinami uzlů:== 
 +Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: 
 +- v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě 
 +- při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky 
 +**g** (group) - vytvoří skupinu z označených uzlů 
 +**Ctrl+g** - zruší vybranou skupinu 
 +Šipky, které končí či začínají ve skupině uzlů, opticky i datově končí či začínají v reprezentujících uzlech skupin. 
 +V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. 
 + 
 +==Ostatní:​== 
 +**Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) 
 +**F** (discourse Feature) - vložení hodnoty atributu discourse_feature 
 +**G** - vložení hodnoty atributu discourse_macrostructure 
 +**Ctrl+k** ('​k'​ompatkní zobrazení) - přepne kompaktní zobrazení uzlů 
 +**u** ('​u'​nfold) - ručně rozbalí/​znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů) 
 +**h** - vložení hodnoty atributu discourse_special (zastaralé,​ nahrazeno atributy discourse_feature a discourse_macrostructure) 
 +**j** - nastaví typ vztahu, který jinak neznačíme,​ protože nemá oba argumenty finverbální,​ u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**k** - nastaví příznak negace u vztahu, který jinak neznačíme,​ protože nemá oba argumenty finverbální,​ u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) 
 +**z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu 
 + 
  
 ==== Bibliografie k diskurzu ==== ==== Bibliografie k diskurzu ====
Line 111: Line 266:
  
 Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics,​ Charles University, Prague. Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics,​ Charles University, Prague.
- 
- 

[ Back to the navigation ] [ Back to the content ]