[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
projekt-anotace-diskurzu [2009/01/05 11:57]
anotator
projekt-anotace-diskurzu [2018/10/19 13:24] (current)
ufal [__Rozšíření TrEdu pro anotaci diskurzu_]
Line 1: Line 1:
-====== Projekt anotace diskurzu (mezipropozičních ​vztahů)======+====== Projekt anotace diskurzu (textových, promluvových ​vztahů)======
  
-Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: https://​wiki.ufal.ms.mff.cuni.cz/​internal:​pdt25:​navrhy+Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal:​pdt25:​navrhy]]
  
  
Line 16: Line 16:
 - propojení přímé řeči o více větách (stromech) - propojení přímé řeči o více větách (stromech)
 - spojení všech parcelací ​ - spojení všech parcelací ​
 +
 +
 +
  
  
Line 21: Line 24:
 ==== Na projektu se podílejí ====  ​ ==== Na projektu se podílejí ====  ​
  
-lingvisticky:​ prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, ​Zuzka Bedřichová +lingvisticky:​ prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, ​Pavlína Jínová (dříve i Zuzanna ​Bedřichová) 
-technicky: Zdeněk Žabokrtský, Jirka Mírovský, Pavel Češka+technicky: ​Jirka Mírovský (dříve i Petr Pajas, ​Zdeněk Žabokrtský)
  
-==== Zadané práce ==== +anotátoři:
- LM + ZBdisertace, (ZB na FF :-))+
  
 +**PJ** Pavlína Jínová
 +**VP** Veronika Pavlíková
 +**MR** Magdaléna Rysová
 +**JZ** Jana Zdeňková
 +(dříve i **HF** Helena Filipová)
  
-==== Plánovaná podpora projekty ==== 
-Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové 
-Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
  
-Zadané návrhy na granty (všechny nové): 
-GAUKy : 
-3letý GAUK LM na anotaci konektorů 
-2letý GAUK ZB na sémantiku synsémantik (na FF) 
-1letý GAUK Pavla Češky na technickou podporu anotace diskurzu 
  
-==== Zápisy ze schůzek ==== 
-podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} 
-zápis-18-02-2008{{zapis-18-02-2008.pdf|}} 
-aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} 
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
-zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} 
-zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} 
-zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}} 
  
  
-==== Další materiály ​==== + 
-Anotace ​diskurzu ​v PDT  – {{anotace-diskurzu.ppt|prezentace}} ​pro pondělní seminář ÚFALu 26.11. 2007, ŠZ+ 
 + 
 + 
 + 
 + 
 +==== Průběh projektu ​==== 
 + 
 +[[projekt-anotace-diskurzu:​prubeh|Průběh projektu]] na samostatné stránce 
 + 
 +==== VŠE K ANOTACI ==== 
 + 
 +[[:​internal:​projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Různé materiály ====
 - Odkaz na  [[http://​www.seas.upenn.edu/​~pdtb/​|Penn Discourse Treebank 2.0]] - Odkaz na  [[http://​www.seas.upenn.edu/​~pdtb/​|Penn Discourse Treebank 2.0]]
-- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] 
-- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH+- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://​people.csail.mit.edu/​regina/​6892/​ 
 +|http://​people.csail.mit.edu/​regina/​6892/​]] 
 +- MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}}
 - Seznamy konektorů od Zuzky: ​ - Seznamy konektorů od Zuzky: ​
-{{czech-connectives.xls|české konektory}}  +{{internal:czech-connectives.xls|české konektory}}  
-{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  +{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
-{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} +{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
-- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} 
-- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}} +Seznam ​diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} 
-seznam ​diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{tahak-typy-vztahu.doc|}}+- Základní bibliografie k podklasifikaci textovych vztahů{{internal:​bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} 
 + 
 +==== Bylo ==== 
 +(LM, 2.3.2009) 
 +- další úpravy tredu pro anotaci v kontextu discourse 
 +- úpravy setu sémantických textových vztahů 
 +- první cvičná data pro měření shody 
 +- pondělní seminář 9.3. - přehled nejnovější práce
  
-==== Aktuálně ==== 
 (LM, 5.1.2009) (LM, 5.1.2009)
 - první verze tredího kontextu discourse se zabíhá a zkouší - první verze tredího kontextu discourse se zabíhá a zkouší
 - konverze dat pro anotaci - konverze dat pro anotaci
-- oanotovat vybrané konektory: ​ 
-**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž, ​ 
-   ​nicméně,​ konkrétně,​ například,​ vlastně, vždyť, zatímco** 
  
-- první zkoumaný konektor: **přesto** 
-- první zkoumaná skupina vztahů (z PDTB): **contingency** 
  
-==== Anotační tabulka ==== 
  
-** navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce:** 
  
-**1. typ vztahu** (r: sarciny zkratky* //komentar bez diakritiky//​) (hvězdička odděluje formalizovanou a volnou část komentáře) 
-**2. rozsah argumentů** (1: PAR* //nespojita vsuvka s RHEM//) 
-**3. konektor** (pokud je v textu) 
  
- ​nahraditelnost (**nahr:** jakým slovem, s diakritikou!) 
- vazba na pozici - větná, relativní (**pozice:​**) 
- ​souvýskyt (s možnými konektory, jiný souvýskyt)(**souv:​**) 
- ​negace (**neg:**) 
- ​morfologické zvláštnosti okolí (**morfg:​**) 
- odkaz do stejného stromu (**ss:**) 
- ​ostatní (**etc:**) 
  
  
Line 92: Line 106:
 ==== Spolupráce ==== ==== Spolupráce ====
 - výrazná spolupráce s anotací rozšířené textové koreference (Anja) - výrazná spolupráce s anotací rozšířené textové koreference (Anja)
-- anotace dialogu pro Companions (Silvie+- anotace dialogu pro Companions (Silvie)
 - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
-ukázka megastromu, stav z března 2008:  
-{{megastrom2.png|}} 
  
-==== Rozšíření ​pro Tred pro anotaci diskurzu ==== + 
-=== 20081217 (JM): === + 
-Prvotní podpora ​pro anotaci diskurzu ​vychází z rozšíření pro anotaci bridging anafory. Zachovává funkčnost původního rozšíření,​ s tím, + 
-že se dále budou možná vyvíjet jako rozšíření ​jedno.+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Rozšíření ​TrEdu pro anotaci diskurzu ==== 
 +=== 20081217 ​- 20181019 ​(JM): === 
 +Podpora ​pro anotaci diskurzu ​užívá rozšíření ​TrEdu **discourse** a **nondeprel** (non-dependency relations annotation).
 === Jednoduchý návod k instalaci a použití: === === Jednoduchý návod k instalaci a použití: ===
 ==Instalace:​== ==Instalace:​==
-Tred instalujte ze stránky http://​ufal.mff.cuni.cz/~pajas/tred/ +TrEd instalujte ze stránky http://​ufal.mff.cuni.cz/​tred/​ 
-Nainstalujte rozšíření Discourse Annotation (Session ​-> Manage Extensions)+Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions) 
 + 
 +Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph::​Kruskal. 
 +V **Linux**u se to provádí takto: 
 +sudo -s  
 +# cpan -i Graph::​Kruskal 
 +Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. 
 +**Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client"​ from Strawberry entry in Start menu. Type "​install Module::​Name"​ there."​ 
  
 ==Ovládání zobrazení:​== ==Ovládání zobrazení:​==
 Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami:
-Alt+bbridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference,​ bridging +**Alt+b** - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference,​ bridging 
-Alt+dpure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) +**Alt+d** - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) 
-Alt+ffull discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny+**Alt+f** - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny
  
 Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto:
-Ctrl+bpřepne zobrazení bridging anafory +**Ctrl+b** - přepne zobrazení bridging anafory 
-Ctrl+g: přepne zobrazení gramatické koreference +**Ctrl+r** - přepne zobrazení gramatické koreference 
-Ctrl+tpřepne zobrazení textové koreference +**Ctrl+t** - přepne zobrazení textové koreference 
-Ctrl+dpřepne zobrazení čistě diskurzních šipek+**Ctrl+d** - přepne zobrazení čistě diskurzních šipek
  
 Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách.
 +
 +**s** - vybere zdroj (anotátora),​ jehož šipky se mají zobrazovat
 +**S** (Shift+s) - schová/​zobrazí zdroj anotace (anotátora) u typu, rozsahu a komentáře šipky
  
 ==Editace diskurzních šipek:== ==Editace diskurzních šipek:==
-Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. +Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni
-mezera - označí budoucí cílový uzel diskurzní šipky +**mezera** přepne ​označení budoucího cílového uzlu/​skupiny ​diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny 
-f (forget) ​ruční zapomenutí dříve označeného cílového ​uzlu (není nutné ​takto ručně zapomínat+**Ctrl+levé tlačítko na uzlu** ​podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel 
-d (discourse) - vloží diskurzní šipku z aktuálního uzlu do zapamatovaného uzlu; zobrazí se dialogové okno pro vložení typu +**Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel 
-c (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky +**Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního ​uzlu (včetně) 
-r (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky +**Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, ​takto lze vybrat i samostatnou předložku ​či cokoliv, co nemá reprezentaci na tekto-rovině) 
-x - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky +**f** (forget) - ruční zapomenutí všech označených uzlů a skupin 
-Pro úplnostt vloží textovou koreferencib vloží bridging anaforu+**d** (discourse) - vloží diskurzní šipku ​(šipky) ​aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky;​ u dalších vložených šipek se naposledy vložená hodnota použije automaticky) 
 +**D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu 
 +**E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek 
 +**M** - přepnutí vlastnosti šipky ''​is_implicit'';​ pokud je nastaven, zobrazuje se jako suffix _Imp za diskurzním typem; jeho nastavení na 1 způsobí automatické vyvolání makra pro vložení hodnoty atributu connective_inserted 
 +**a** - přepnutí vlastnosti šipky ''​is_secondary''​ 
 +**t** - přepnutí vlastnosti šipky ''​is_negated''​ 
 +**I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:​” 
 +**p** - přepnutí vlastnosti šipky ''​is_NP'';​ pokud je nastaveno na 1, zobrazuje se jako suffix _NP za diskurzním typem 
 +**C** (is Compositional) - přepnutí vlastnosti šipky ''​is_compositional'';​ pokud je nastaveno na 1, zobrazuje se jako suffix _CP (Compositional Phrase) za nápisem connective 
 +**w, e** - nastavení rozsahu výchozího a cílového argumentu 
 +**x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr 
 + 
 +==Práce se skupinami uzlů:== 
 +Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: 
 +- v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě 
 +- při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky 
 +**g** (group) - vytvoří skupinu z označených uzlů 
 +**Ctrl+g** - zruší vybranou skupinu 
 +Šipky, které končí či začínají ve skupině uzlů, opticky i datově končí či začínají v reprezentujících uzlech skupin. 
 +V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. 
 + 
 +==Ostatní:​== 
 +**Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) 
 +**F** (discourse Feature) - vložení hodnoty atributu discourse_feature 
 +**G** - vložení hodnoty atributu discourse_macrostructure 
 +**Ctrl+k** ('​k'​ompatkní zobrazení) - přepne kompaktní zobrazení uzlů 
 +**u** ('​u'​nfold) - ručně rozbalí/​znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů) 
 +**h** - vložení hodnoty atributu discourse_special (zastaralé,​ nahrazeno atributy discourse_feature a discourse_macrostructure) 
 +**j** - nastaví typ vztahu, který jinak neznačíme,​ protože nemá oba argumenty finverbální,​ u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**k** - nastaví příznak negace u vztahu, který jinak neznačíme,​ protože nemá oba argumenty finverbální,​ u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) 
 +**z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu 
 + 
  
 ==== Bibliografie k diskurzu ==== ==== Bibliografie k diskurzu ====

[ Back to the navigation ] [ Back to the content ]