[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
projekt-anotace-diskurzu [2008/12/17 17:10]
mirovsky
projekt-anotace-diskurzu [2018/10/19 13:24]
ufal [__Rozšíření TrEdu pro anotaci diskurzu_]
Line 1: Line 1:
-====== Projekt anotace diskurzu (mezipropozičních vztahů)======+====== Projekt anotace diskurzu (textových, promluvových vztahů)======
  
-Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: https://wiki.ufal.ms.mff.cuni.cz/internal:pdt25:navrhy+Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal:pdt25:navrhy]]
  
  
Line 16: Line 16:
 - propojení přímé řeči o více větách (stromech) - propojení přímé řeči o více větách (stromech)
 - spojení všech parcelací  - spojení všech parcelací 
 +
 +
 +
  
  
Line 21: Line 24:
 ==== Na projektu se podílejí ====   ==== Na projektu se podílejí ====  
  
-lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová +lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová) 
-technicky: Zdeněk Žabokrtský, Jirka Mírovský, Pavel Češka+technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský)
  
-==== Zadané práce ==== +anotátoři:
- LM + ZBdisertace, (ZB na FF :-))+
  
 +**PJ** Pavlína Jínová
 +**VP** Veronika Pavlíková
 +**MR** Magdaléna Rysová
 +**JZ** Jana Zdeňková
 +(dříve i **HF** Helena Filipová)
  
-==== Plánovaná podpora projekty ==== 
-Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové 
-Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
  
-Zadané návrhy na granty (všechny nové): 
-GAUKy : 
-3letý GAUK LM na anotaci konektorů 
-2letý GAUK ZB na sémantiku synsémantik (na FF) 
-1letý GAUK Pavla Češky na technickou podporu anotace diskurzu 
  
-==== Zápisy ze schůzek ==== 
-podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} 
-zápis-18-02-2008{{zapis-18-02-2008.pdf|}} 
-aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} 
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
-zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} 
-zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} 
-zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}} 
  
-==== Další materiály ==== + 
-Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ+ 
 + 
 + 
 + 
 + 
 + 
 +==== Průběh projektu ==== 
 + 
 +[[projekt-anotace-diskurzu:prubeh|Průběh projektu]] na samostatné stránce 
 + 
 +==== VŠE K ANOTACI ==== 
 + 
 +[[:internal:projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Různé materiály ====
 - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]]
-- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] 
-- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH+- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ 
 +|http://people.csail.mit.edu/regina/6892/]] 
 +- MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}}
 - Seznamy konektorů od Zuzky:  - Seznamy konektorů od Zuzky: 
-{{czech-connectives.xls|české konektory}}  +{{internal:czech-connectives.xls|české konektory}}  
-{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  +{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
-{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} +{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
-- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} 
-- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}}+- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} 
 +- Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} 
 + 
 +==== Bylo ==== 
 +(LM, 2.3.2009) 
 +- další úpravy tredu pro anotaci v kontextu discourse 
 +- úpravy setu sémantických textových vztahů 
 +- první cvičná data pro měření shody 
 +- pondělní seminář 9.3. - přehled nejnovější práce 
 + 
 +(LM, 5.1.2009) 
 +- první verze tredího kontextu discourse se zabíhá a zkouší 
 +- konverze dat pro anotaci
  
  
-==== Aktuálně ==== 
-- domyslet technické řešení anotace diskurzu 
-- převést to do TrEdu 
-- oanotovat vybrané konektory:  
-**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  
-   nicméně, konkrétně, například, vlastně, vždyť, zatímco** 
  
-- první zkoumaný konektor: **přesto** 
-- první zkoumaná skupina vztahů (z PDTB): **contingency** 
  
-**- navržená tabulka vlastností konektorů pro anotaci:** 
  
-  - typ vztahu 
-  - nahraditelnost 
-  - vazba na pozici (větná, relativní) 
-  - souvýskyt (s možnými konektory, jiný souvýskyt) 
-  - negace 
-  - morfologické zvláštnosti okolí 
-  - odkaz do stejného stromu 
-  - ostatní 
  
  
Line 85: Line 106:
 ==== Spolupráce ==== ==== Spolupráce ====
 - výrazná spolupráce s anotací rozšířené textové koreference (Anja) - výrazná spolupráce s anotací rozšířené textové koreference (Anja)
-- anotace dialogu pro Companions (Silvie+- anotace dialogu pro Companions (Silvie)
 - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
-ukázka megastromu, stav z března 2008:  
-{{megastrom2.png|}} 
  
-==== Rozšíření pro Tred pro anotaci diskurzu ==== + 
-===20081217 (JM):=== + 
-Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anafory. Zachovává funkčnost původního rozšíření, s tím, + 
-že se dále budou možná vyvíjet jako rozšíření jedno.+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Rozšíření TrEdu pro anotaci diskurzu ==== 
 +=== 20081217 - 20181019 (JM): === 
 +Podpora pro anotaci diskurzu užívá rozšíření TrEdu **discourse** a **nondeprel** (non-dependency relations annotation).
 === Jednoduchý návod k instalaci a použití: === === Jednoduchý návod k instalaci a použití: ===
 ==Instalace:== ==Instalace:==
-Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/ +TrEd instalujte ze stránky http://ufal.mff.cuni.cz/tred/ 
-Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions)+Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions)
  
-==Ovládání:==+Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph::Kruskal. 
 +V **Linux**u se to provádí takto: 
 +sudo -s  
 +# cpan -i Graph::Kruskal 
 +Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. 
 +**Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client" from Strawberry entry in Start menu. Type "install Module::Name" there." 
 + 
 + 
 +==Ovládání zobrazení:==
 Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami:
-Alt+bbridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging +**Alt+b** - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging 
-Alt+dpure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) +**Alt+d** - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) 
-Alt+ffull discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny+**Alt+f** - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny
  
 Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto:
-Ctrl+bpřepne zobrazení bridging anafory +**Ctrl+b** - přepne zobrazení bridging anafory 
-Ctrl+g: přepne zobrazení gramatické koreference +**Ctrl+r** - přepne zobrazení gramatické koreference 
-Ctrl+tpřepne zobrazení textové koreference +**Ctrl+t** - přepne zobrazení textové koreference 
-Ctrl+dpřepne zobrazení čistě diskurzních šipek+**Ctrl+d** - přepne zobrazení čistě diskurzních šipek
  
 Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách.
 +
 +**s** - vybere zdroj (anotátora), jehož šipky se mají zobrazovat
 +**S** (Shift+s) - schová/zobrazí zdroj anotace (anotátora) u typu, rozsahu a komentáře šipky
  
 ==Editace diskurzních šipek:== ==Editace diskurzních šipek:==
-mezera - označí budoucí cílový uzel diskurzní šipky +Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. 
-f (forget) ruční zapomenutí dříve označeného cílového uzlu (není nutné takto ručně zapomínat+**mezera** přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny 
-d (discourse) - vloží diskurzní šipku z aktuálního uzlu do zapamatovaného uzlu; zobrazí se dialogové okno pro vložení typu +**Ctrl+levé tlačítko na uzlu** podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel 
-c (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky +**Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel 
-r (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky+**Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) 
 +**Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině) 
 +**f** (forget) - ruční zapomenutí všech označených uzlů a skupin 
 +**d** (discourse) - vloží diskurzní šipku (šipky) aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky; u dalších vložených šipek se naposledy vložená hodnota použije automaticky) 
 +**D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu 
 +**E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek 
 +**M** - přepnutí vlastnosti šipky ''is_implicit''; pokud je nastaven, zobrazuje se jako suffix _Imp za diskurzním typem; jeho nastavení na 1 způsobí automatické vyvolání makra pro vložení hodnoty atributu connective_inserted 
 +**a** - přepnutí vlastnosti šipky ''is_secondary'' 
 +**t** - přepnutí vlastnosti šipky ''is_negated'' 
 +**I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:” 
 +**p** - přepnutí vlastnosti šipky ''is_NP''; pokud je nastaveno na 1, zobrazuje se jako suffix _NP za diskurzním typem 
 +**C** (is Compositional) - přepnutí vlastnosti šipky ''is_compositional''; pokud je nastaveno na 1, zobrazuje se jako suffix _CP (Compositional Phrase) za nápisem connective 
 +**w, e** - nastavení rozsahu výchozího a cílového argumentu 
 +**x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou 
 +**v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr 
 + 
 +==Práce se skupinami uzlů:== 
 +Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: 
 +- v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě 
 +- při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky 
 +**g** (group) - vytvoří skupinu z označených uzlů 
 +**Ctrl+g** - zruší vybranou skupinu 
 +Šipky, které končí či začínají ve skupině uzlů, opticky i datově končí či začínají v reprezentujících uzlech skupin. 
 +V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. 
 + 
 +==Ostatní:== 
 +**Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) 
 +**F** (discourse Feature) - vložení hodnoty atributu discourse_feature 
 +**G** - vložení hodnoty atributu discourse_macrostructure 
 +**Ctrl+k** ('k'ompatkní zobrazení) - přepne kompaktní zobrazení uzlů 
 +**u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů) 
 +**h** - vložení hodnoty atributu discourse_special (zastaralé, nahrazeno atributy discourse_feature a discourse_macrostructure) 
 +**j** - nastaví typ vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**k** - nastaví příznak negace u vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
 +**Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) 
 +**z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu 
 + 
  
 ==== Bibliografie k diskurzu ==== ==== Bibliografie k diskurzu ====

[ Back to the navigation ] [ Back to the content ]