[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
projekt-anotace-diskurzu [2009/05/21 11:51]
mirovsky
projekt-anotace-diskurzu [2018/10/19 13:23]
ufal [Rozšíření TrEdu pro anotaci diskurzu]
Line 16: Line 16:
 - propojení přímé řeči o více větách (stromech) - propojení přímé řeči o více větách (stromech)
 - spojení všech parcelací  - spojení všech parcelací 
 +
 +
  
  
Line 22: Line 24:
 ==== Na projektu se podílejí ====   ==== Na projektu se podílejí ====  
  
-lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová +lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová) 
-technicky: Zdeněk Žabokrtský, Jirka MírovskýPetr Pajas, Pavel Češka+technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský)
  
-==== Zadané práce ==== +anotátoři:
- LM + ZBdisertace, (ZB na FF :-))+
  
 +**PJ** Pavlína Jínová
 +**VP** Veronika Pavlíková
 +**MR** Magdaléna Rysová
 +**JZ** Jana Zdeňková
 +(dříve i **HF** Helena Filipová)
  
  
-==== Podpora projekty ==== 
-GAČR Evy Hajičové a Šárky Zikánové (od r. 2009) 
-GAUKy (od r. 2009): 
-3letý GAUK LM na anotaci konektorů 
-2letý GAUK ZB na sémantiku synsémantik (na FF) 
  
-Možnost mezinárodní spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
  
  
  
  
-==== Anotační poznámky ==== 
-**[[projekt-anotace-diskurzu:komentare|ZDE]]** shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse, 
-nové poznámky píšeme vždy nahoru, staré nemažeme 
  
  
-==== Zápisy ze schůzek ==== 
-podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} 
-zápis-18-02-2008{{zapis-18-02-2008.pdf|}} 
-aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} 
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
-zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} 
-zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} 
-zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}} 
-zápis z 30-3-2009 a předchozí: {{zapis_30_3_09.doc|}} 
  
  
 +==== Průběh projektu ====
  
 +[[projekt-anotace-diskurzu:prubeh|Průběh projektu]] na samostatné stránce
  
 +==== VŠE K ANOTACI ====
  
 +[[:internal:projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené
  
-==== Další materiály ==== + 
-- Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Různé materiály ====
 - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]]
 +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]]
 - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/
 |http://people.csail.mit.edu/regina/6892/]] |http://people.csail.mit.edu/regina/6892/]]
-- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} +- MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}}
-- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH+
 - Seznamy konektorů od Zuzky:  - Seznamy konektorů od Zuzky: 
-{{czech-connectives.xls|české konektory}}  +{{internal:czech-connectives.xls|české konektory}}  
-{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  +{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
-{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} +{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
-- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} 
-- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}} +- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} 
-- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{tahak-typy-vztahu.doc|}} +- Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}}
-- Základní bibliografie k podklasifikaci textovych vztahů{{bibliografie-k-podklasifikaci-textovych-vztahu.doc|}}+
  
-==== Aktuálně ====+==== Bylo ====
 (LM, 2.3.2009) (LM, 2.3.2009)
 - další úpravy tredu pro anotaci v kontextu discourse - další úpravy tredu pro anotaci v kontextu discourse
Line 87: Line 96:
 - první verze tredího kontextu discourse se zabíhá a zkouší - první verze tredího kontextu discourse se zabíhá a zkouší
 - konverze dat pro anotaci - konverze dat pro anotaci
-- oanotovat vybrané konektory:  
-**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  
-   nicméně, konkrétně, například, vlastně, vždyť, zatímco** 
  
-- první zkoumaný konektor: **přesto** 
-- první zkoumaná skupina vztahů (z PDTB): **contingency** 
  
-==== Anotační tabulka ==== 
  
-** navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce:** 
  
-**1. typ vztahu** (r: sarciny zkratky* //komentar bez diakritiky//) (hvězdička odděluje formalizovanou a volnou část komentáře) 
-**2. rozsah argumentů** (1: PAR* //nespojita vsuvka s RHEM//) 
-**3. konektor** (pokud je v textu) 
- 
- nahraditelnost (**nahr:** jakým slovem, s diakritikou!) 
- vazba na pozici - větná, relativní (**pozice:**) 
- souvýskyt (s možnými konektory, jiný souvýskyt)(**souv:**) 
- negace (**neg:**) 
- morfologické zvláštnosti okolí (**morfg:**) 
- odkaz do stejného stromu (**ss:**) 
- ostatní (**etc:**) 
  
  
Line 118: Line 109:
 - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
-ukázka megastromu, stav z března 2008:  
-{{megastrom2.png|}} 
  
  
  
  
-==== Rozšíření pro Tred pro anotaci diskurzu ==== + 
-=== 20081217 (JM): === + 
-Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anafory. Původní záměr byl, že se budou nadále vyvíjet jako jedno rozšíření, ale to se nepotvrdilo.+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== __Rozšíření TrEdu pro anotaci diskurzu_ ==== 
 +=== 20081217 - 20181019 (JM): === 
 +Podpora pro anotaci diskurzu užívá rozšíření TrEdu **discourse** a **nondeprel** (non-dependency relations annotation).
 === Jednoduchý návod k instalaci a použití: === === Jednoduchý návod k instalaci a použití: ===
 ==Instalace:== ==Instalace:==
-Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/ +TrEd instalujte ze stránky http://ufal.mff.cuni.cz/tred/ 
-Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions)+Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions) 
 + 
 +Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph::Kruskal. 
 +V **Linux**u se to provádí takto: 
 +sudo -s  
 +# cpan -i Graph::Kruskal 
 +Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. 
 +**Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client" from Strawberry entry in Start menu. Type "install Module::Name" there." 
  
 ==Ovládání zobrazení:== ==Ovládání zobrazení:==
 Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami:
-**Alt+b:** bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging +**Alt+b** bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging 
-**Alt+d:** pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) +**Alt+d** pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) 
-**Alt+f:** full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny+**Alt+f** full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny
  
 Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto:
-**Ctrl+b:** přepne zobrazení bridging anafory +**Ctrl+b** přepne zobrazení bridging anafory 
-**Ctrl+r:** přepne zobrazení gramatické koreference +**Ctrl+r** přepne zobrazení gramatické koreference 
-**Ctrl+t:** přepne zobrazení textové koreference +**Ctrl+t** přepne zobrazení textové koreference 
-**Ctrl+d:** přepne zobrazení čistě diskurzních šipek+**Ctrl+d** přepne zobrazení čistě diskurzních šipek
  
 Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách.
 +
 +**s** - vybere zdroj (anotátora), jehož šipky se mají zobrazovat
 +**S** (Shift+s) - schová/zobrazí zdroj anotace (anotátora) u typu, rozsahu a komentáře šipky
  
 ==Editace diskurzních šipek:== ==Editace diskurzních šipek:==
-Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. +Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni
-**mezera** - označí budoucí cílový uzel diskurzní šipky; možno postupně vybrat více uzlů; používá se též pro výběr uzlů pro vytvoření skupiny+**mezera** - přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny 
 +**Ctrl+levé tlačítko na uzlu** - podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel 
 +**Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel
 **Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) **Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně)
-**f** (forget) - ruční zapomenutí všech označených uzlů +**Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině) 
-**d** (discourse) - vloží diskurzní šipku z aktuálního uzlu do zapamatovaného uzlu; zobrazí se dialogové okno pro vložení typu+**f** (forget) - ruční zapomenutí všech označených uzlů a skupin 
 +**d** (discourse) - vloží diskurzní šipku (šipky) aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky; u dalších vložených šipek se naposledy vložená hodnota použije automaticky) 
 +**D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu 
 +**E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin)
 **c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 +**o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek
 +**M** - přepnutí vlastnosti šipky ''is_implicit''; pokud je nastaven, zobrazuje se jako suffix _Imp za diskurzním typem; jeho nastavení na 1 způsobí automatické vyvolání makra pro vložení hodnoty atributu connective_inserted
 +**a** - přepnutí vlastnosti šipky ''is_secondary''
 +**t** - přepnutí vlastnosti šipky ''is_negated''
 +**I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:
 +**p** - přepnutí vlastnosti šipky ''is_NP''; pokud je nastaveno na 1, zobrazuje se jako suffix _NP za diskurzním typem
 +**C** (is Compositional) - přepnutí vlastnosti šipky ''is_compositional''; pokud je nastaveno na 1, zobrazuje se jako suffix _CP (Compositional Phrase) za nápisem connective
 +**w, e** - nastavení rozsahu výchozího a cílového argumentu
 **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 +**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou
 +**m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou
 +**v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr
  
 ==Práce se skupinami uzlů:== ==Práce se skupinami uzlů:==
Line 161: Line 190:
 - při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky - při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky
 **g** (group) - vytvoří skupinu z označených uzlů **g** (group) - vytvoří skupinu z označených uzlů
-**Ctrl+g** - zruší první skupinu, jejíž prvkem je aktuální uzel +**Ctrl+g** - zruší vybranou skupinu 
-V případěže začátek a/nebo konec šipky je v reprezentujícím uzlu nějaké skupinytento začátek a/nebo konec šipky se vztahuje k celé skupině. V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky.+Šipkykteré končí či začínají ve skupině uzlůopticky i datově končí či začínají v reprezentujících uzlech skupin. 
 +V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky.
  
 ==Ostatní:== ==Ostatní:==
 **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky)
 +**F** (discourse Feature) - vložení hodnoty atributu discourse_feature
 +**G** - vložení hodnoty atributu discourse_macrostructure
 +**Ctrl+k** ('k'ompatkní zobrazení) - přepne kompaktní zobrazení uzlů
 +**u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů)
 +**h** - vložení hodnoty atributu discourse_special (zastaralé, nahrazeno atributy discourse_feature a discourse_macrostructure)
 +**j** - nastaví typ vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru)
 +**k** - nastaví příznak negace u vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru)
 +**Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return))
 +**z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu
  
- 
- 
-==== Interní poznámky ==== 
- 
-[[:internal:projekt-anotace-diskurzu|interní poznámky]] pouze pro přihlášené  
  
  

[ Back to the navigation ] [ Back to the content ]