[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
projekt-anotace-diskurzu [2009/08/19 17:50]
mirovsky
projekt-anotace-diskurzu [2018/10/18 14:55]
ufal [Rozšíření TrEdu pro anotaci diskurzu]
Line 16: Line 16:
 - propojení přímé řeči o více větách (stromech) - propojení přímé řeči o více větách (stromech)
 - spojení všech parcelací  - spojení všech parcelací 
 +
 +
  
  
Line 22: Line 24:
 ==== Na projektu se podílejí ====   ==== Na projektu se podílejí ====  
  
-lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová +lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová) 
-technicky: Zdeněk Žabokrtský, Jirka MírovskýPetr Pajas, Pavel Češka+technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský)
  
-==== Zadané práce ==== +anotátoři:
- LM + ZBdisertace, (ZB na FF :-))+
  
 +**PJ** Pavlína Jínová
 +**VP** Veronika Pavlíková
 +**MR** Magdaléna Rysová
 +**JZ** Jana Zdeňková
 +(dříve i **HF** Helena Filipová)
  
  
-==== Podpora projekty ==== 
-GAČR Evy Hajičové a Šárky Zikánové (od r. 2009) 
-GAUKy (od r. 2009): 
-3letý GAUK LM na anotaci konektorů 
-2letý GAUK ZB na sémantiku synsémantik (na FF) 
  
-Možnost mezinárodní spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
  
  
  
  
-==== Anotační poznámky ==== 
-**[[projekt-anotace-diskurzu:komentare|ZDE]]** shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse, 
-nové poznámky píšeme vždy nahoru, staré nemažeme 
  
  
  
-==== Zápisy ze schůzek ==== 
-podklady pro schůzku 11-02-2008{{internal:podklady_11-2-2008.pdf|}} 
-zápis-18-02-2008{{internal:zapis-18-02-2008.pdf|}} 
-aktuální plán postupu 20-10-2008{{internal:diskurz-plan-1-.doc|}} 
-zápis 07-11-2008 {{internal:zapis-07-11-2008.doc|}} 
-zápis 25-11-2008: výběr konektorů k preanotaci {{internal:25-11-2008.doc|}} 
-zápis z 2-12-2008: technické řešení diskurzu {{internal:technicke-reseni-diskurzu-2-.doc|}} 
-zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{internal:zapis-15-12-2008.doc|}} 
-zápis z 30-3-2009 a předchozí: {{internal:zapis_30_3_09.doc|}} 
  
 +==== Průběh projektu ====
  
 +[[projekt-anotace-diskurzu:prubeh|Průběh projektu]] na samostatné stránce
  
 +==== VŠE K ANOTACI ====
  
 +[[:internal:projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené
  
  
  
-==== Další materiály ==== + 
-- Anotace diskurzu v PDT  – {{internal:anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ+ 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Různé materiály ====
 - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]]
 +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]]
 - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/
 |http://people.csail.mit.edu/regina/6892/]] |http://people.csail.mit.edu/regina/6892/]]
 - MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}} - MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}}
-- {{internal:mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{internal:lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH 
 - Seznamy konektorů od Zuzky:  - Seznamy konektorů od Zuzky: 
 {{internal:czech-connectives.xls|české konektory}}  {{internal:czech-connectives.xls|české konektory}} 
 {{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  {{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}} 
 {{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} {{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}}
-- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) 
 - Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} - Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}}
 - Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} - Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}}
 - Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} - Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}}
  
-==== Aktuálně ====+==== Bylo ====
 (LM, 2.3.2009) (LM, 2.3.2009)
 - další úpravy tredu pro anotaci v kontextu discourse - další úpravy tredu pro anotaci v kontextu discourse
Line 89: Line 96:
 - první verze tredího kontextu discourse se zabíhá a zkouší - první verze tredího kontextu discourse se zabíhá a zkouší
 - konverze dat pro anotaci - konverze dat pro anotaci
-- oanotovat vybrané konektory:  
-**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  
-   nicméně, konkrétně, například, vlastně, vždyť, zatímco** 
  
-- první zkoumaný konektor: **přesto** 
-- první zkoumaná skupina vztahů (z PDTB): **contingency** 
  
-==== Anotační tabulka ==== 
  
-** navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce:** 
  
-**1. typ vztahu** (r: sarciny zkratky* //komentar bez diakritiky//) (hvězdička odděluje formalizovanou a volnou část komentáře) 
-**2. rozsah argumentů** (1: PAR* //nespojita vsuvka s RHEM//) 
-**3. konektor** (pokud je v textu) 
- 
- nahraditelnost (**nahr:** jakým slovem, s diakritikou!) 
- vazba na pozici - větná, relativní (**pozice:**) 
- souvýskyt (s možnými konektory, jiný souvýskyt)(**souv:**) 
- negace (**neg:**) 
- morfologické zvláštnosti okolí (**morfg:**) 
- odkaz do stejného stromu (**ss:**) 
- ostatní (**etc:**) 
  
  
Line 120: Line 109:
 - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
-ukázka megastromu, stav z března 2008:  
-{{megastrom2.png|}} 
  
  
Line 133: Line 120:
  
  
-==== Rozšíření pro Tred pro anotaci diskurzu ==== + 
-=== 20081217 - 20090819 (JM): === + 
-Podpora pro anotaci diskurzu užívá rozšíření Tredu nondeprel (non-dependency relations annotation).+ 
 + 
 +==== Rozšíření TrEdu pro anotaci diskurzu ==== 
 +=== 20081217 - 20130831 (JM): === 
 +Podpora pro anotaci diskurzu užívá rozšíření TrEdu **discourse** a **nondeprel** (non-dependency relations annotation).
 === Jednoduchý návod k instalaci a použití: === === Jednoduchý návod k instalaci a použití: ===
 ==Instalace:== ==Instalace:==
-Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/ +TrEd instalujte ze stránky http://ufal.mff.cuni.cz/tred/ 
-Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions)+Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions) 
 + 
 +Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph::Kruskal. 
 +V **Linux**u se to provádí takto: 
 +sudo -s  
 +# cpan -i Graph::Kruskal 
 +Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. 
 +**Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client" from Strawberry entry in Start menu. Type "install Module::Name" there." 
  
 ==Ovládání zobrazení:== ==Ovládání zobrazení:==
Line 154: Line 153:
  
 Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách.
 +
 +**s** - vybere zdroj (anotátora), jehož šipky se mají zobrazovat
 +**S** (Shift+s) - schová/zobrazí zdroj anotace (anotátora) u typu, rozsahu a komentáře šipky
  
 ==Editace diskurzních šipek:== ==Editace diskurzních šipek:==
 Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni.
 **mezera** - přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny **mezera** - přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny
 +**Ctrl+levé tlačítko na uzlu** - podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel
 +**Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel
 **Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) **Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně)
 +**Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině)
 **f** (forget) - ruční zapomenutí všech označených uzlů a skupin **f** (forget) - ruční zapomenutí všech označených uzlů a skupin
-**d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný+**d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky; u dalších vložených šipek se naposledy vložená hodnota použije automaticky) 
 +**D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu 
 +**E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) 
 +**l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin)
 **c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 +**o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek
 +**M** - přepnutí vlastnosti šipky ''is_implicit''; pokud je nastaven, zobrazuje se jako suffix _Imp za diskurzním typem; jeho nastavení na 1 způsobí automatické vyvolání makra pro vložení hodnoty atributu connective_inserted
 +**a** - přepnutí vlastnosti šipky ''is_secondary''
 +**t** - přepnutí vlastnosti šipky ''is_negated''
 +**I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:
 +**p** - přepnutí vlastnosti šipky ''is_NP''; pokud je nastaveno na 1, zobrazuje se jako suffix _NP za diskurzním typem
 +**C** (is Compositional) - přepnutí vlastnosti šipky ''is_compositional''; pokud je nastaveno na 1, zobrazuje se jako suffix _CP (Compositional Phrase) za nápisem connective
 +**w, e** - nastavení rozsahu výchozího a cílového argumentu
 **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 +**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou
 +**m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou
 +**v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr
  
 ==Práce se skupinami uzlů:== ==Práce se skupinami uzlů:==
Line 176: Line 196:
 ==Ostatní:== ==Ostatní:==
 **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky)
-**Ctrl+k** (asi 'k'olaps) - přepne kolapsované zobrazení uzlů+**F** (discourse Feature) - vložení hodnoty atributu discourse_feature 
 +**G** - vložení hodnoty atributu discourse_macrostructure 
 +**Ctrl+k** ('k'ompatkní zobrazení) - přepne kompaktní zobrazení uzlů
 **u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů) **u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů)
-**h** (is_'h'eading- přepne vlastnost aktuálního uzlu is_heading +**h** - vložení hodnoty atributu discourse_special (zastaralé, nahrazeno atributy discourse_feature a discourse_macrostructure
-**l** (is_'l'ist_entry) - přepne vlastnost aktuálního uzlu is_list_entry +**j** - nastaví typ vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měbýt hlavní uzel sekundárního konektoru) 
- +**k** nastaví íznak negace u vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální,aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) 
- +**Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) 
-==== Interní poznámky ====+**z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu
  
-[[:internal:projekt-anotace-diskurzu|interní poznámky]] pouze pro přihlášené  
  
  

[ Back to the navigation ] [ Back to the content ]