Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
projekt-anotace-diskurzu [2009/12/08 17:32] bojar prestehovano do vlastniho jmenneho prostoru |
projekt-anotace-diskurzu [2018/10/19 13:23] ufal [Rozšíření TrEdu pro anotaci diskurzu] |
||
---|---|---|---|
Line 24: | Line 24: | ||
==== Na projektu se podílejí ==== | ==== Na projektu se podílejí ==== | ||
- | lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová | + | lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová) |
- | technicky: Jirka Mírovský, Petr Pajas, Zdeněk Žabokrtský | + | technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský) |
anotátoři: | anotátoři: | ||
- | |||
- | **HF** Helena Filipová | ||
- | **JP** Jana Pěnčíková | ||
- | **JZ** Jana Zdeňková | ||
**PJ** Pavlína Jínová | **PJ** Pavlína Jínová | ||
**VP** Veronika Pavlíková | **VP** Veronika Pavlíková | ||
+ | **MR** Magdaléna Rysová | ||
+ | **JZ** Jana Zdeňková | ||
+ | (dříve i **HF** Helena Filipová) | ||
Line 41: | Line 40: | ||
- | ==== Podpora projekty ==== | ||
- | GAČR Evy Hajičové a Šárky Zikánové (od r. 2009) | ||
- | GAUKy (od r. 2009): | ||
- | 3letý GAUK LM na anotaci konektorů | ||
- | 2letý GAUK ZB na sémantiku synsémantik (na FF) | ||
- | Možnost mezinárodní spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank | ||
- | ==== Anotační poznámky ==== | + | ==== Průběh projektu ==== |
- | **[[projekt-anotace-diskurzu:komentare|ZDE]]** shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse, | + | |
- | nové poznámky píšeme vždy nahoru, staré nemažeme | + | |
+ | [[projekt-anotace-diskurzu:prubeh|Průběh projektu]] na samostatné stránce | ||
+ | ==== VŠE K ANOTACI ==== | ||
- | ==== Zápisy ze schůzek ==== | + | [[:internal:projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené |
- | podklady pro schůzku 11-02-2008{{internal:podklady_11-2-2008.pdf|}} | + | |
- | zápis-18-02-2008{{internal:zapis-18-02-2008.pdf|}} | + | |
- | aktuální plán postupu 20-10-2008{{internal:diskurz-plan-1-.doc|}} | + | |
- | zápis 07-11-2008 {{internal:zapis-07-11-2008.doc|}} | + | |
- | zápis 25-11-2008: výběr konektorů k preanotaci {{internal:25-11-2008.doc|}} | + | |
- | zápis z 2-12-2008: technické řešení diskurzu {{internal:technicke-reseni-diskurzu-2-.doc|}} | + | |
- | zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{internal:zapis-15-12-2008.doc|}} | + | |
- | zápis z 30-3-2009 a předchozí: {{internal:zapis_30_3_09.doc|}} | + | |
Line 74: | Line 59: | ||
- | ==== Další materiály ==== | + | |
- | - Anotace diskurzu v PDT – {{internal:anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ | + | |
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Různé materiály ==== | ||
- Odkaz na [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] | - Odkaz na [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] | ||
+ | - [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] | ||
- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ | - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ | ||
|http://people.csail.mit.edu/regina/6892/]] | |http://people.csail.mit.edu/regina/6892/]] | ||
- MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}} | - MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}} | ||
- | - {{internal:mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{internal:lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH | ||
- Seznamy konektorů od Zuzky: | - Seznamy konektorů od Zuzky: | ||
{{internal:czech-connectives.xls|české konektory}} | {{internal:czech-connectives.xls|české konektory}} | ||
{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}} | {{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}} | ||
{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} | {{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} | ||
- | - Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) | ||
- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} | - Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} | ||
- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} | - Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} | ||
- Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} | - Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} | ||
- | + | ==== Bylo ==== | |
- | ==== Aktuálně ==== | + | |
(LM, 2.3.2009) | (LM, 2.3.2009) | ||
- další úpravy tredu pro anotaci v kontextu discourse | - další úpravy tredu pro anotaci v kontextu discourse | ||
Line 114: | Line 109: | ||
- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka | - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka | ||
- | ukázka megastromu, stav z března 2008: | ||
- | {{megastrom2.png|}} | ||
Line 128: | Line 121: | ||
- | ==== Rozšíření pro Tred pro anotaci diskurzu ==== | + | |
- | === 20081217 - 20090826 (JM): === | + | |
- | Podpora pro anotaci diskurzu užívá rozšíření Tredu nondeprel (non-dependency relations annotation). | + | |
+ | ==== __Rozšíření TrEdu pro anotaci diskurzu_ ==== | ||
+ | === 20081217 - 20181019 (JM): === | ||
+ | Podpora pro anotaci diskurzu užívá rozšíření TrEdu **discourse** a **nondeprel** (non-dependency relations annotation). | ||
=== Jednoduchý návod k instalaci a použití: === | === Jednoduchý návod k instalaci a použití: === | ||
==Instalace:== | ==Instalace:== | ||
- | Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/ | + | TrEd instalujte ze stránky http://ufal.mff.cuni.cz/tred/ |
- | Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions) | + | Nainstalujte rozšíření Discourse Annotation (Setup -> Manage Extensions) |
+ | |||
+ | Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph::Kruskal. | ||
+ | V **Linux**u se to provádí takto: | ||
+ | sudo -s | ||
+ | # cpan -i Graph::Kruskal | ||
+ | Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. | ||
+ | **Nová verze TrEdu (2.*) pro Windows** používá Strawberry Perl. Tam se moduly instalují podle návodu z webu takto: "Run "CPAN client" from Strawberry entry in Start menu. Type "install Module::Name" there." | ||
==Ovládání zobrazení:== | ==Ovládání zobrazení:== | ||
Line 149: | Line 153: | ||
Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. | Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. | ||
+ | |||
+ | **s** - vybere zdroj (anotátora), jehož šipky se mají zobrazovat | ||
+ | **S** (Shift+s) - schová/zobrazí zdroj anotace (anotátora) u typu, rozsahu a komentáře šipky | ||
==Editace diskurzních šipek:== | ==Editace diskurzních šipek:== | ||
Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. | Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. | ||
**mezera** - přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny | **mezera** - přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny | ||
+ | **Ctrl+levé tlačítko na uzlu** - podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel | ||
+ | **Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel | ||
**Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) | **Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) | ||
+ | **Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině) | ||
**f** (forget) - ruční zapomenutí všech označených uzlů a skupin | **f** (forget) - ruční zapomenutí všech označených uzlů a skupin | ||
- | **d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný | + | **d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky; u dalších vložených šipek se naposledy vložená hodnota použije automaticky) |
+ | **D** (Discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu bez určení cílového uzlu | ||
+ | **E** (Entrel) - vloží diskurzní šipku (šipky) typu Entrel z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) | ||
+ | **A** (question-Answer) - vloží diskurzní šipku (šipky) typu question-answer z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) | ||
+ | **l** (list) - vloží diskurzní šipku (šipky) typu list (seznam) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin) | ||
**c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | **c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
**r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek | ||
+ | **M** - přepnutí vlastnosti šipky ''is_implicit''; pokud je nastaven, zobrazuje se jako suffix _Imp za diskurzním typem; jeho nastavení na 1 způsobí automatické vyvolání makra pro vložení hodnoty atributu connective_inserted | ||
+ | **a** - přepnutí vlastnosti šipky ''is_secondary'' | ||
+ | **t** - přepnutí vlastnosti šipky ''is_negated'' | ||
+ | **I** - vložení textové podoby konektoru, pokud standardně anotovaný konektor chybí (u implicitních vztahů) nebo je špatně; pokud je vyplněn, zobrazuje se u počátečního uzlu šipky za “connective_ins:” | ||
+ | **p** - přepnutí vlastnosti šipky ''is_NP''; pokud je nastaveno na 1, zobrazuje se jako suffix _NP za diskurzním typem | ||
+ | **C** (is Compositional) - přepnutí vlastnosti šipky ''is_compositional''; pokud je nastaveno na 1, zobrazuje se jako suffix _CP (Compositional Phrase) za nápisem connective | ||
+ | **w, e** - nastavení rozsahu výchozího a cílového argumentu | ||
**x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou | **n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou | ||
+ | **m** - nastavení označených (pomocí mezery) uzlů jako rozšířené množiny konektorů diskurzní šipky vedoucí z aktuálního uzlu (rozšířený sekundární konektor); pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; rozšířený konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou | ||
+ | **v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr | ||
==Práce se skupinami uzlů:== | ==Práce se skupinami uzlů:== | ||
Line 173: | Line 196: | ||
==Ostatní:== | ==Ostatní:== | ||
**Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) | **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) | ||
- | **Ctrl+k** (asi 'k'olaps) - přepne kolapsované zobrazení uzlů | + | **F** (discourse Feature) - vložení hodnoty atributu discourse_feature |
+ | **G** - vložení hodnoty atributu discourse_macrostructure | ||
+ | **Ctrl+k** ('k'ompatkní zobrazení) - přepne kompaktní zobrazení uzlů | ||
**u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů) | **u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů) | ||
- | **h** (is_'h'eading) - přepne vlastnost aktuálního uzlu is_heading | + | **h** - vložení hodnoty atributu discourse_special (zastaralé, nahrazeno atributy discourse_feature a discourse_macrostructure) |
- | **l** (is_'l'ist_entry) - přepne vlastnost aktuálního uzlu is_list_entry | + | **j** - nastaví typ vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) |
- | + | **k** - nastaví příznak negace u vztahu, který jinak neznačíme, protože nemá oba argumenty finverbální, u aktuálního uzlu (což by měl být hlavní uzel sekundárního konektoru) | |
- | + | **Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) | |
+ | **z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu | ||
- | ==== Interní poznámky ==== | ||
- | [[:internal:projekt-anotace-diskurzu:index|interní poznámky]] pouze pro přihlášené | ||
==== Bibliografie k diskurzu ==== | ==== Bibliografie k diskurzu ==== |