Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
projekt-anotace-diskurzu [2008/12/10 12:12] anotator |
projekt-anotace-diskurzu [2012/03/21 10:09] ufal |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Projekt anotace diskurzu ====== | + | ====== Projekt anotace diskurzu |
+ | |||
+ | Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal: | ||
- | Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: https:// | ||
==== Cíle projektu ==== | ==== Cíle projektu ==== | ||
- | Anotace diskurzu | + | Anotace diskurzu |
- | Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), | + | Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), |
V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly: | V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly: | ||
Line 17: | Line 18: | ||
- | ==== Kdo se v tom angažuje ==== | ||
- | lingvisticky: | ||
- | technicky: Zdeněk Žabokrtský, | ||
- | ==== Zadané práce ==== | ||
- | LM + ZB: disertace, (ZB na FF :-)) | ||
- | ==== Plánovaná podpora projekty | + | ==== Na projektu se podílejí |
- | Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové | + | |
- | Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank | + | |
- | Zadané návrhy na granty | + | lingvisticky: |
- | GAUKy : | + | technicky: Jirka Mírovský |
- | 3letý GAUK LM na anotaci konektorů | + | |
- | 2letý GAUK ZB na sémantiku synsémantik | + | |
- | 1letý GAUK Pavla Češky na technickou podporu anotace diskurzu | + | |
+ | anotátoři: | ||
- | ==== Zápisy ze schůzek ==== | + | **PJ** Pavlína Jínová |
- | podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} | + | **VP** Veronika Pavlíková |
- | zápis-18-02-2008{{zapis-18-02-2008.pdf|}} | + | **MR** Magdaléna Rysová |
- | aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} | + | **JZ** Jana Zdeňková |
- | zápis 07-11-2008 {{zapis-07-11-2008.doc|}} | + | (dříve i **HF** Helena Filipová) |
- | zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} | + | |
- | zápis z 2-12-2008: technické | + | |
- | ==== Další materiály | + | |
- | - Anotace diskurzu v PDT – {{anotace-diskurzu.ppt|prezentace}} | + | |
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== VŠE K ANOTACI | ||
+ | |||
+ | [[: | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Různé materiály ==== | ||
- Odkaz na [[http:// | - Odkaz na [[http:// | ||
- | - MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} | + | - [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] |
- | - {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH | + | - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http:// |
+ | |http:// | ||
+ | - MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}} | ||
- Seznamy konektorů od Zuzky: | - Seznamy konektorů od Zuzky: | ||
- | {{czech-connectives.xls|české konektory}} | + | {{internal:czech-connectives.xls|české konektory}} |
- | {{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}} | + | {{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}} |
- | {{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} | + | {{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} |
- | - Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) | + | - Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} |
- | - Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}} | + | - Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal: |
+ | - Základní bibliografie k podklasifikaci textovych vztahů{{internal: | ||
+ | |||
+ | ==== Bylo ==== | ||
+ | (LM, 2.3.2009) | ||
+ | - další úpravy tredu pro anotaci v kontextu discourse | ||
+ | - úpravy setu sémantických textových vztahů | ||
+ | - první cvičná data pro měření shody | ||
+ | - pondělní seminář 9.3. - přehled nejnovější práce | ||
+ | |||
+ | (LM, 5.1.2009) | ||
+ | - první verze tredího kontextu discourse se zabíhá a zkouší | ||
+ | - konverze dat pro anotaci | ||
- | ==== Aktuálně ==== | ||
- | - domyslet technické řešení anotace diskurzu | ||
- | - převést to do TrEdu | ||
- | - oanotovat vybrané konektory: | ||
- | **však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž, | ||
- | | ||
- | - první zkoumaný konektor: **přesto** | ||
- | - první zkoumaná skupina vztahů (z PDTB): **contingency** | ||
- | **- navržená tabulka vlastností konektorů pro anotaci:** | ||
- | - typ vztahu | ||
- | - nahraditelnost | ||
- | - vazba na pozici (větná, relativní) | ||
- | - souvýskyt (s možnými konektory, jiný souvýskyt) | ||
- | - negace | ||
- | - morfologické zvláštnosti okolí | ||
- | - odkaz do stejného stromu | ||
- | - ostatní | ||
Line 84: | Line 102: | ||
==== Spolupráce ==== | ==== Spolupráce ==== | ||
- výrazná spolupráce s anotací rozšířené textové koreference (Anja) | - výrazná spolupráce s anotací rozšířené textové koreference (Anja) | ||
- | - anotace dialogu pro Companions (Silvie | + | - anotace dialogu pro Companions (Silvie) |
- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka | - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka | ||
- | ukázka megastromu, stav z března 2008: | ||
- | {{megastrom2.png|}} | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Rozšíření TrEdu pro anotaci diskurzu ==== | ||
+ | === 20081217 - 20120321 (JM): === | ||
+ | Podpora pro anotaci diskurzu užívá rozšíření Tredu **discourse** a **nondeprel** (non-dependency relations annotation). | ||
+ | === Jednoduchý návod k instalaci a použití: === | ||
+ | ==Instalace: | ||
+ | Tred instalujte ze stránky http:// | ||
+ | Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions) | ||
+ | |||
+ | Pro zobrazení skupin uzlů je potřeba nainstalovat perlovou knihovnu Graph:: | ||
+ | V **Linux**u se to provádí takto: | ||
+ | sudo -s | ||
+ | # cpan -i Graph:: | ||
+ | Prikaz cpan se při prvním spuštění vyptá na různé věci, většinou to stačí odentrovat. | ||
+ | Ve **Windows**ech se knihovna nainstaluje pomocí **ppm** - Perl Package Manager (dá se spustit např. z příkazové řádky) - v seznamu dostupných modulů je potřeba najít modul Graph:: | ||
+ | |||
+ | |||
+ | ==Ovládání zobrazení: | ||
+ | Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: | ||
+ | **Alt+b** - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, | ||
+ | **Alt+d** - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) | ||
+ | **Alt+f** - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny | ||
+ | |||
+ | Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: | ||
+ | **Ctrl+b** - přepne zobrazení bridging anafory | ||
+ | **Ctrl+r** - přepne zobrazení gramatické koreference | ||
+ | **Ctrl+t** - přepne zobrazení textové koreference | ||
+ | **Ctrl+d** - přepne zobrazení čistě diskurzních šipek | ||
+ | |||
+ | Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. | ||
+ | |||
+ | ==Editace diskurzních šipek:== | ||
+ | Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni. | ||
+ | **mezera** - přepne označení budoucího cílového uzlu/ | ||
+ | **Ctrl+levé tlačítko na uzlu** - podobně jako mezera, zapamatuje si/zapomene tekto-uzel; nemění aktuální uzel | ||
+ | **Ctrl+levé tlačítko na slově ve větách** - podobně jako mezera, zapamatuje si/zapomene příslušný tekto-uzel; nemění aktuální uzel | ||
+ | **Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) | ||
+ | **Shift+levé tlačítko na slově ve větách** - zapamatuje si/zapomene jedno slovo pro následné nastavení konektoru (narozdíl od mezery, takto lze vybrat i samostatnou předložku či cokoliv, co nemá reprezentaci na tekto-rovině) | ||
+ | **f** (forget) - ruční zapomenutí všech označených uzlů a skupin | ||
+ | **d** (discourse) - vloží diskurzní šipku (šipky) z aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný; u první šipky po spuštění TrEdu se zobrazí okno pro vložení zdroje anotace (vkládáme iniciály anotátorky; | ||
+ | **c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek | ||
+ | **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bublině, když se myš na chvíli zastaví nad příslušnou šipkou | ||
+ | **v** - otočí šipku vedoucí z aktuálního uzlu (zamění výchozí a cílový uzel); v případě více šipek zobrazí seznam pro výběr | ||
+ | |||
+ | ==Práce se skupinami uzlů:== | ||
+ | Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: | ||
+ | - v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě | ||
+ | - při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky | ||
+ | **g** (group) - vytvoří skupinu z označených uzlů | ||
+ | **Ctrl+g** - zruší vybranou skupinu | ||
+ | Šipky, které končí či začínají ve skupině uzlů, opticky i datově končí či začínají v reprezentujících uzlech skupin. | ||
+ | V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. | ||
+ | |||
+ | ==Ostatní: | ||
+ | **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) | ||
+ | **Ctrl+k** (asi ' | ||
+ | **u** (' | ||
+ | **h** (is_' | ||
+ | **l** (is_' | ||
+ | **Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) | ||
+ | **z** - zobrazí seznam žánrů a umožní tak vybrat žánr dokumentu | ||