[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
projekt-anotace-diskurzu [2009/05/21 14:49]
mirovsky
projekt-anotace-diskurzu [2022/01/17 15:43] (current)
ufal
Line 1: Line 1:
 ====== Projekt anotace diskurzu (textových, promluvových vztahů)====== ====== Projekt anotace diskurzu (textových, promluvových vztahů)======
- 
-Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal:pdt25:navrhy]] 
- 
  
  
Line 16: Line 13:
 - propojení přímé řeči o více větách (stromech) - propojení přímé řeči o více větách (stromech)
 - spojení všech parcelací  - spojení všech parcelací 
 +
 +
  
  
Line 22: Line 21:
 ==== Na projektu se podílejí ====   ==== Na projektu se podílejí ====  
  
-lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová +lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová) 
-technicky: Zdeněk Žabokrtský, Jirka MírovskýPetr Pajas, Pavel Češka+technicky: Jirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský)
  
-==== Zadané práce ==== +anotátoři:
- LM + ZBdisertace, (ZB na FF :-))+
  
 +**PJ** Pavlína Jínová
 +**VP** Veronika Pavlíková
 +**MR** Magdaléna Rysová
 +**JZ** Jana Zdeňková
 +(dříve i **HF** Helena Filipová)
  
  
-==== Podpora projekty ==== 
-GAČR Evy Hajičové a Šárky Zikánové (od r. 2009) 
-GAUKy (od r. 2009): 
-3letý GAUK LM na anotaci konektorů 
-2letý GAUK ZB na sémantiku synsémantik (na FF) 
  
-Možnost mezinárodní spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
  
  
  
  
-==== Anotační poznámky ==== 
-**[[projekt-anotace-diskurzu:komentare|ZDE]]** shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse, 
-nové poznámky píšeme vždy nahoru, staré nemažeme 
  
  
-==== Zápisy ze schůzek ==== 
-podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} 
-zápis-18-02-2008{{zapis-18-02-2008.pdf|}} 
-aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} 
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
-zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} 
-zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} 
-zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}} 
-zápis z 30-3-2009 a předchozí: {{zapis_30_3_09.doc|}} 
  
  
 +==== Průběh projektu ====
  
 +[[projekt-anotace-diskurzu:prubeh|Průběh projektu]] na samostatné stránce
  
 +==== VŠE K ANOTACI ====
  
 +[[:internal:projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené
  
-==== Další materiály ==== 
-- Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ 
-- Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] 
-- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ 
-|http://people.csail.mit.edu/regina/6892/]] 
-- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} 
-- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH 
-- Seznamy konektorů od Zuzky:  
-{{czech-connectives.xls|české konektory}}  
-{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
-{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
-- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) 
-- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}} 
-- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{tahak-typy-vztahu.doc|}} 
-- Základní bibliografie k podklasifikaci textovych vztahů{{bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} 
  
-==== Aktuálně ==== 
-(LM, 2.3.2009) 
-- další úpravy tredu pro anotaci v kontextu discourse 
-- úpravy setu sémantických textových vztahů 
-- první cvičná data pro měření shody 
-- pondělní seminář 9.3. - přehled nejnovější práce 
  
-(LM, 5.1.2009) 
-- první verze tredího kontextu discourse se zabíhá a zkouší 
-- konverze dat pro anotaci 
-- oanotovat vybrané konektory:  
-**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  
-   nicméně, konkrétně, například, vlastně, vždyť, zatímco** 
  
-- první zkoumaný konektor: **přesto** 
-- první zkoumaná skupina vztahů (z PDTB): **contingency** 
  
-==== Anotační tabulka ==== 
  
-** navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce:** 
  
-**1. typ vztahu** (r: sarciny zkratky* //komentar bez diakritiky//) (hvězdička odděluje formalizovanou a volnou část komentáře) 
-**2. rozsah argumentů** (1: PAR* //nespojita vsuvka s RHEM//) 
-**3. konektor** (pokud je v textu) 
  
- nahraditelnost (**nahr:** jakým slovem, s diakritikou!) 
- vazba na pozici - větná, relativní (**pozice:**) 
- souvýskyt (s možnými konektory, jiný souvýskyt)(**souv:**) 
- negace (**neg:**) 
- morfologické zvláštnosti okolí (**morfg:**) 
- odkaz do stejného stromu (**ss:**) 
- ostatní (**etc:**) 
  
  
  
  
-==== Spolupráce ==== 
-- výrazná spolupráce s anotací rozšířené textové koreference (Anja) 
-- anotace dialogu pro Companions (Silvie) 
-- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka 
  
-ukázka megastromu, stav z března 2008:  
-{{megastrom2.png|}} 
  
  
Line 127: Line 69:
  
  
-==== Rozšíření pro Tred pro anotaci diskurzu ==== +==== Různé materiály ==== 
-=== 20081217 (JM)=== +- Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] 
-Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anaforyPůvodní záměr bylže se budou nadále vyvíjet jako jedno rozšířeníale to se nepotvrdilo. +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] 
-=== Jednoduchý návod instalaci a použití=== +- Odkaz na seminář RBarzilay (MITCambridgeMA) diskurzu [[http://people.csail.mit.edu/regina/6892/ 
-==Instalace:== +|http://people.csail.mit.edu/regina/6892/]] 
-Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred+MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}} 
-Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions)+- Seznamy konektorů od Zuzky:  
 +{{internal:czech-connectives.xls|české konektory}}  
 +{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
 +{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
 +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} 
 +- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008{{internal:tahak-typy-vztahu.doc|}} 
 +- Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}}
  
-==Ovládání zobrazení:== +==== Bylo ==== 
-Pro zobrazení větstromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: +(LM2.3.2009) 
-**Alt+b** bridging mode vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging +- další úpravy tredu pro anotaci v kontextu discourse 
-**Alt+d** pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne korefa bridging) +úpravy setu sémantických textových vztahů 
-**Alt+f** full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny+první cvičná data pro měření shody 
 +pondělní seminář 9.3. - přehled nejnovější práce
  
-Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: +(LM, 5.1.2009) 
-**Ctrl+b** přepne zobrazení bridging anafory +první verze tredího kontextu discourse se zabíhá a zkouší 
-**Ctrl+r** přepne zobrazení gramatické koreference +konverze dat pro anotaci
-**Ctrl+t** - přepne zobrazení textové koreference +
-**Ctrl+d** - přepne zobrazení čistě diskurzních šipek+
  
-Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. 
  
-==Editace diskurzních šipek:== 
-Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. 
-**mezera** - přepne označení budoucího cílového uzlu diskurzní šipky; možno postupně vybrat více uzlů; používá se též pro výběr uzlů pro vytvoření skupiny 
-**Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) 
-**f** (forget) - ruční zapomenutí všech označených uzlů 
-**d** (discourse) - vloží diskurzní šipku z aktuálního uzlu do zapamatovaného uzlu; zobrazí se dialogové okno pro vložení typu 
-**c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
-**r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
-**x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
  
-==Práce se skupinami uzlů:== 
-Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: 
-- v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě 
-- při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky 
-**g** (group) - vytvoří skupinu z označených uzlů 
-**Ctrl+g** - zruší první skupinu, jejíž prvkem je aktuální uzel 
-V případě, že začátek a/nebo konec šipky je v reprezentujícím uzlu nějaké skupiny, tento začátek a/nebo konec šipky se vztahuje k celé skupině. V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. 
  
-==Ostatní:== 
-**Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) 
-**Ctrl+k** (asi 'k'olaps) - přepne kolapsované zobrazení uzlů 
  
  
  
-==== Interní poznámky ==== 
  
-[[:internal:projekt-anotace-diskurzu|interní poznámky]] pouze pro přihlášené +==== Spolupráce ==== 
 +- výrazná spolupráce s anotací rozšířené textové koreference (Anja) 
 +- anotace dialogu pro Companions (Silvie) 
 +technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka 
 + 
 + 
 +==== Rozšíření TrEdu pro anotaci diskurzu ====
  
 +Tred používá k anotaci diskurzu rozšíření, jemuž je věnována následující stránka:
 +[[projekt-anotace-diskurzu:tred|rozšíření TrEdu "discourse"]]
  
 ==== Bibliografie k diskurzu ==== ==== Bibliografie k diskurzu ====

[ Back to the navigation ] [ Back to the content ]