[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
projekt-anotace-diskurzu [2008/12/04 11:20]
anotator
projekt-anotace-diskurzu [2009/03/16 11:19]
ptacek
Line 1: Line 1:
-====== Projekt anotace diskurzu ======+====== Projekt anotace diskurzu (textových, promluvových vztahů)======
  
-Doplňující aktuální informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: https://wiki.ufal.ms.mff.cuni.cz/internal:pdt25:navrhy+Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal:pdt25:navrhy]]
  
-==== Předběžné poznámky a materiály k projektu ==== 
  
-Anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (diskurz). 
  
 +==== Cíle projektu ====
  
-==== Kdo se v tom angažuje ====  +Anotace diskurzu je planována jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (mezipropoziční vztahy, diskurz). 
 +Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy v rámci jednoho stromu) jsou v TR dostatečně zpracované.  
 + 
 +V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly: 
 +- zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů 
 +- sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta 
 +Z mezivětných vztahů bychom doplnili: 
 +- propojení přímé řeči o více větách (stromech) 
 +- spojení všech parcelací  
 + 
 + 
 + 
 +==== Na projektu se podílejí ====  
  
 lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová
Line 15: Line 26:
 ==== Zadané práce ==== ==== Zadané práce ====
  LM + ZB: disertace, (ZB na FF :-))  LM + ZB: disertace, (ZB na FF :-))
-==== Granty ==== 
-Čeká se na schválení GAČRu paní profesorky Hajičové a Šárky Zikánové 
-Možnost mezinárodního grantu v návaznosti na prof. Joshiho a Penn Discourse Treebank 
  
-==== Materiály ==== 
  
-Poznámky + zápisy z “diskurzních sezení” +==== Plánovaná podpora projekty ==== 
-{{podklady_11-2-2008.pdf|podklady_schuzka 11-02-2008}} +Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové 
-{{zapis-18-02-2008.pdf|zapis_schuzka 18-02-2008}} +Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
-Aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}}+ 
 +Zadané návrhy na granty (všechny nové): 
 +GAUKy : 
 +3letý GAUK LM na anotaci konektorů 
 +2letý GAUK ZB na sémantiku synsémantik (na FF) 
 +1letý GAUK Pavla Češky na technickou podporu anotace diskurzu 
 + 
 + 
 + 
 + 
 + 
 +==== Anotační poznámky ==== 
 +**[[projekt-anotace-diskurzu:komentare|ZDE]]** shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse, 
 +nové poznámky píšeme vždy nahoru, staré nemažeme 
 + 
 +==== Zápisy ze schůzek ==== 
 +podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} 
 +zápis-18-02-2008{{zapis-18-02-2008.pdf|}} 
 +aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} 
 +zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
 +zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} 
 +zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} 
 +zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}} 
 + 
 + 
 + 
 +==== Další materiály ==== 
 +- Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ 
 +- Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] 
 +- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} 
 +- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH 
 +- Seznamy konektorů od Zuzky:  
 +{{czech-connectives.xls|české konektory}}  
 +{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
 +{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
 +- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) 
 +- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}} 
 +- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{tahak-typy-vztahu.doc|}} 
 + 
 + 
 +==== Aktuálně ==== 
 +(LM, 2.3.2009) 
 +- další úpravy tredu pro anotaci v kontextu discourse 
 +- úpravy setu sémantických textových vztahů 
 +- první cvičná data pro měření shody 
 +- pondělní seminář 9.3. - přehled nejnovější práce 
 + 
 +(LM, 5.1.2009) 
 +- první verze tredího kontextu discourse se zabíhá a zkouší 
 +- konverze dat pro anotaci 
 +- oanotovat vybrané konektory:  
 +**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  
 +   nicméně, konkrétně, například, vlastně, vždyť, zatímco** 
 + 
 +- první zkoumaný konektor: **přesto** 
 +- první zkoumaná skupina vztahů (z PDTB): **contingency** 
 + 
 +==== Anotační tabulka ==== 
 + 
 +** navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce:** 
 + 
 +**1. typ vztahu** (r: sarciny zkratky* //komentar bez diakritiky//) (hvězdička odděluje formalizovanou a volnou část komentáře) 
 +**2. rozsah argumentů** (1: PAR* //nespojita vsuvka s RHEM//) 
 +**3. konektor** (pokud je v textu) 
 + 
 + nahraditelnost (**nahr:** jakým slovem, s diakritikou!) 
 + vazba na pozici - větná, relativní (**pozice:**) 
 + souvýskyt (s možnými konektory, jiný souvýskyt)(**souv:**) 
 + negace (**neg:**) 
 + morfologické zvláštnosti okolí (**morfg:**) 
 + odkaz do stejného stromu (**ss:**) 
 + ostatní (**etc:**) 
 + 
  
-Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ 
-Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] 
-MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} 
-{{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH 
  
 ==== Spolupráce ==== ==== Spolupráce ====
-- výrazná kooperace s anotací TFA a koreference (rozvedení anotace textové koreference)+- výrazná spolupráce s anotací rozšířené textové koreference (Anja)
 - anotace dialogu pro Companions (Silvie) - anotace dialogu pro Companions (Silvie)
-- technicky: vytvoření anotačního prostředí – kontext megatree” v TrEdu, první hrubou verzi už dal dohromady Pepa Toman:+- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
-ukázka megastromu: +ukázka megastromu, stav z března 2008
 {{megastrom2.png|}} {{megastrom2.png|}}
  
  
 +==== Rozšíření pro Tred pro anotaci diskurzu ====
 +=== 20081217 (JM): ===
 +Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anafory. Původní záměr byl, že se budou nadále vyvíjet jako jedno rozšíření, ale to se nepotvrdilo.
 +=== Jednoduchý návod k instalaci a použití: ===
 +==Instalace:==
 +Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/
 +Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions)
  
 +==Ovládání zobrazení:==
 +Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami:
 +Alt+b: bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging
 +Alt+d: pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging)
 +Alt+f: full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny
  
 +Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto:
 +Ctrl+b: přepne zobrazení bridging anafory
 +Ctrl+g: přepne zobrazení gramatické koreference
 +Ctrl+t: přepne zobrazení textové koreference
 +Ctrl+d: přepne zobrazení čistě diskurzních šipek
 +
 +Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách.
 +
 +==Editace diskurzních šipek:==
 +Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách.
 +mezera - označí budoucí cílový uzel diskurzní šipky
 +f (forget) - ruční zapomenutí dříve označeného cílového uzlu (není nutné takto ručně zapomínat)
 +d (discourse) - vloží diskurzní šipku z aktuálního uzlu do zapamatovaného uzlu; zobrazí se dialogové okno pro vložení typu
 +c (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 +r (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 +x - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
 +Pro úplnost: t vloží textovou koreferenci, b vloží bridging anaforu
 +
 +
 +
 +==== Interní poznámky ====
 +
 +[[:internal:projekt-anotace-diskurzu|interní poznámky]] pouze pro přihlášené 
  
-==== Zápisy ze schůzek ==== 
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
  
 ==== Bibliografie k diskurzu ==== ==== Bibliografie k diskurzu ====

[ Back to the navigation ] [ Back to the content ]