[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
projekt-anotace-diskurzu [2008/12/10 11:39]
anotator
projekt-anotace-diskurzu [2022/01/17 15:43] (current)
ufal
Line 1: Line 1:
-====== Projekt anotace diskurzu ======+====== Projekt anotace diskurzu (textových, promluvových vztahů)======
  
-Doplňující aktuální informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: https://wiki.ufal.ms.mff.cuni.cz/internal:pdt25:navrhy 
  
-==== Předběžné poznámky a materiály k projektu ====+==== Cíle projektu ====
  
-Anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (diskurz).+Anotace diskurzu je planována jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (mezipropoziční vztahy, diskurz)
 +Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy v rámci jednoho stromu) jsou v TR dostatečně zpracované
  
 +V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly:
 +- zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů
 +- sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta
 +Z mezivětných vztahů bychom doplnili:
 +- propojení přímé řeči o více větách (stromech)
 +- spojení všech parcelací 
  
-==== Kdo se v tom angažuje ====   
  
-lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová 
-technicky: Zdeněk Žabokrtský, Jirka Mírovský, Pavel Češka 
  
-==== Zadané práce ==== 
- LM + ZB: disertace, (ZB na FF :-)) 
  
-==== Granty ==== 
-Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové 
-Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank 
  
-Zadané žádosti: 
-GAUK Lucie Mladové (3r) 
-GAUK Zuzanny Bedřichové (2r, FF UK) 
-GAUK Pavla Češky (1r, technická podpora) 
  
 +==== Na projektu se podílejí ====  
  
-==== Zápisy ze schůzek ==== +lingvisticky: profEHajičová, Šárka Zikánová, Lucie Mladová, Pavlína Jínová (dříve i Zuzanna Bedřichová) 
-podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} +technickyJirka Mírovský (dříve i Petr Pajas, Zdeněk Žabokrtský)
-zápis-18-02-2008{{zapis-18-02-2008.pdf|}} +
-aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} +
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}} +
-zápis 25-11-2008výběr konektorů preanotaci {{25-11-2008.doc|}} +
-zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}}+
  
 +anotátoři:
  
-==== Další materiály ==== +**PJ** Pavlína Jínová 
-Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ+**VP** Veronika Pavlíková 
 +**MR** Magdaléna Rysová 
 +**JZ** Jana Zdeňková 
 +(dříve i **HF** Helena Filipová) 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Průběh projektu ==== 
 + 
 +[[projekt-anotace-diskurzu:prubeh|Průběh projektu]] na samostatné stránce 
 + 
 +==== VŠE K ANOTACI ==== 
 + 
 +[[:internal:projekt-anotace-diskurzu:index|Interní poznámky]] pouze pro přihlášené 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +==== Různé materiály ====
 - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]]
-- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} +- [[instalace_PDTB|Instalace prohlížeče pro Penn Discourse Treebank]] 
-- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH+- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/ 
 +|http://people.csail.mit.edu/regina/6892/]] 
 +- MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}}
 - Seznamy konektorů od Zuzky:  - Seznamy konektorů od Zuzky: 
-{{czech-connectives.xls|české konektory}}  +{{internal:czech-connectives.xls|české konektory}}  
-{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  +{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
-{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} +{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}} 
-- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} 
-- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}}+- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} 
 +- Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}}
  
 +==== Bylo ====
 +(LM, 2.3.2009)
 +- další úpravy tredu pro anotaci v kontextu discourse
 +- úpravy setu sémantických textových vztahů
 +- první cvičná data pro měření shody
 +- pondělní seminář 9.3. - přehled nejnovější práce
  
-==== Aktuálně ==== +(LM, 5.1.2009) 
-domyslet technické řešení anotace diskurzu +první verze tredího kontextu discourse se zabíhá a zkouší 
-převést to do TrEdu +konverze dat pro anotaci
-- oanotovat vybrané konektory:  +
-**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  +
-   nicméně, konkrétně, například, vlastně, vždyť, zatímco**+
  
-- první zkoumaný konektor: **přesto** 
-- první zkoumaná skupina vztahů (z PDTB): **contingency** 
  
-**- navržená tabulka vlastností konektorů pro anotaci:** 
  
-  - typ vztahu 
-  - nahraditelnost 
-  - vazba na pozici (větná, relativní) 
-  - souvýskyt (s možnými konektory, jiný souvýskyt) 
-  - negace 
-  - morfologické zvláštnosti okolí 
-  - odkaz do stejného stromu 
-  - ostatní 
  
  
-==== Spolupráce ==== 
-- výrazná kooperace s anotací TFA a koreference (rozvedení anotace textové koreference) 
-- anotace dialogu pro Companions (Silvie) 
-- technicky: vytvoření anotačního prostředí – kontext “megatree” v TrEdu, první hrubou verzi už dal dohromady Pepa Toman: 
- 
-ukázka megastromu:  
-{{megastrom2.png|}} 
  
  
  
 +==== Spolupráce ====
 +- výrazná spolupráce s anotací rozšířené textové koreference (Anja)
 +- anotace dialogu pro Companions (Silvie)
 +- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
  
 +==== Rozšíření TrEdu pro anotaci diskurzu ====
  
 +Tred používá k anotaci diskurzu rozšíření, jemuž je věnována následující stránka:
 +[[projekt-anotace-diskurzu:tred|rozšíření TrEdu "discourse"]]
  
 ==== Bibliografie k diskurzu ==== ==== Bibliografie k diskurzu ====

[ Back to the navigation ] [ Back to the content ]