[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
projekt-anotace-diskurzu [2008/11/11 16:15]
anotator
projekt-anotace-diskurzu [2008/12/17 16:50]
mirovsky
Line 1: Line 1:
-====== Projekt anotace diskurzu ======+====== Projekt anotace diskurzu (mezipropozičních vztahů)======
  
 +Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: https://wiki.ufal.ms.mff.cuni.cz/internal:pdt25:navrhy
  
-==== Předběžné poznámky a materiály k projektu ==== 
  
-Anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, pojmenované entity a textové vztahy (diskurz). 
  
-==== Kdo se v tom angažuje ====  +==== Cíle projektu ====
  
-prof. E. HajičováŠárka ZikánováLucie Mladová, Zdeněk ŽabokrtskýZuzka BedřichováKatka Veselá +Anotace diskurzu je planována jako součást další“vyšší” roviny v PDTve které bude podrobně zpracována koreferencepojmenované entity a textové vztahy (mezipropoziční vztahydiskurz). 
-==== Zadané práce ==== +Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahykteré se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy rámci jednoho stromu) jsou v TR dostatečně zpracované
- LM + ZB: disertace(ZB na FF :-)) +
-==== Granty ==== +
-Čeká se na schválení GAČRu paní profesorky Hajičové Šárky Zikánové +
-Možnost mezinárodního grantu návaznosti na profJoshiho a Penn Discourse Treebank+
  
 +V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly:
 +- zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů
 +- sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta
 +Z mezivětných vztahů bychom doplnili:
 +- propojení přímé řeči o více větách (stromech)
 +- spojení všech parcelací 
  
  
  
 +==== Na projektu se podílejí ====  
  
 +lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová
 +technicky: Zdeněk Žabokrtský, Jirka Mírovský, Pavel Češka
  
 +==== Zadané práce ====
 + LM + ZB: disertace, (ZB na FF :-))
  
  
-==== Materiály ====+==== Plánovaná podpora projekty ==== 
 +Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové 
 +Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank
  
-Poznámky + zápisy z “diskurzních sezení” +Zadané návrhy na granty (všechny nové): 
-{{podklady_11-2-2008.pdf|podklady_schuzka 11-02-2008}} +GAUKy : 
-{{zapis-18-02-2008.pdf|zapis_schuzka 18-02-2008}}+3letý GAUK LM na anotaci konektorů 
 +2letý GAUK ZB na sémantiku synsémantik (na FF) 
 +1letý GAUK Pavla Češky na technickou podporu anotace diskurzu
  
-Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ +==== Zápisy ze schůzek ==== 
-Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] +podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} 
-MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} +zápis-18-02-2008{{zapis-18-02-2008.pdf|}} 
-{{mladova_zikanova_hajicova_lrec.pdf|Článek}} {{lm_discourse.pdf|prezentace}} diskurzu na konferenci LREC 2008, LM, ŠZ, EH+aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} 
 +zápis 07-11-2008 {{zapis-07-11-2008.doc|}} 
 +zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} 
 +zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} 
 +zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}}
  
 +==== Další materiály ====
 +- Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ
 +- Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]]
 +- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}}
 +- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH
 +- Seznamy konektorů od Zuzky: 
 +{{czech-connectives.xls|české konektory}} 
 +{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}} 
 +{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}}
 +- Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky)
 +- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}}
  
  
 +==== Aktuálně ====
 +- domyslet technické řešení anotace diskurzu
 +- převést to do TrEdu
 +- oanotovat vybrané konektory: 
 +**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž, 
 +   nicméně, konkrétně, například, vlastně, vždyť, zatímco**
  
 +- první zkoumaný konektor: **přesto**
 +- první zkoumaná skupina vztahů (z PDTB): **contingency**
  
-==== Spolupráce ==== +**navržená tabulka vlastností konektorů pro anotaci:**
-výrazná kooperace s anotací TFA a koreference (rozvedení anotace textové koreference) +
-- anotace dialogu pro Companions (Silvie) +
-- technicky: vytvoření anotačního prostředí – kontext “megatree” v TrEdu, první hrubou verzi už dal dohromady Pepa Toman:+
  
-ukázka megastromu:  +  - typ vztahu 
-{{megastrom2.png|}}+  - nahraditelnost 
 +  - vazba na pozici (větná, relativní) 
 +  - souvýskyt (s možnými konektory, jiný souvýskyt) 
 +  - negace 
 +  - morfologické zvláštnosti okolí 
 +  - odkaz do stejného stromu 
 +  - ostatní
  
  
  
 +==== Spolupráce ====
 +- výrazná spolupráce s anotací rozšířené textové koreference (Anja)
 +- anotace dialogu pro Companions (Silvie
 +- technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, (Pepa Toman), dále využijeme nový kontext PLM_T_Bridging v TrEdu, úpravy provedou Jirka Mírovský a Pavel Češka
  
 +ukázka megastromu, stav z března 2008: 
 +{{megastrom2.png|}}
  
-==== Zápisy ze schůzek ==== +==== Rozšíření pro Tred pro anotaci diskurzu ====
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}}+
  
 ==== Bibliografie k diskurzu ==== ==== Bibliografie k diskurzu ====
Line 110: Line 151:
  
 Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics, Charles University, Prague. Zikánová, Š. (2007). Possibilities of Discourse Annotation in Prague Dependency Treebank (Based on the Penn Discourse Treebank Annotation). Technical report. Institute of Formal and Applied Linguistics, Charles University, Prague.
- 
- 

[ Back to the navigation ] [ Back to the content ]