Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
projekt-anotace-diskurzu [2008/12/10 11:03] anotator |
projekt-anotace-diskurzu [2009/06/10 10:32] ptacek dokumentu neverejne na zadost LM |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Projekt anotace diskurzu ====== | + | ====== Projekt anotace diskurzu |
- | Doplňující | + | Doplňující informace o tomto projektu na stránce Návrhy pro PDT 2.5, tj. zde: [[internal: |
- | ==== Předběžné poznámky a materiály k projektu ==== | ||
- | Anotace diskurzu se plánuje jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, | ||
+ | ==== Cíle projektu ==== | ||
- | ==== Kdo se v tom angažuje | + | Anotace diskurzu je planována jako součást další, “vyšší” roviny v PDT, ve které bude podrobně zpracována koreference, |
+ | Cílem je doplnit anotaci rozšířené koreference v PDT o další textové vztahy, které se podílejí na celkové koherenci textu. Jsou to zejména vztahy mezi větami (mezi stromy), a tudíž je TR zatím nezachycuje. TR pouze signalizuje některé z nich funktorem PREC, který ovšem postrádá bližší sémantickou specifikaci. Anotace nadvětných vztahů bude vycházet z hierarchické soustavy diskurzních vztahů vypracované Š. Zikánovou (Zikánová 2007) na základě soustavy vytvořené pro Penn Discourse TreeBank. Podobně jako v PDTB budeme postupovat od anotace konektorů (funktor PREC a další lexémy s touto funkcí, které ale mají v TR jiné funktory). V první fázi se nebudeme zabývat koordinačními vztahy uvnitř věty (uzly s nodetype=coap), protože tyto textové vztahy (tj. vztahy v rámci jednoho stromu) jsou v TR dostatečně zpracované. | ||
+ | |||
+ | V druhé fázi bychom se vrátili zpět „dovnitř věty“, kde vidíme tyto dílčí úkoly: | ||
+ | - zpracování kategorie CM (conjuction modifier) a tedy víceslovných spojovacích výrazů | ||
+ | - sémantické rozpracování koordinačního vztahu APPS (apozice), sémantické zpracování nepravých vedlejších vět a vztah vsuvky (PAR) ke větě, do níž je vsunuta | ||
+ | Z mezivětných vztahů bychom doplnili: | ||
+ | - propojení přímé řeči o více větách (stromech) | ||
+ | - spojení všech parcelací | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Na projektu | ||
lingvisticky: | lingvisticky: | ||
- | technicky: Zdeněk Žabokrtský, | + | technicky: Zdeněk Žabokrtský, |
==== Zadané práce ==== | ==== Zadané práce ==== | ||
LM + ZB: disertace, (ZB na FF :-)) | LM + ZB: disertace, (ZB na FF :-)) | ||
- | ==== Granty ==== | ||
- | Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové | ||
- | Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank | ||
- | Zadané žádosti: | ||
- | GAUK Lucie Mladové (3r) | ||
- | GAUK Zuzanny Bedřichové (2r, FF UK) | ||
- | GAUK Pavla Češky (1r, technická podpora) | ||
- | ==== Materiály | + | ==== Podpora projekty |
+ | GAČR Evy Hajičové a Šárky Zikánové (od r. 2009) | ||
+ | GAUKy (od r. 2009): | ||
+ | 3letý GAUK LM na anotaci konektorů | ||
+ | 2letý GAUK ZB na sémantiku synsémantik (na FF) | ||
+ | |||
+ | Možnost mezinárodní spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Anotační poznámky ==== | ||
+ | **[[projekt-anotace-diskurzu: | ||
+ | nové poznámky píšeme vždy nahoru, staré nemažeme | ||
+ | |||
+ | |||
+ | |||
+ | ==== Zápisy ze schůzek ==== | ||
+ | podklady pro schůzku 11-02-2008{{internal: | ||
+ | zápis-18-02-2008{{internal: | ||
+ | aktuální plán postupu 20-10-2008{{internal: | ||
+ | zápis 07-11-2008 {{internal: | ||
+ | zápis 25-11-2008: výběr konektorů k preanotaci {{internal: | ||
+ | zápis z 2-12-2008: technické řešení diskurzu {{internal: | ||
+ | zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{internal: | ||
+ | zápis z 30-3-2009 a předchozí: | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ==== Další materiály ==== | ||
+ | - Anotace diskurzu v PDT – {{internal: | ||
+ | - Odkaz na [[http:// | ||
+ | - Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http:// | ||
+ | |http:// | ||
+ | - MANUÁL PDTB 2.0 ke stáhnutí {{internal: | ||
+ | - {{internal: | ||
+ | - Seznamy konektorů od Zuzky: | ||
+ | {{internal: | ||
+ | {{internal: | ||
+ | {{internal: | ||
+ | - Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) | ||
+ | - Zuzčiny poznámky k manuálu PDTB 2.0 {{internal: | ||
+ | - Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal: | ||
+ | - Základní bibliografie k podklasifikaci textovych vztahů{{internal: | ||
+ | |||
+ | ==== Aktuálně ==== | ||
+ | (LM, 2.3.2009) | ||
+ | - další úpravy tredu pro anotaci v kontextu discourse | ||
+ | - úpravy setu sémantických textových vztahů | ||
+ | - první cvičná data pro měření shody | ||
+ | - pondělní seminář 9.3. - přehled nejnovější práce | ||
+ | |||
+ | (LM, 5.1.2009) | ||
+ | - první verze tredího kontextu discourse se zabíhá a zkouší | ||
+ | - konverze dat pro anotaci | ||
+ | - oanotovat vybrané konektory: | ||
+ | **však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž, | ||
+ | | ||
+ | |||
+ | - první zkoumaný konektor: **přesto** | ||
+ | - první zkoumaná skupina vztahů (z PDTB): **contingency** | ||
+ | |||
+ | ==== Anotační tabulka ==== | ||
+ | |||
+ | ** navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce: | ||
+ | |||
+ | **1. typ vztahu** (r: sarciny zkratky* //komentar bez diakritiky// | ||
+ | **2. rozsah argumentů** (1: PAR* //nespojita vsuvka s RHEM//) | ||
+ | **3. konektor** (pokud je v textu) | ||
+ | |||
+ | | ||
+ | vazba na pozici - větná, relativní (**pozice: | ||
+ | | ||
+ | | ||
+ | | ||
+ | odkaz do stejného stromu (**ss:**) | ||
+ | | ||
- | Poznámky + zápisy z “diskurzních sezení” | ||
- | {{podklady_11-2-2008.pdf|podklady_schuzka 11-02-2008}} | ||
- | {{zapis-18-02-2008.pdf|zapis_schuzka 18-02-2008}} | ||
- | Aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} | ||
- | Anotace diskurzu v PDT – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ | ||
- | Odkaz na [[http:// | ||
- | MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} | ||
- | {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH | ||
==== Spolupráce ==== | ==== Spolupráce ==== | ||
- | - výrazná | + | - výrazná |
- anotace dialogu pro Companions (Silvie) | - anotace dialogu pro Companions (Silvie) | ||
- | - technicky: vytvoření anotačního prostředí – kontext | + | - technicky: vytvoření anotačního prostředí – pro první hrubý průzkum byl vytvořen na jaře 2008 kontext megatree v TrEdu, |
- | ukázka megastromu: | + | ukázka megastromu, stav z března 2008: |
{{megastrom2.png|}} | {{megastrom2.png|}} | ||
Line 49: | Line 127: | ||
- | ==== Zápisy | + | |
- | zápis 07-11-2008 {{zapis-07-11-2008.doc|}} | + | |
+ | |||
+ | ==== Rozšíření pro Tred pro anotaci diskurzu ==== | ||
+ | === 20081217 - 20090521 (JM): === | ||
+ | Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anafory. Původní záměr byl, že se budou nadále vyvíjet jako jedno rozšíření, | ||
+ | === Jednoduchý návod k instalaci a použití: === | ||
+ | ==Instalace: | ||
+ | Tred instalujte | ||
+ | Nainstalujte rozšíření Discourse Annotation (Session -> Manage Extensions) | ||
+ | |||
+ | ==Ovládání zobrazení: | ||
+ | Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: | ||
+ | **Alt+b** - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, | ||
+ | **Alt+d** - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) | ||
+ | **Alt+f** - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny | ||
+ | |||
+ | Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: | ||
+ | **Ctrl+b** - přepne zobrazení bridging anafory | ||
+ | **Ctrl+r** - přepne zobrazení gramatické koreference | ||
+ | **Ctrl+t** - přepne zobrazení textové koreference | ||
+ | **Ctrl+d** - přepne zobrazení čistě diskurzních šipek | ||
+ | |||
+ | Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. | ||
+ | |||
+ | ==Editace diskurzních šipek:== | ||
+ | Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. | ||
+ | **mezera** | ||
+ | **Ctrl+mezera** | ||
+ | **f** (forget) | ||
+ | **d** (discourse) | ||
+ | **c** (comment) | ||
+ | **r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky | ||
+ | |||
+ | ==Práce se skupinami uzlů:== | ||
+ | Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto: | ||
+ | - v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě | ||
+ | - při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky | ||
+ | **g** (group) - vytvoří skupinu z označených uzlů | ||
+ | **Ctrl+g** - zruší první skupinu, jejíž prvkem je aktuální uzel | ||
+ | V případě, že začátek a/nebo konec šipky je v reprezentujícím uzlu nějaké skupiny, tento začátek a/nebo konec šipky se vztahuje k celé skupině. V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky. | ||
+ | |||
+ | ==Ostatní: | ||
+ | **Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky) | ||
+ | **Ctrl+k** (asi ' | ||
+ | |||
+ | |||
+ | |||
+ | ==== Interní poznámky ==== | ||
+ | |||
+ | [[: | ||
==== Bibliografie k diskurzu ==== | ==== Bibliografie k diskurzu ==== |