[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
projekt-anotace-diskurzu [2009/04/27 10:10]
anotator
projekt-anotace-diskurzu [2009/12/08 17:54]
ufal
Line 16: Line 16:
 - propojení přímé řeči o více větách (stromech) - propojení přímé řeči o více větách (stromech)
 - spojení všech parcelací  - spojení všech parcelací 
 +
 +
 +
  
  
Line 22: Line 25:
  
 lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová lingvisticky: prof. E. Hajičová, Šárka Zikánová, Lucie Mladová, Zuzka Bedřichová
-technicky: Zdeněk Žabokrtský, Jirka Mírovský, Pavel Češka+technicky: Jirka Mírovský, Petr Pajas, Zdeněk Žabokrtský
  
-==== Zadané práce ==== +anotátoři:
- LM + ZBdisertace, (ZB na FF :-))+
  
  
-==== Plánovaná podpora projekty ==== +**HF** Helena Filipová 
-Přijatý GAČR paní profesorky Hajičové a Šárky Zikánové +**JP** Jana Pěnčíková 
-Možnost mezinárodního spoluporáce v návaznosti na grant prof. Joshiho a Penn Discourse Treebank+**JZ** Jana Zdeňková 
 +**PJ** Pavlína Jínová 
 +**VP** Veronika Pavlíková
  
-Zadané návrhy na granty (všechny nové): 
-GAUKy : 
-3letý GAUK LM na anotaci konektorů 
-2letý GAUK ZB na sémantiku synsémantik (na FF) 
-1letý GAUK Pavla Češky na technickou podporu anotace diskurzu 
  
 +
 +
 +
 +
 +
 +
 +
 +
 +==== Interní poznámky ====
 +
 +[[:internal:projekt-anotace-diskurzu:index|interní poznámky]] pouze pro přihlášené
  
  
Line 45: Line 55:
 **[[projekt-anotace-diskurzu:komentare|ZDE]]** shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse, **[[projekt-anotace-diskurzu:komentare|ZDE]]** shromažďujeme všechny komentáře k prvním pokusným anotacím v TrEdu, context discourse,
 nové poznámky píšeme vždy nahoru, staré nemažeme nové poznámky píšeme vždy nahoru, staré nemažeme
 +
 +
  
 ==== Zápisy ze schůzek ==== ==== Zápisy ze schůzek ====
-podklady pro schůzku 11-02-2008{{podklady_11-2-2008.pdf|}} +podklady pro schůzku 11-02-2008{{internal:podklady_11-2-2008.pdf|}} 
-zápis-18-02-2008{{zapis-18-02-2008.pdf|}} +zápis-18-02-2008{{internal:zapis-18-02-2008.pdf|}} 
-aktuální plán postupu 20-10-2008{{diskurz-plan-1-.doc|}} +aktuální plán postupu 20-10-2008{{internal:diskurz-plan-1-.doc|}} 
-zápis 07-11-2008 {{zapis-07-11-2008.doc|}} +zápis 07-11-2008 {{internal:zapis-07-11-2008.doc|}} 
-zápis 25-11-2008: výběr konektorů k preanotaci {{25-11-2008.doc|}} +zápis 25-11-2008: výběr konektorů k preanotaci {{internal:25-11-2008.doc|}} 
-zápis z 2-12-2008: technické řešení diskurzu {{technicke-reseni-diskurzu-2-.doc|}} +zápis z 2-12-2008: technické řešení diskurzu {{internal:technicke-reseni-diskurzu-2-.doc|}} 
-zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{zapis-15-12-2008.doc|}}+zápis z 15-12-2008: technické řešení meziprop.diskurzních vztahů II {{internal:zapis-15-12-2008.doc|}} 
 +zápis z 30-3-2009 a předchozí: {{internal:zapis_30_3_09.doc|}} 
 + 
  
  
Line 60: Line 75:
  
 ==== Další materiály ==== ==== Další materiály ====
-- Anotace diskurzu v PDT  – {{anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ+- Anotace diskurzu v PDT  – {{internal:anotace-diskurzu.ppt|prezentace}} pro pondělní seminář ÚFALu 26.11. 2007, ŠZ
 - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]] - Odkaz na  [[http://www.seas.upenn.edu/~pdtb/|Penn Discourse Treebank 2.0]]
-- Odkaz na seminář R. Barzilay ( Uni Cambridge?) k diskurzu [[http://people.csail.mit.edu/regina/6892/+- Odkaz na seminář R. Barzilay (MIT, Cambridge, MA) k diskurzu [[http://people.csail.mit.edu/regina/6892/
 |http://people.csail.mit.edu/regina/6892/]] |http://people.csail.mit.edu/regina/6892/]]
-- MANUÁL PDTB 2.0 ke stáhnutí {{pdtb-annotation-manual.pdf|manual_PDTB_2}} +- MANUÁL PDTB 2.0 ke stáhnutí {{internal:pdtb-annotation-manual.pdf|manual_PDTB_2}} 
-- {{mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH+- {{internal:mladova_zikanova_hajicova_lrec.pdf|Článek}} a {{internal:lm_discourse.pdf|prezentace}} o diskurzu na konferenci LREC 2008, LM, ŠZ, EH
 - Seznamy konektorů od Zuzky:  - Seznamy konektorů od Zuzky: 
-{{czech-connectives.xls|české konektory}}  +{{internal:czech-connectives.xls|české konektory}}  
-{{czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  +{{internal:czech-connectives-ceske-poradi-sarka.xls|české konektory abecedně}}  
-{{konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}}+{{internal:konektory-doplneno-zu.xls|doplněný seznam možných českých konektorů}}
 - Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky) - Šárcina prezentace pro mixer 26.11.2008 (na požádání u Šárky)
-- Zuzčiny poznámky k manuálu PDTB 2.0 {{poznamky-k-manualu-pdtb_changed.doc|}} +- Zuzčiny poznámky k manuálu PDTB 2.0 {{internal:poznamky-k-manualu-pdtb_changed.doc|}} 
-- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{tahak-typy-vztahu.doc|}} +- Seznam diskurzních vztahů a jejich zkratek (SZ, 29.12.2008) {{internal:tahak-typy-vztahu.doc|}} 
-- Základní bibliografie k podklasifikaci textovych vztahů{{bibliografie-k-podklasifikaci-textovych-vztahu.doc|}}+- Základní bibliografie k podklasifikaci textovych vztahů{{internal:bibliografie-k-podklasifikaci-textovych-vztahu.doc|}} 
  
 ==== Aktuálně ==== ==== Aktuálně ====
Line 85: Line 101:
 - první verze tredího kontextu discourse se zabíhá a zkouší - první verze tredího kontextu discourse se zabíhá a zkouší
 - konverze dat pro anotaci - konverze dat pro anotaci
-- oanotovat vybrané konektory:  
-**však, také, naopak, tedy, navíc, ovšem, přesto, jinak, totiž,  
-   nicméně, konkrétně, například, vlastně, vždyť, zatímco** 
  
-- první zkoumaný konektor: **přesto** 
-- první zkoumaná skupina vztahů (z PDTB): **contingency** 
  
-==== Anotační tabulka ==== 
  
-** navržená tabulka vlastností vztahů a konektorů pro anotaci + anotační zkratky v tabulce:** 
  
-**1. typ vztahu** (r: sarciny zkratky* //komentar bez diakritiky//) (hvězdička odděluje formalizovanou a volnou část komentáře) 
-**2. rozsah argumentů** (1: PAR* //nespojita vsuvka s RHEM//) 
-**3. konektor** (pokud je v textu) 
- 
- nahraditelnost (**nahr:** jakým slovem, s diakritikou!) 
- vazba na pozici - větná, relativní (**pozice:**) 
- souvýskyt (s možnými konektory, jiný souvýskyt)(**souv:**) 
- negace (**neg:**) 
- morfologické zvláštnosti okolí (**morfg:**) 
- odkaz do stejného stromu (**ss:**) 
- ostatní (**etc:**) 
  
  
Line 118: Line 116:
 ukázka megastromu, stav z března 2008:  ukázka megastromu, stav z března 2008: 
 {{megastrom2.png|}} {{megastrom2.png|}}
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
  
  
 ==== Rozšíření pro Tred pro anotaci diskurzu ==== ==== Rozšíření pro Tred pro anotaci diskurzu ====
-=== 20081217 (JM): === +=== 20081217 - 20090826 (JM): === 
-Prvotní podpora pro anotaci diskurzu vychází z rozšíření pro anotaci bridging anafory. Původní záměr byl, že se budou nadále vyvíjet jako jedno rozšíření, ale to se nepotvrdilo.+Podpora pro anotaci diskurzu užívá rozšíření Tredu nondeprel (non-dependency relations annotation).
 === Jednoduchý návod k instalaci a použití: === === Jednoduchý návod k instalaci a použití: ===
 ==Instalace:== ==Instalace:==
Line 130: Line 138:
 ==Ovládání zobrazení:== ==Ovládání zobrazení:==
 Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami: Pro zobrazení vět, stromů a diskurzních šipek existují tři přednastavené módy, které se přepínají těmito klávesovými zkratkami:
-Alt+bbridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging +**Alt+b** - bridging mode - vidět je jeden strom, velké množství kontextových vět vpřed i vzad, šipky: koreference, bridging 
-Alt+dpure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) +**Alt+d** - pure discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: čistě diskurzní (čili ne koref. a bridging) 
-Alt+ffull discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny+**Alt+f** - full discourse mode - vidět jsou dva stromy vzad a jeden vpřed, deset vět vzad a pět vpřed, šipky: všechny
  
 Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto: Zobrazení jednotlivých druhů šipek je možno ovládat nezávisle na přednastaveném módu takto:
-Ctrl+bpřepne zobrazení bridging anafory +**Ctrl+b** - přepne zobrazení bridging anafory 
-Ctrl+g: přepne zobrazení gramatické koreference +**Ctrl+r** - přepne zobrazení gramatické koreference 
-Ctrl+tpřepne zobrazení textové koreference +**Ctrl+t** - přepne zobrazení textové koreference 
-Ctrl+dpřepne zobrazení čistě diskurzních šipek+**Ctrl+d** - přepne zobrazení čistě diskurzních šipek
  
 Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách. Zobrazení se týká nejen šipek, ale rovněž barevného zvýraznění slov v kontextových větách.
  
 ==Editace diskurzních šipek:== ==Editace diskurzních šipek:==
-Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. +Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. Existující skupinu uzlů je rovněž možno vybrat kliknutím na ni
-mezera - označí budoucí cílový uzel diskurzní šipky +**mezera** přepne označení budoucího cílového uzlu/skupiny diskurzní šipky; možno postupně vybrat více uzlů a skupin; používá se též pro výběr uzlů pro vytvoření skupiny 
-f (forget) - ruční zapomenutí dříve označeného cílového uzlu (není nutné takto ručně zapomínat) +**Ctrl+mezera** - přepne označení u všech uzlů v podstromu aktuálního uzlu (včetně) 
-d (discourse) - vloží diskurzní šipku z aktuálního uzlu do zapamatovaného uzlu; zobrazí se dialogové okno pro vložení typu +**f** (forget) - ruční zapomenutí všech označených uzlů a skupin 
-c (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky +**d** (discourse) - vloží diskurzní šipku (šipky) aktuální skupiny či aktuálního uzlu do zapamatovaného uzlu či skupiny (či zapamatovaných uzlů a skupin); zobrazí se dialogové okno pro vložení typu, který je v případě více cílů společný 
-r (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky +**c** (comment) - vložení komentáře k diskurzní šipce vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
-x - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky +**r** (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
-Pro úplnost: t vloží textovou koreferencib vloží bridging anaforu+**x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky 
 +**n** - nastavení označených (pomocí mezery) uzlů jako konektorů diskurzní šipky vedoucí z aktuálního uzlu; pokud z akt. uzlu vede více šipek, uživatel je požádán o vybrání té správné; konektor (povrchové vyjádření) se pak zobrazí v bubliněkdyž se myš na chvíli zastaví nad příslušnou šipkou
  
  
 +==Práce se skupinami uzlů:==
 +Uzly i z různých stromů je možno seskupovat, diskurzní šipky je možno vést jak mezi jednotlivými uzly, tak mezi skupinami, či kombinovaně - to je reprezentováno diskurzní šipkou vedoucí z/do reprezentujícího uzlu skupiny. Reprezentující uzel skupiny se určí takto:
 +- v případě, že skupinu tvoří uzly z více stromů, reprezentující uzel skupiny je vždy v nejlevějším stromě
 +- při rozhodování mezi uzly z jednoho stromu je reprezentující uzel první v průchodu do hloubky
 +**g** (group) - vytvoří skupinu z označených uzlů
 +**Ctrl+g** - zruší vybranou skupinu
 +Šipky, které končí či začínají ve skupině uzlů, opticky i datově končí či začínají v reprezentujících uzlech skupin.
 +V datech je to reprezentováno atributy start_group_id a target_group_id u diskurzní šipky.
 +
 +==Ostatní:==
 +**Ctrl+c** (comment) - vložení diskurzního komentáře k celému uzlu (bez ohledu na šipky)
 +**Ctrl+k** (asi 'k'olaps) - přepne kolapsované zobrazení uzlů
 +**u** ('u'nfold) - ručně rozbalí/znovu sbalí aktuální uzel (v kolapsovaném zobrazení uzlů)
 +**h** (is_'h'eading) - přepne vlastnost aktuálního uzlu is_heading
 +**l** (is_'l'ist_entry) - přepne vlastnost aktuálního uzlu is_list_entry
  
-==== Interní poznámky ==== 
  
-[[:internal:projekt-anotace-diskurzu|interní poznámky]] pouze pro přihlášené  
  
  

[ Back to the navigation ] [ Back to the content ]