Table of Contents
Anotace TFA v české části PCEDT
Probíhá od ledna 2013.
Rozšíření TrEdu pro anotaci TFA v české části PCEDT
Instalace
K anotaci slouží mód PML_Cz_T_TFA
, který je součástí rozšíření TrEdu Wall Street Journal Annotation (wsj-anot)
.
Mód definuje a používá styl PML_T_TFA_Anot
.
Aby se při otevření souboru tento mód sám nastavil, je potřeba TrEd spustit s přepínačem -t PML_Cz_T_TFA
(ale funguje to jen, pokud se součastně jako argument předá i jméno otvíraného souboru).
Obecné vlastnosti
Všechna kolečka reprezentující uzly stromu, které mají mít (či už mají) nastavenu hodnotu tfa
(tfa-relevantní uzly), jsou větší, aby byly dobře rozpoznatelné jejich barvy. Uzly, které žádnou hodnotu tfa
mít nemají, jsou zobrazeny malými šedými kolečky.
(Uzly, které nemají mít anotován atribut tfa
, se poznají tak, že splňují jednu z násl. podmínek: root
, nodetype=coap
nebo fphr
, functor=CM
; pro jistotu je testováno i functor=FPHR
.)
Uzly, které nemají přiřazenu hodnotu tfa
, ale mají ji mít, jsou zobrazeny jako (větší) šedá kolečka.
Pokud jsou ve stromu už jen tři nebo méně
uzlů bez anotace tfa
(z těch, co mají být anotovány), jsou tyto uzly zobrazeny jako ještě trochu větší červená kolečka, aby je bylo hned vidět.
Uzly, které mají hodnotu tfa=t
, jsou zobrazeny jako bílá kolečka.
Uzly, které mají hodnotu tfa=c
, jsou zobrazeny jako zelená kolečka.
Uzly, které mají hodnotu tfa=f
, jsou zobrazeny jako žlutá kolečka.
Hodnota atributu tfa
je navíc zobrazena modrou barvou vpravo vedle t_lemmatu
.
Kořen stromu
je zobrazen jako velké rudé kolečko, dokud všechny uzly ve stromě, které mají mít nastavenu hodnotu tfa
, ji nemají nastavenou. Pak se zmenší a odbarví na malé šedé kolečko.
Potažením myší je možno převěšovat pouze uzly s funktorem RHEM
.
Standardní tredí dialog pro editaci všech atributů uzlu je neaktivní (změny nejdou uložit; v nutném případě to samozřejmě jde obejít přepnutím do jiného módu, kde změny dělat jdou (např. PML_T_Edit
)).
Všechny zásahy anotátora do dat pomocí maker tohoto rozšíření jsou automaticky zaznamenávány do anotátorské poznámky typu TFA_log
. Rovněž automatické akce, které rozšíření provádí, jsou do této poznámky zaznamenávány.
Klávesové zkratky
t - nastaví tfa=t
u aktuálního uzlu
c - nastaví tfa=c
u aktuálního uzlu
f - nastaví tfa=f
u aktuálního uzlu
T (Shift + t) - nastaví tfa=t
u aktuálního uzlu a celého jeho podstromu (uzly, které už tfa
mají nastaveno či tfa
nastaveno mít nemají, jsou vynechány)
C (Shift + c) - nastaví tfa=c
u aktuálního uzlu a celého jeho podstromu (uzly, které už tfa
mají nastaveno či tfa
nastaveno mít nemají, jsou vynechány)
F (Shift + f) - nastaví tfa=f
u aktuálního uzlu a celého jeho podstromu (uzly, které už tfa
mají nastaveno či tfa
nastaveno mít nemají, jsou vynechány)
Ctrl + t - nastaví tfa=t
u aktuálního uzlu a celého jeho podstromu (uzly, které tfa
nastaveno mít nemají, jsou vynechány)
Ctrl + c - nastaví tfa=c
u aktuálního uzlu a celého jeho podstromu (uzly, které tfa
nastaveno mít nemají, jsou vynechány)
Ctrl + f - nastaví tfa=f
u aktuálního uzlu a celého jeho podstromu (uzly, které tfa
nastaveno mít nemají, jsou vynechány)
! - zobrazí dialog pro vložení typované anotátorské poznámky k aktuálnímu uzlu; jedním z typů je TFA
, ale je možno použít i ostatní typy; uzly s anotátorskou poznámkou typu TFA
jsou označeny modrým nápisem TFA
.
? - zobrazí standardní dialog TrEdu pro editaci všech typovaných anotátorských poznámek u aktuálního uzlu
e - změna funktoru RHEM
aktuálního uzlu na jednu z hodnot (ATT CM EXT MOD PREC TFHL TFRWH THL THO TOWH TPAR TSIN TTILL TWHEN
); pokud je nový funktor
z množiny (EXT TFHL TFRWH THL THO TOWH TPAR TSIN TTILL TWHEN
), nodetype
je změněn z atom
na complex
a anotátor je dotázán na hodnotu gramatému
gram/sempos
(pro účely anotace české části PCEDT stačí zvolit prvního reprezentanta dané skupiny (např. adj.denot
pro jakékoliv přídavné jméno))
r - změna funktoru
aktuálního uzlu z jedné z hodnot (ATT CM EXT MOD PREC TFHL TFRWH THL THO TOWH TPAR TSIN TTILL TWHEN
) na RHEM
; pokud byl funktor
původně jeden z (EXT TFHL TFRWH THL THO TOWH TPAR TSIN TTILL TWHEN
), nodetype
je změněn z complex
na atom
a všechny gramatémy jsou vymazány; pokud uzel není listem ve stromu (něco na něm visí), změna funktoru
na RHEM
ani žádné další změny nejsou provedeny
Ctrl + e - editace funktoru
bez omezení (nic nekontroluje a nenastavuje nic jiného)
Ctrl + šipka vlevo či vpravo - posun aktuálního uzlu v hloubkovém uspořádání doleva či doprava
Alt + šipka vlevo či vpravo - posun aktuálního uzlu a celého jeho podstromu v hloubkovém uspořádání doleva či doprava (přeskakuje celé podstromy (jejich projektivní části))
Ctrl + n, m - posun aktuálního uzlu a celého jeho podstromu v hloubkovém uspořádání doleva či doprava (o jeden uzel)
Ctrl + šipka nahoru či dolů - přechod na předchozí či následující strom v souboru
Samotné šipky lze použít k pohybu po stromu.
Automatické úpravy
Přerovnání synů všech uzlů
Kdykoliv jsou všichni tfa-relevantní synové nějakého uzlu, který nemá nodetype=“coap”
(s výjimkou společných rozvití, viz níže), označeni hodnotami tfa
, dojde k automatickému přerovnání těchto synů (a jejich podstromů) tak, aby všechny tyto uzly s tfa=“f”
byly napravo od svého otce a všechny tyto uzly s tfa=“t”
nebo “c”
byly nalevo od svého otce. Výjimky z tohoto pravidla je potřeba kontrolovat ručně. Synové s nodetype=“coap”
jsou automaticky přeřazováni ve chvíli, kdy všichni member
synové tohoto coap
uzlu dostanou stejnou hodnotu atributu tfa
(všichni “f”
či všichni “t”/“c”
).
Přerovnání synů uzlu s gram/sempos="n" (jmenné fráze)
U synů uzlu s gram/sempos=“n” se upraví i pořadí synů mezi sebou: u uzlů s hodnotou tfa=“f”
budou uzly s funktorem DPHR
či CPHR
jako první, uzly s funktorem ID
jako druhé; všechny ostatní budou v původním pořadí za nimi a anotátor jim musí věnovat pozornost (u hodnot “t”
a “c”
je pořadí opačné).
Přerovnání synů uzlu s gram/sempos="v" (slovesné fráze)
U synů uzlu s gram/sempos=“v” se rovněž upraví i pořadí synů s hodnotou tfa=“t”
nebo “c”
mezi sebou:
První budou uzly VOCAT
, pak PREC
, pak ATT
; první zprava (avšak vlevo od otce) budou místní či časové funktory, pak #PersPron
, pak generované uzly; ostatní typy uzlů budou uprostřed mezi nimi a je potřeba je seřadit ručně.
Výjimkou z výše uvedeného jsou v případě otce s (již vyplněnou) hodnotou tfa=“f”
uzly RHEM
rovněž s hodnotou tfa=“f”
, které nemají t_lemma=“#Neg”. Ty jsou řazeny vlevo od otce, co nejblíže k němu.
Přerovnání společných rozvití v koordinacích
Kdykoliv jsou všichni tfa-relevantní synové nějakého uzlu s nodetype=“coap”
, kteří nejsou členové koordinace (nemají is_member=“1”
), označeni hodnotami tfa
, dojde k jejich přesunutí úplně doleva či doprava podle jejich hodnoty tfa
.
Automatická předanotace
Externí skript, který předanotuje data. Předanotace probíhá postupně v následujících krocích (už jednou anotovaný uzel se nepřeanotovává):
- Generované uzly, které nemají analytický protějšek (tj. nejsou to kopírované uzly) a které navíc nejsou RHEM
ani #Forn
, dostávají automaticky hodnotu tfa=“t”
(očekávaná chybovost: 0).
- Generované uzly, které jsou členy koordinace/apozice a mají analytický protějšek (není to tedy např. #Forn
), dostávají automaticky hodnotu tfa=“t”
(očekávaná chybovost: 0).
- Uzly, ze kterých vede gramatická, textová či segmentová koreference, dostávají automaticky hodnotu tfa=“t”
(očekávaná chybovost: 1:100).
- Uzly PRED
, které nejsou generované a jejichž t_lemma
se nenachází v předchozí větě, dostávají automaticky hodnotu tfa=“f”
(očekávaná chybovost: 1:40).
- Generované uzly PRED
dostávají automaticky hodnotu tfa=“t”
(očekávaná chybovost: 1:100)
- Ostatní slovesné uzly (gram/sempos=“v”
), které mají jako funktor
jednu z hodnot (ADDR|AIM|CAUS|ACMP|MANN|PAT|EFF|AUTH|BEN|COMPL|EXT|ORIG|RESL|TFHL|TSIN)
, dostávají automaticky hodnotu tfa=“f”
(očekávaná chybovost: maximálně 1:10).
- Uzly, které mají jako funktor
jednu z hodnot (PARTL|DENOM|MOD|EXT)
, dostávají automaticky hodnotu tfa=“f”
(očekávaná chybovost: maximálně 1:10).
- Uzly, které mají jako funktor
hodnotu RHEM
a nejsou na první pozici ve větě, dostávají automaticky hodnotu tfa=“f”
(očekávaná chybovost: 1:10).
- Uzly s t_lemma=“tady”
dostávají automaticky hodnotu tfa=“t”
(očekávaná chybovost: 1:10).
- Pro zhruba 5 tisíc prvních vět, které jsou v plánu anotace: uzly, které jsou českými protějšky anglických uzlů, které na povrchu stojí za slovesem a mají u sebe neurčitý člen, dostávají automaticky hodnotu tfa=“f”
(očekávaná chybovost: neznámá).
Další kroky probíhají až po tom, co jsou předchozí kroky aplikovány na všechny uzly stromu:
- Synové slovesa, které má tfa=“f”
a které ve své klauzi není na první či druhé pozici, pokud stojí v povrchovém slovosledu za tímto slovesem, dostávají automaticky hodnotu tfa=“f”
(očekávaná chybovost: neznámá).
- RSTR synové uzlů, které mají tfa=“f”
, dostávají automaticky hodnotu tfa=“f”
(očekávaná chybovost: 1:30).