Table of Contents
Rozšíření TrEdu pro anotaci rozšířené textové koreference a bridging anaphory
Pro TrEd existuje rozšíření bridging (zdroj: /net/work/projects/bridging/tred_extension/package).
Umožňuje otevřít rozšířené t-soubory a editovat a zobrazit koreferenční šipky a bridging šipky. Nastavuje zobrazení kontextových vět a zvýrazňuje v nich některá slova.
Při vytvoření textové koreferenční šipky mezi uzly, které (jeden z nich) už jsou součástí koreferenčního řetězce, se snaží zařadit nové uzly k již existujícímu řetězci tak, aby opět vznikl souvislý zprava doleva vedoucí koreferenční řetězec. Rovněž při smazání šipky z řetězce se snaží řetězec zachovat propojený.
Ve větách jsou zvýrazněna tato slova:
- slova s t_lemmatem shodným s t_lemmatem aktuálního uzlu jsou podtržena
- slova, která jsou součástí koreferenčního řetízku vedoucího skrz aktuální uzel, jsou zvýrazněna tmavě modře (textová koreference) nebo červenohnědě (gramatická koreference)
- slova, která jsou s koreferenčním řetízkem vedoucím skrz aktuální uzel (či přímo s aktuálním uzlem) spojena jednou bridging šipkou, jsou zvýrazněna světle modře
Instalace
Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/.
Nainstalujte rozšíření bridging (Session → Manage Extensions); spolu s ním se vám nainstaluje i rozšíření nondeprel_common.
Ovládání
Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách.
mezera - zapamatuje si uzel (uzel se zvětší) - budoucí cíl šipky
f (forget) - zapomene dříve zapamatovaný uzel (není nutno ručně zapomínat - zapomene se při vybrání jiného či při vytvoření šipky)
t (textual coreference) - vytvoří koreferenční šipku od aktuálního uzlu k zapamatovanému uzlu; zobrazí okno pro výběr typu koreference; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro výběr zdroje anotace (vkládáme iniciály anotátora)
v - vytvoří/změní/zruší speciální koreferenci; zobrazí se okno pro výběr '', 'exoph', 'segm'
b (bridging anaphora) - vytvoří bridging šipku od aktuálního uzlu k zapamatovanému uzlu; zobrazí okno pro výběr typu bridging šipky; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro výběr zdroje anotace (vkládáme iniciály anotátora)
Ctrl+levé tlačítko myši na uzlu či slově ve větách - zapamatuje si uzel (jako mezera), ale nezmění se aktuální uzel; zároveň se k takto zapamatovanému uzlu vytvoří šipka textové koreference - zobrazí se dialogové okno pro výběr typu
Shift+levé tlačítko myši na uzlu či slově ve větách - zapamatuje si uzel (jako mezera), ale nezmění se aktuální uzel; zároveň se k takto zapamatovanému uzlu vytvoří šipka bridging anafory - zobrazí se dialogové okno pro výběr typu
r (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
o - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek
x - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
Ctrl+h - v celém souboru vytvoří koreferenční řetěz mezi slovy, která mají stejné t_lemma jako aktuální uzel
e - vypne/zapne zobrazení kontextových stromů
E - přepíná množství zobrazovaných kontextových vět (0, 5, 20, 100)
n - přepíná překlad vět (pokud je v datech k dispozici; žádný překlad, překlad aktuální věty, překlad všech vět)
p - zapne/vypne zvýraznění slov v textu, která se jakkoli zúčastní jakékoli textové koreference
Ctrl+A (Analytical) - zobrazí analytické stromy (zpět: Ctrl+R (Return))
m - (coMment) - otevře okno pro vložení a úpravu víceřádkových komentářů šipek či přidání strukturovaného komentáře k šipce; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
c - (add node Comment) - umožní přidat strukturovaný komentář k uzlu
Alt+c - (edit node Comment) - otevře tredí editaci strukturovaných komentářů aktuálního uzlu
s - vybere zdroj anotace (anotátora), jehož šipky se mají zobrazovat
S (Shift+s) - skryje/zobrazí zdroj anotace (anotátora) u typu a komentáře šipek
Technické problémy s aktuální verzi anotačního nástroje
problém | diskuse | stav | |
---|---|---|---|
RO 26.8. | Nemohly by se koreferující uzly v textu označovat jinou barvou než tmavomodrou? U šipky je to jedno, ale všímat si tmavomodrých slov v černém textu je po pár hodinách anotování celkem nepříjemné | v novém rozšíření je zelená (slova), tmavomodrá (šipky) | |
RO 28.7. | Jiří, můžeš prosím obnovit stav, kdy po vytvoření šipky zůstával označený antecedent? Je to pohodlnější. | obnoveno v novém rozšíření | |
JP, 7.5. | Toto automatické propojování totiž ne vždy úplně funguje. V případě, že chci jeden uzel zapojit do již souvislého řetězce (tj. např. mám v tomto pořadí uzly A, B, C, přičemž uzly A, C jsou spojené; když spojím B s A, tak se šipka vedoucí z C automaticky přesměruje z A na B), tak není problém. Problém ale je, když chci navzájem propojit dva už existující delší řetězce - nevím, jak přesně to funguje, ale nevytvoří se jeden souvislý řetězec, nýbrž se tam někde objeví nějaké rozdvojení. | Jirka P. najde a pošle příklad | |
AN, 7.5. | mazani bridging sipky vzdy hlasi chybu typu “Undefined subroutine &PML_T_Bridging::remove_from_bridging_anaphoras called at C:\Documents and Settings\Anna\Application Data\.tred.d\extensions\bridging\contrib/bridging/bridging.mac line 345.” Pak to tu sipku sice smaze, ale nevim, jestli to nema nejake nasledky | opraveno v novém rozšíření | |
AN, 7.5. | blede modre zaberveni bridgingu neni uplne - nejsou zabarvene vsechny uzly, ktere jsou spojene bridging-vztahem s danym koreferencnim retezcem | Anja najde a pošle id uzlu | |
AN, 7.5. | povrchovy slovosled ne vzdy odpovida poradi uzlu ve strome. Koreferenci delame podle povrchoveho slovosledu. Pokud je ve stromu jiny, sipka se udela obracene (ve strome vede doprava) a kvuli tomu pak dalsi koreferencne sipka nevede na nej, ale na predchazejici uzel. Chtelo by se dodrzet ten retezec v pripade, kdyz povrchovy slovosled neodpovida hloubkovemu. Pokud vsak ve strome sipka vede doprava, ale i na povrchu slovo, na ktery vede sipka, je druhe v poradi, ma to zustat, jak to je (je to opravdova textova katafora) | opraveno v novém rozšíření | |
AN, 7.5. | kliknuti na uzel v kontextovem strome nevybere novou aktualni vetu | opraveno v novém rozšíření díky Petru Pajasovi |
Chceme ještě udělat
problém | diskuse | stav | |
---|---|---|---|
AN, 7.5. | zvyraznit slova zdejsi, mistni, tamni aby se na to pri anotaci nezapominalo | v novém rozšíření se píší kurzívou | |
AN, 7.5. | tlacitko na zapnuti a vypnuti kontextovych stromu (file-spec) | “c” v novém rozšíření |
K opravě u seznamu pojmenovaných entit
co opravit | stav | |
---|---|---|
Tádžikistán-tádžický, Švýcarsko-švýcarský, Irák-irácký | ||
Rus - Rusko pokud je zadano jako koreferencni, smazat | v nových datech už není | |
úplně (tj. jako substantivum i adjektivum) chybi Maroko, Uzbekistán, Tádžikistán, (Velká) Británie, USA (lze propojit alespoň zkratku, popř. ještě Spojené státy a adj. americký, které se téměř vždy vztahuje k USA) | v nových datech je přidáno (kromě Spojených států, seznam pro spojování je vždy z jednotlivých slov; USA je OK) | |