[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Rozšíření TrEdu pro anotaci rozšířené textové koreference a bridging anaphory

Pro TrEd existuje rozšíření bridging (zdroj: /net/work/projects/bridging/tred_extension/package).

Umožňuje otevřít rozšířené t-soubory a editovat a zobrazit koreferenční šipky a bridging šipky. Nastavuje zobrazení kontextových vět a zvýrazňuje v nich některá slova.

Při vytvoření textové koreferenční šipky mezi uzly, které (jeden z nich) už jsou součástí koreferenčního řetězce, se snaží zařadit nové uzly k již existujícímu řetězci tak, aby opět vznikl souvislý zprava doleva vedoucí koreferenční řetězec. Rovněž při smazání šipky z řetězce se snaží řetězec zachovat propojený.

Ve větách jsou zvýrazněna tato slova:

Instalace

Tred instalujte ze stránky http://ufal.mff.cuni.cz/~pajas/tred/.
Nainstalujte rozšíření bridging (Session → Manage Extensions)

Ovládání

Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách.
mezera - zapamatuje si uzel (uzel se zvětší) - budoucí cíl šipky
f (forget) - zapomene dříve zapamatovaný uzel (není nutno ručně zapomínat - zapomene se při vybrání jiného či při vytvoření šipky)
t (textual coreference) - vytvoří koreferenční šipku od aktuálního uzlu k zapamatovanému uzlu; zobrazí okno pro výběr typu koreference
b (bridging anaphora) - vytvoří bridging šipku od aktuálního uzlu k zapamatovanému uzlu; zobrazí okno pro výběr typu bridging šipky
r (re-type) - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
x - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky
Ctrl+c - v celém souboru vytvoří koreferenční řetěz mezi slovy, která mají stejné t_lemma jako aktuální uzel
c - vypne/zapne zobrazení kontextových stromů

Technické problémy s aktuální verzi anotačního nástroje

problém diskuse stav
RO 26.8. Nemohly by se koreferující uzly v textu označovat jinou barvou než tmavomodrou? U šipky je to jedno, ale všímat si tmavomodrých slov v černém textu je po pár hodinách anotování celkem nepříjemné:-) v novém rozšíření je zelená
RO 28.7. Jiří, můžeš prosím obnovit stav, kdy po vytvoření šipky zůstával označený antecedent? Je to pohodlnější. obnoveno v novém rozšíření
JP, 7.5. Toto automatické propojování totiž ne vždy úplně funguje. V případě, že chci jeden uzel zapojit do již souvislého řetězce (tj. např. mám v tomto pořadí uzly A, B, C, přičemž uzly A, C jsou spojené; když spojím B s A, tak se šipka vedoucí z C automaticky přesměruje z A na B), tak není problém. Problém ale je, když chci navzájem propojit dva už existující delší řetězce - nevím, jak přesně to funguje, ale nevytvoří se jeden souvislý řetězec, nýbrž se tam někde objeví nějaké rozdvojení. Jirka P. najde a pošle příklad
AN, 7.5. mazani bridging sipky vzdy hlasi chybu typu “Undefined subroutine &PML_T_Bridging::remove_from_bridging_anaphoras called at C:\Documents and Settings\Anna\Application Data\.tred.d\extensions\bridging\contrib/bridging/bridging.mac line 345.” Pak to tu sipku sice smaze, ale nevim, jestli to nema nejake nasledky opraveno v novém rozšíření
AN, 7.5. blede modre zaberveni bridgingu neni uplne - nejsou zabarvene vsechny uzly, ktere jsou spojene bridging-vztahem s danym koreferencnim retezcem Anja najde a pošle id uzlu
AN, 7.5. povrchovy slovosled ne vzdy odpovida poradi uzlu ve strome. Koreferenci delame podle povrchoveho slovosledu. Pokud je ve stromu jiny, sipka se udela obracene (ve strome vede doprava) a kvuli tomu pak dalsi koreferencne sipka nevede na nej, ale na predchazejici uzel. Chtelo by se dodrzet ten retezec v pripade, kdyz povrchovy slovosled neodpovida hloubkovemu. Pokud vsak ve strome sipka vede doprava, ale i na povrchu slovo, na ktery vede sipka, je druhe v poradi, ma to zustat, jak to je (je to opravdova textova katafora) opraveno v novém rozšíření
AN, 7.5. kliknuti na uzel v kontextovem strome nevybere novou aktualni vetu opraveno v novém rozšíření díky Petru Pajasovi

Chceme ještě udělat

problém diskuse stav
AN, 7.5. zvyraznit slova zdejsi, mistni, tamni aby se na to pri anotaci nezapominalo v novém rozšíření se píší kurzívou
AN, 7.5. tlacitko na zapnuti a vypnuti kontextovych stromu (file-spec) “c” v novém rozšíření

K opravě u seznamu pojmenovaných entit

co opravit stav
Tádžikistán-tádžický, Švýcarsko-švýcarský, Irák-irácký
Rus - Rusko pokud je zadano jako koreferencni, smazat v nových datech už není
úplně (tj. jako substantivum i adjektivum) chybi Maroko, Uzbekistán, Tádžikistán, (Velká) Británie, USA (lze propojit alespoň zkratku, popř. ještě Spojené státy a adj. americký, které se téměř vždy vztahuje k USA) v nových datech je přidáno (kromě Spojených států, seznam pro spojování je vždy z jednotlivých slov; USA je OK)

[ Back to the navigation ] [ Back to the content ]