====== Rozšíření TrEdu pro anotaci rozšířené textové koreference a bridging anaphory ====== Pro TrEd existuje rozšíření **bridging** (zdroj: /net/work/projects/bridging/tred_extension/package). Umožňuje otevřít rozšířené t-soubory a editovat a zobrazit koreferenční šipky a bridging šipky. Nastavuje zobrazení kontextových vět a zvýrazňuje v nich některá slova. Při vytvoření textové koreferenční šipky mezi uzly, které (jeden z nich) už jsou součástí koreferenčního řetězce, se snaží zařadit nové uzly k již existujícímu řetězci tak, aby opět vznikl souvislý zprava doleva vedoucí koreferenční řetězec. Rovněž při smazání šipky z řetězce se snaží řetězec zachovat propojený. Ve větách jsou zvýrazněna tato slova: * slova s t_lemmatem shodným s t_lemmatem aktuálního uzlu jsou podtržena * slova, která jsou součástí koreferenčního řetízku vedoucího skrz aktuální uzel, jsou zvýrazněna tmavě modře (textová koreference) nebo červenohnědě (gramatická koreference) * slova, která jsou s koreferenčním řetízkem vedoucím skrz aktuální uzel (či přímo s aktuálním uzlem) spojena jednou bridging šipkou, jsou zvýrazněna světle modře ===== Instalace ===== Tred instalujte ze stránky [[http://ufal.mff.cuni.cz/~pajas/tred/|http://ufal.mff.cuni.cz/~pajas/tred/]]. Nainstalujte rozšíření **bridging** (Session -> Manage Extensions); spolu s ním se vám nainstaluje i rozšíření **nondeprel_common**. ===== Ovládání ===== Aktuální uzel se vybírá kliknutím na uzel ve stromech nebo kliknutím na slovo ve větách. **mezera** - zapamatuje si uzel (uzel se zvětší) - budoucí cíl šipky **f (forget)** - zapomene dříve zapamatovaný uzel (není nutno ručně zapomínat - zapomene se při vybrání jiného či při vytvoření šipky) **t (textual coreference)** - vytvoří koreferenční šipku od aktuálního uzlu k zapamatovanému uzlu; zobrazí okno pro výběr typu koreference; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro výběr zdroje anotace (vkládáme iniciály anotátora) **v** - vytvoří/změní/zruší speciální koreferenci; zobrazí se okno pro výběr '', 'exoph', 'segm' **b (bridging anaphora)** - vytvoří bridging šipku od aktuálního uzlu k zapamatovanému uzlu; zobrazí okno pro výběr typu bridging šipky; u první vytvářené šipky po spuštění TrEdu se zobrazí okno pro výběr zdroje anotace (vkládáme iniciály anotátora) **Ctrl+levé tlačítko myši na uzlu či slově ve větách** - zapamatuje si uzel (jako mezera), ale nezmění se aktuální uzel; zároveň se k takto zapamatovanému uzlu vytvoří šipka textové koreference - zobrazí se dialogové okno pro výběr typu **Shift+levé tlačítko myši na uzlu či slově ve větách** - zapamatuje si uzel (jako mezera), ale nezmění se aktuální uzel; zároveň se k takto zapamatovanému uzlu vytvoří šipka bridging anafory - zobrazí se dialogové okno pro výběr typu **r (re-type)** - změna typu šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **o** - změna zdroje (atributu src) šipky vedoucí z aktuálního uzlu; zobrazí se dialogové okno pro jeho vložení; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky; naposledy vložená hodnota se použije u dalších vytvářených šipek **x** - smazání šipky vedoucí z aktuálního uzlu; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **Ctrl+h** - v celém souboru vytvoří koreferenční řetěz mezi slovy, která mají stejné t_lemma jako aktuální uzel **e** - vypne/zapne zobrazení kontextových stromů **E** - přepíná množství zobrazovaných kontextových vět (0, 5, 20, 100) **n** - přepíná překlad vět (pokud je v datech k dispozici; žádný překlad, překlad aktuální věty, překlad všech vět) **p** - zapne/vypne zvýraznění slov v textu, která se jakkoli zúčastní jakékoli textové koreference **Ctrl+A** (Analytical) - zobrazí analytické stromy (zpět: **Ctrl+R** (Return)) **m** - (coMment) - otevře okno pro vložení a úpravu víceřádkových komentářů šipek či přidání strukturovaného komentáře k šipce; existuje-li více šipek vedoucích z aktuálního uzlu, nejprve se zobrazí okno s jejich seznamem, které umožní výběr té správné šipky **c** - (add node Comment) - umožní přidat strukturovaný komentář k uzlu **Alt+c** - (edit node Comment) - otevře tredí editaci strukturovaných komentářů aktuálního uzlu **s** - vybere zdroj anotace (anotátora), jehož šipky se mají zobrazovat **S** (Shift+s) - skryje/zobrazí zdroj anotace (anotátora) u typu a komentáře šipek ===== Technické problémy s aktuální verzi anotačního nástroje ===== | ^ problém ^ diskuse ^ stav ^ ^ RO 26.8. | Nemohly by se koreferující uzly v textu označovat jinou barvou než tmavomodrou? U šipky je to jedno, ale všímat si tmavomodrých slov v černém textu je po pár hodinách anotování celkem nepříjemné:-)| | v novém rozšíření je zelená (slova), tmavomodrá (šipky) | ^ RO 28.7. | Jiří, můžeš prosím obnovit stav, kdy po vytvoření šipky zůstával označený antecedent? Je to pohodlnější.| | obnoveno v novém rozšíření | ^ JP, 7.5. | Toto automatické propojování totiž ne vždy úplně funguje. V případě, že chci jeden uzel zapojit do již souvislého řetězce (tj. např. mám v tomto pořadí uzly A, B, C, přičemž uzly A, C jsou spojené; když spojím B s A, tak se šipka vedoucí z C automaticky přesměruje z A na B), tak není problém. Problém ale je, když chci navzájem propojit dva už existující delší řetězce - nevím, jak přesně to funguje, ale nevytvoří se jeden souvislý řetězec, nýbrž se tam někde objeví nějaké rozdvojení. | Jirka P. najde a pošle příklad | | ^ AN, 7.5. | mazani bridging sipky vzdy hlasi chybu typu "Undefined subroutine &PML_T_Bridging::remove_from_bridging_anaphoras called at C:\Documents and Settings\Anna\Application Data\.tred.d\extensions\bridging\contrib/bridging/bridging.mac line 345." Pak to tu sipku sice smaze, ale nevim, jestli to nema nejake nasledky| | opraveno v novém rozšíření | ^ AN, 7.5. | blede modre zaberveni bridgingu neni uplne - nejsou zabarvene vsechny uzly, ktere jsou spojene bridging-vztahem s danym koreferencnim retezcem| Anja najde a pošle id uzlu | | ^ AN, 7.5. | povrchovy slovosled ne vzdy odpovida poradi uzlu ve strome. Koreferenci delame podle povrchoveho slovosledu. Pokud je ve stromu jiny, sipka se udela obracene (ve strome vede doprava) a kvuli tomu pak dalsi koreferencne sipka nevede na nej, ale na predchazejici uzel. Chtelo by se dodrzet ten retezec v pripade, kdyz povrchovy slovosled neodpovida hloubkovemu. Pokud vsak ve strome sipka vede doprava, ale i na povrchu slovo, na ktery vede sipka, je druhe v poradi, ma to zustat, jak to je (je to opravdova textova katafora)| | opraveno v novém rozšíření | ^ AN, 7.5. | kliknuti na uzel v kontextovem strome nevybere novou aktualni vetu | | opraveno v novém rozšíření díky Petru Pajasovi | ===== Chceme ještě udělat===== | ^ problém ^ diskuse ^ stav ^ ^ AN, 7.5. | zvyraznit slova //zdejsi, mistni, tamni// aby se na to pri anotaci nezapominalo| | v novém rozšíření se píší kurzívou | ^ AN, 7.5. | tlacitko na zapnuti a vypnuti kontextovych stromu (file-spec) | | "c" v novém rozšíření | ===== K opravě u seznamu pojmenovaných entit ===== | ^co opravit ^ stav ^ ^ | Tádžikistán-tádžický, Švýcarsko-švýcarský, Irák-irácký | | ^ | **Rus - Rusko** pokud je zadano jako koreferencni, smazat | v nových datech už není | ^ | úplně (tj. jako substantivum i adjektivum) chybi **Maroko**, **Uzbekistán**, **Tádžikistán**, **(Velká) Británie**, **USA** (lze propojit alespoň zkratku, popř. ještě **Spojené státy** a adj. **americký**, které se téměř vždy vztahuje k USA) | v nových datech je přidáno (kromě **Spojených států**, seznam pro spojování je vždy z jednotlivých slov; USA je OK) | ^ | | |