[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


CAK 2.0

Aktuality

to neslo rychle a dobre upravit. Porad planujeme pizzovy seminar, na
kterem by se to mohlo vsechno jeste probrat a pripadne upravit. Takze,
nez budete chtit nejakou finalni verzi, tak nam jeste dejte vedet.

Kiril Ribarov
* parser
* priprava dat pro anotatory
-
S jakym formatem dat MST pracuje? Umi PML.
-
MST parser natrenovat na jakych datech - kompletni syntakticky anotovana data z PDT 2.0?


Michal Sotkovsky
* design
* navrh tak pekny jako CAK 1.0 - pouze zmenit barvicky

Honza Raab
* tagger
-
bude umet cist z a zapisovat do PML?
ano, bude
-
Tagger natrenovat na jakych datech - kompletni morfologicky anotovana data z PDT 2.0?
nic jiného k trénování vhodného asi ani nemáme - ale PDT je v některých věcech nekompatibilní s CAK (např. číslovky)

* technicky editor pruvodce

====== KALENDAR ======
18.6. v 8:30 probehla schuzka o praci na datech; PRITOMNI: Alla Bemova, Veronika Curdova (anotatorka), Jan Hajic, Barbora Hladka, Jiri Mirovsky, Kiril Ribarov, Zdenka Uresova, Lenka Zehrova (anotatorka)

Udaje psane kurzivou signalizuji splneni.

| 2007 ^ duben ^ kveten ^ cerven ^cervenec ^srpen ^zari ^rijen ^listopad ^ prosinec ^
^ Bara |
zahajit komunikaci s LDC (spolu s Honzou H.)|-|do 20. cervna odevzdat 'naplnene' xml soubory; 18.6. 8:30 schuzka o datech|1. verze Pruvodce|-|-|-|-|-|
^ |
do 17.4. pripravit osnovu Pruvodce - viz cast CO bod 3|-|-|-|-|-|-|-|-|
^ |
24.4. oslovit ty, kteri budou psat casti Pruvodce|-|-|-|-|-|-|-|-|
^ Jirka H. |-|-|do 20. cervna odevzdat 'naplneny' xml soubor|-|-|dodat df verzi LAW pro cd|dodat tutorial k LAW|-|-|
^ Jarka |-|-|
do 20. cervna odevzdat 'naplnene' xml soubory|-|-|dodat df verzi morf. anal. pro cd|dodat tutorial k Bonito|-|-|
^ Jirka M. |kontrola morf. anotaci|-|
do 20. cervna odevzdat 'naplnene' xml soubory; seznamit se s kontrolnimi PDT 2.0 skripty; 18.6. 8:30 schuzka o datech|-|-|-|dodat tutorial k Netgraphy|-|-|
^ Kiril |prubezne priprava dat pro anotatory|
vymyslet strategii pro porovnani souboru od anotatoru|makra do TrEd; 18.6. 8:30 schuzka o datech|-|-|dodat df verzi parseru pro cd|-|-|-|
^ Honza R. |
do 23.4. pripravit xml soubory pro jednotlive casti Pruvodce|-|-|1. verze Pruvodce|-|dodat df verzi taggeru pro cd|-|-|-|
^ Pavel Q. |-|-|-|-|-|dodat morfologii pro Bonito|-|-|-|
^ Ondra B. |-|-|-|-|-|-|-|1. verze instalatoru|-|
^ Michal K. |-|-|-|-|-|-|morph-parse-chain|-|-|
^ Michal S. |-|-|-|-|-|dodat designove podklady|-|-|-|
^ Ondrej K. |-|-|-|-|-|dodat df verzi STYX pro cd|dodat tutorial k STYX|-|-|

====== POKYNY ======

===== Pruvodce =====

Vsechny potrebne soubory jsou ~/raab/cac-guide. Protoze nektere odstavce budou totozne s odstavci z Pruvodce CAK 1.0, realizujte 'cut'n paste' ze souboru z adresare cac1/.


cac1/ - finalni verze CAC 1.0
upload/ - oblibeny adresar pro zapis zmenenych souboru
pdf/ - aktualni pdf verze


===== Dokumentace k nastrojum =====

Adresar nastroje bude mit nasledujici strukturu
* docs/ # uzivatelska dokumentace, instalacni pokyny - cesky I anglicky
* README_{CZ|EN}.txt # cesky a anglicky 'hruba' dokumentace
* instalacni balicek/balicky

Viz napr. /net/projects/REST/data/CAC/cac10/tools/LAW

===== Tutorialy =====

K nastrojum s grafickym rozhranim, tedy
* Bonito
* LAW
* TrEd
* Netgraph
* Styx
* BB FlashBack Express - viz demo_1
* Wink software - viz demo_2

Pro demo_1 k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pak jsem nasla program Wink, ktery existuje jak pod Win, tak pod Linux - coz je pro nas dulezite. Vyzkousela jsem a vzniklo demo_2. Podivejte se na ne, prosim.

Smysluplnost tutorialu ODSOUHLASENA. (Jeste vas prosim o nazor, jestli vidite takoveto tutorialy smysluplne, tedy smysluplne na to, abychom je dali na cd CAC 2.0. Ja si myslim, ze to smysl ma. )

V Pruvodci CAC 2.0 bude rovnez odkaz na PDT tutorial z lonskeho listopadu

====== PRACE NA DATECH podrobne ======

===== Pro anotatory =====
* Textove materialy k anotaci
* Pokyny pro anotaci (23/6/2007) (CTI ME - shrnuti vsech podstatnych informaci)
* Valencni slovnik z PDT (a k němu manuál k používání pro analytickou anotaci)
* Prehled maker kontextu PML_CAC_A_Edit editoru TrEd
* Slajdy ze snidane 18/6/2007(trochu vice povidani o s. anotaci CAK)
* Slajdy ze snidane 25/6/2007(informacni schuzka se zajemci o anotovani)
* Prehled zpracovani souboru
* Mezianotatorska shoda v cislech
* zahrivaci kolo
* s3-s10

* TrEd - instalace pod systémem Windows a základní instrukce
* TrEd je ke stažení ve standardní distribuci (platné i pro anotaci CAC) na jeho “domácích stránkách” na http://ufal.mff.cuni.cz/~pajas/tred.
* Rychlý návod k instalaci (pro “offline” použití; pro anotátory ze SNK instaluje TrEd Radovan jinak):
* Z výše uvedené stránky stáhněte na svůj notebook soubor tred_wininst_en.zip.
* Rozbalte jej kdekoliv; dostanete adresář tred_wininst_en.
* V tomto adresáři spusťte soubor setup.bat. Pozor, v adresáři je několik podobně pojmenovaných .bat souborů - vy spusťte tento základní.
* Na všechny otázky odpovězte yes (y), nebo tak, aby instalace pokračovala, a nechte pro všechno, co vám instalační program nabízí, defaultní hodnoty.
* Po dokončení instalace spusťte TrEd (pomocí ikony na ploše). Ověřte (Help→About), že se jedná o verzi nejméně 1.3050 nebo vyšší.
* Po ověření verze si nastavte tzv. stylesheet, tj. to, co všechno se vám při anotaci zobrazí. Při všech dalších spuštění TrEd se bude zobrazovat to, co jste si nastavili. Zkušenosti říkají, že stačí u uzlu zobrazit slovo a analytickou funkci. Z menu View → Edit Stylesheet, pravou část okna smažte a vložte následující, které potvrďte ok:
context: .*
hint:
text:<? $${m/w/token}eq$${m/form} ?
'#{'.CustomColor('sentence').'}${m/w/token}' :
'#{-over:1}#{'.CustomColor('spell').'}['.
join(“ ”,map { $_→{token} } ListV($this→attr('m/w'))).
']#{-over:0}#{'.CustomColor('sentence').'}${m/form}' ?>
node:<? $${afun} eq “AuxS” ? '${id}' : '${m/form}' ?>
node:<?$${afun}?>

* Rychlý návod ke spuštění TrEdu a anotaci (otevření souboru a nastavení prostředí, anotace)
* Spusťte TrEd, a pomocí Open (nebo z Recent Files) otevřete příslušný .a soubor.
* Nastavte “kontext” (vpravo nahoře) PML_CAC_A_Edit.
* Používejte makra z PML_CAC_A_Edit (User-defined → PML_CAC_A_Edit, příp. More) a dále smíte používat Open, Save, Save As z hlavního menu File, a všechny další funkce, které slouží k “prohlížení” souboru(ů) - například posouvání po větách, přímý skok na větu s daným pořadovým číslem (tj. různá GoTo…), vyhledávání v souboru pomocí F3/F4 apod. NIKDY ale nepoužívejte jakékoli funkce, které mění strom nebo hodnoty atributů z menu Node, ani z maker Tred_Macro nebo jiných maker a kontextů.
* První uložení souboru po jeho prvním otevření a zahájení jeho anotace
* Soubor se ukládá pomocí Save As (menu File), pak zvolte “Current” v okně pro volbu formátu.
* Soubor uložte pod původním jménem s přidaným podtržítkem a iniciálami vašeho jména; postup: zvolte původní soubor s koncovkou .a v nabízeném seznamu, a přidejte mu před .a ješte _JP (J - inicála jména, P - iniciála příjmení).
* Po odsouhlasení jména na vás vyskočí okno “Select resources to save”. Klikněte na první řádek (soubor s příponou .m) - měl by se vysvítit. Pak zvolte tlačítko “Change Filename”, a rovněž u tohoto souboru připište k jeho jménu “_JP” (těsně před příponu .m, obdobně jako u .a souboru). Po odsouhlasení zkontrolujte, že v okně “Select resources to save” je jméno správně upravené (s tím _JP). Odsouhlaste uložení tlačítkem “OK”.
* Další otevření a uložení částečně anotovaného nebo dodatečně opravovaného souboru
* Pro druhé a další otevření téhož souboru pro provádění další anotace nebo jakýchkoli jiných změn použijte soubor s modifikovaným jménem (…._JP.a).
* Pro jeho uložení po provedení změn použijte File → Save (F2).
* V okne “Select resources to save” klikněte na první řádek (mělo by v něm být jméno už rovněž modifikované, s _JP.m na konci). Hned poté odsouhlaste uložení pomocí tlačítka “OK” (tedy není nutno znovu měnit jméno souboru pomocí Change Filename).


===== Interni adresarova struktura =====
* 18.6. 8:30 schuzka o datech; výsledek schůzky:
* Vytvoření adresářové struktury v /net/projects/REST/data/CAC/work_CAC20/data s dále uvedenými podadresáři.
* Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře:
* 00_actual - aktuální data celého korpusu (Jiří Mírovský)
*     odtud bude brát Kiril data a rozdělovat práci anotátorkám
* 01_annotations - anotace souborů jednotlivými anotátorkami (Kiril Ribarov)
*     odtud si bude Jirka brát data a pustí na ně první sadu “100%” automatických kontrol
* 02_auto_check_A - první fáze automatických kontrol (Jiří Mírovský)
*     data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné
* 03_comparison - porovnání a slití souborů do jedné verze
*     takto slitá data dá Kiril paní Bémové ke kontrole
* 04_manual_check_1 - ruční kontrola a oprava nesrovnalostí dvou anotací, případně výstupu skriptů (Kiril Ribarov)
*     na ručně prošlá data se pustí další, již méně spolehlivé skripty, které jen upozorňují na podezřelá místa; případně i stopro skripty
* 05_auto_check_B - druhá fáze automatických kontrol (Jiří Mírovský)
*     podezřelá místa pak znovu zkontroluje paní Bémová, když bude tak hodná
* 06_manual_check_2 - ruční kontrola a oprava podezřelých míst, na která upozornily skripty (Kiril Ribarov)
*     odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; Kiril navrhuje znovu pustit kontrolní skripty
* 07_finished - tady budou hotová data, tedy ta část korpusu, která je již hotová; hotová data se budou kopírovat rovněž do adresáře 00_actual, aby se odtud v případě potřeby mohla brát (Jiří Mírovský, Kiril Ribarov)

* Polo-automaticka kontrola morfologickych anotaci 'sama proti sobe'
* Jirka Mirovsky
* na kontrolach m-souboru pracuje lokalne u sebe
* Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim
* Jirka Mirovsky
* brat a-soubory z adresare net/projects/rest/data/CAC/atrees/MST2/odAlly (popis viz nize)
* k 3/6 umisteny souborty s11-s16
* Priprava dat k dvojite rucni syntakticke anotaci
* Kiril - zpracovani dat MST parserem
* podpora v TrEdu pro snadnejsi anotaci: pro anotovani PDT 1.0 byla v TrEd nabizena makra pro prijemnejsi anotaci. Tato makra byla napsana pro format fs a jeste pro koncepci PDT 1.0, ktera se v nekterych ohledech lisi od te v PDT 2.0 (napr. viz koordinace). Kdyz se v soucasne distribuci TrEd nastavi kontext Analytic, tak ten nabizi prave zminena makra. 12/6/2007
Kirile,
tady preposilam soubor PML_A_Edit.mak a k nemu prilohu od Katky. Radovan jim tato makra udelal primo do PML_A_Edit, coz neni dobre, protoze tim padem my a oni mame jiny PML_A_Edit. Je potreba to udelat “spravne” (tj.v duchu PML schemat) - nechat PML_A_Edit byt, a udelat novy (napr. pojmenovany PML_CAC_A_Edit), ktery “includuje” vsechna makra z PML_A_Edit, a ty specificka pro
anotaci CAC (vc. afunu, koordinaci apod.) prida prave do nej. Myslim, ze taky bude dobre, aby cesti anotatori a slovaci meli ted vsechno stejne - takze az to budes mit, posli to prosim zpet
Radovanovi at jim to nainstaluje. Jinak jsem dnes odpodival na nekolik dotazu ohledne 2. kola;
myslim, ze nejdulezitejsi je, abys jim poslal doplnene pokyny o tom, co smeji a nesmeji pouzivat.
Diky, Honza

* Rucni kontrola syntaktickych anotaci
* data po rucni anotaci v adresari net/projects/rest/data/CAC/atrees/MST2/odAnotatoru
* Kiril - do TrEdu udelatka pro pohodlnejsi kontrolu diskrepanci
* Alla - resit diskrepance anotatoru
* data po Alline kontrole v adresari net/projects/rest/data/CAC/atrees/MST2/odAlly
* Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci
* Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v net/projects/rest/data/CAC/atrees/MST2/odAlly), protoze pokud by se zjistilo, ze je nutno neco doimplementovat, tak aby na to byl cas. Dulezite poznamky uvadej zde.

====== KONTAKTY ======
* Alla Bemova (bemova@ufal.mff.cuni.cz, kontrola anotaci)
* Veronika Curdova (myopie@seznam.cz, cz, anotatorka)
* Katarina Gajdosova (katarinag@korpus.juls.savba.sk, sk, anotatorka)
* Jan Hajic (hajic@ufal.mff.cuni.cz)
* Barbora Hladka (hladka@ufal.mff.cuni.cz)
* KK (sk, )
* Jirka Mirovsky (mirovsky@ufal.mff.cuni.cz)
* Kiril Ribarov (ribarov@ufal.mff.cuni.cz, TrEd)
* Zdenka Uresova (uresova@ufal.mff.cuni.cz, kontrola anotaci)
* Lenka Zehrova (z.lenicka@centrum.cz, cz, anotatorka)


[ Back to the navigation ] [ Back to the content ]