This is an old revision of the document!
CAK 2.0
Aktuality
- 24/9/07 v 9:00 schuzka k CAK 2.0 - PROGRAM
- CAK 1.0
- Jak se vam libi Pruvodce CAK 1.0?
- Rozesilani Pruvodce - Koupila jsem 50 vytisku, z UFALovskeho adresare jsem vzala ty adresy, ktere u sebe maji alespon jeden z priznaku PDT0, PDT1, PCEDT, PADT a nekolik kousku jiz odeslo (cervene v prilozenem souboru vybranych adres). Pokud chcete Pruvodce nekam poslat, tak adresu doplnte do souboru (pokud tam jeste neni), zacervenejte ji a dejte mi vedet. Realizaci odeslani zajistim.
- Pruvodce CAK 2.0
- aktualni verze: html (Podivejte se na barvy.)
- CD-ROM CAK 2.0
- Bude samostatny tokenizer?
- Bude 'nova' morfologicka analyza?
- tool_chain. S jakymi prepinaci? Prvotni navrh viz tab. 3.9
* Co z Netgraph na CD?
* Instalace. Jake balicky? Kontrola tabulky 6.1
* TrEdVoice. Kam? Proberu s Leosem Prikrylem.
* 19/7/07
* Pruvodce CAK 1.0 vysel (viz zde)
* podepsana smlouva mezi UK MFF a LDC
* prvni verze Pruvodce CAK 2.0 vznikla dle planu - diky! Do pulky srpna doplnim, prip. opravim co je potreba a pak se jednotlivcum zase ozvu
* rucni anotace dat dost “boli”, nejak se mi nedari anotatory dostatecne motivovat
* kontrolni skripty nastaveny
===== Publikovani ======
* u LDC
* dohoda UK MFF ↔ LDC PODEPSANA
* dohoda UK MFF ↔ UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi
===== CD ROM =====
* bonus-tracks/
* STYX/
* TrEdVoice/
* data/
* format: PML
* tools/
* Bonito/
* LAW/
* TrEd/
* Netgraph/
* tool_chain/
* tokenizer/
* morphology/
* tagger/
* parser/
* tool_chain - tATP
* -t … tokenizer
* -A … morfologicka analyza
* -T … tagging
* -AT … morf. analyza a nasledne tagging
* -P … parsing
* -tATP - run it all
* tutorials/
===== Pruvodce =====
* cesky, nasledne anglicky preklad
- Predmluva (BH, predmluva.xml)
- Uvod (BH, uvod.xml))
- Projekt Ceskeho akademickeho korpusu
- Co je Cesky akademicky korpus 2.0
- Zdroje textu
- Roviny anotace
- Kvantitativni udaje
- CD-ROM Cesky akademicky korpus 2.0
- Adresarova struktura (BH, adresar.xml)
- Data (Jirka M., data.xml)
- Format dat
- Konvence pojmenovani souboru
- Velikost dat
- Nastroje
- Bonito (Jarka, nastroje-bonito.xml)
- LAW (Jirka H., nastroje-law.xml)
- TrEd (XY, nastroje-tred.xml)
- Netgraph (Jirka M., nastroje-netgraph.xml)
- Automaticke zpracovani textu (BH, KR o parseru, nastroje-zprac.xml)
- Bonusovy material (bonus.xml)
- Tutorialy (BH, tutorialy.xml)
- Instalace (BH, instalace.xml)
- Osobnosti v projektu (BH, osobnosti.xml)
- Podekovani (BH, podekovani.xml)
- Literatura (BH, literatura.xml)
- Priloha A Zdroje textu (BH, zdroje.xml)
- Priloha B Pavucina (BH, pavucina.xml)
- Priloha C Popis lemmat (BH, lemmata.xml)
- Priloha D Popis morfologickych znacek (BH, znacky.xml)
- Priloha E Popis analytickych funkci (BH, funkce.xml)
===== Design =====
* CD, plakat, web
====== KDO-CO-JAK ======
Pokud jste se zatoulali na tuto stranku a nasli zde prekvapive (bez predchoziho varovani) svoje jmeno, tak mate pravdu;-) Vezte, ze budete varovani velmi brzo!!
Ondrej Bojar
* instalacni skripty (viz CAK 1.0)
Jarka Hlavacova
* Bonito
* prohlizeni *.m souboru (viz CAK 1.0)
* prohlizeni anal. fci z *.a souboru (viz PDT)
* morfologie (viz CAK 1.0)
* MA
* 'studentska' MA
- Na cd-rom CAC 2.0 by mela byt 'nova' morfologie, ktera uz nepotrebuje 2GB mista.
- Tak jak je mozne prohlizet i anal. fce PDT, tak to bude mozne i pro CAC. Volani morfologie z Bonito zustane zachovano.
Emil Jerabek
Michal Kebrt
* morph-parse-chain
* cast 'morph' - viz CAK 1.0?
* doplnit parser
* s jakym formatem dat pracovat (PML vs. CSTS)?
Oldrich Kruza
* CAK do Bonito
* viz CAK 1.0
- Postup stejny jako pro CAC 1.0, tj. az budou data nachystana k publikaci, tak je nalit do Bonito.
Ondrej Kucera
* STYX
Pavel Kveton
* morfologie v Bonito
* viz CAK 1.0
Jirka Mirovsky
* kontrola morfologickych anotaci
* kontrolni skripty morf. vs. syntax a syntax (PDT2.0-like kontroly)
* kontrola syntaxe probehne ve dvou fazich:
- s hotovym necelym vzorkem dat - pripraveni skriptu
- posleze se vsemi daty, az budou hotova
Pavel Pecina
* tokenizer
11.4.2007 Pavel pise:
Ano, tokenizer muzete pouzit.
Jeho kod je zde: /net/projects/textseg
A dokumentace tady: https://wiki.ufal.ms.mff.cuni.cz/internal:textseg
Pavel Ceska uz na nem nepracuje, ale nic v nem neni zadratovano tak, aby
to neslo rychle a dobre upravit. Porad planujeme pizzovy seminar, na
kterem by se to mohlo vsechno jeste probrat a pripadne upravit. Takze,
nez budete chtit nejakou finalni verzi, tak nam jeste dejte vedet.
Kiril Ribarov
* parser
* priprava dat pro anotatory
- S jakym formatem dat MST pracuje? Umi PML.
- MST parser natrenovat na jakych datech - kompletni syntakticky anotovana data z PDT 2.0?
Michal Sotkovsky
* design
* navrh tak pekny jako CAK 1.0 - pouze zmenit barvicky
Honza Raab
* tagger
- bude umet cist z a zapisovat do PML?
→ ano, bude
- Tagger natrenovat na jakych datech - kompletni morfologicky anotovana data z PDT 2.0?
→ nic jiného k trénování vhodného asi ani nemáme - ale PDT je v některých věcech nekompatibilní s CAK (např. číslovky)
* technicky editor pruvodce
====== KALENDAR ======
18.6. v 8:30 probehla schuzka o praci na datech; PRITOMNI: Alla Bemova, Veronika Curdova (anotatorka), Jan Hajic, Barbora Hladka, Jiri Mirovsky, Kiril Ribarov, Zdenka Uresova, Lenka Zehrova (anotatorka)
Udaje psane kurzivou signalizuji splneni.
| 2007 ^ duben ^ kveten ^ cerven ^cervenec ^srpen ^zari ^rijen ^listopad ^ prosinec ^
^ Bara |zahajit komunikaci s LDC (spolu s Honzou H.)|-|do 20. cervna odevzdat 'naplnene' xml soubory; 18.6. 8:30 schuzka o datech|1. verze Pruvodce|-|-|-|-|-|
^ |do 17.4. pripravit osnovu Pruvodce - viz cast CO bod 3|-|-|-|-|-|-|-|-|
^ |24.4. oslovit ty, kteri budou psat casti Pruvodce|-|-|-|-|-|-|-|-|
^ Jirka H. |-|-|do 20. cervna odevzdat 'naplneny' xml soubor|-|-|dodat df verzi LAW pro cd|dodat tutorial k LAW|-|-|
^ Jarka |-|-|do 20. cervna odevzdat 'naplnene' xml soubory|-|-|dodat df verzi morf. anal. pro cd|dodat tutorial k Bonito|-|-|
^ Jirka M. |kontrola morf. anotaci|-|do 20. cervna odevzdat 'naplnene' xml soubory; seznamit se s kontrolnimi PDT 2.0 skripty; 18.6. 8:30 schuzka o datech|-|-|-|dodat tutorial k Netgraphy|-|-|
^ Kiril |prubezne priprava dat pro anotatory|vymyslet strategii pro porovnani souboru od anotatoru|makra do TrEd; 18.6. 8:30 schuzka o datech|-|-|dodat df verzi parseru pro cd|-|-|-|
^ Honza R. |do 23.4. pripravit xml soubory pro jednotlive casti Pruvodce|-|-|1. verze Pruvodce|-|dodat df verzi taggeru pro cd|-|-|-|
^ Pavel Q. |-|-|-|-|-|dodat morfologii pro Bonito|-|-|-|
^ Ondra B. |-|-|-|-|-|-|-|1. verze instalatoru|-|
^ Michal K. |-|-|-|-|-|-|morph-parse-chain|-|-|
^ Michal S. |-|-|-|-|-|dodat designove podklady|-|-|-|
^ Ondrej K. |-|-|-|-|-|dodat df verzi STYX pro cd|dodat tutorial k STYX|-|-|
====== POKYNY ======
===== Pruvodce =====
Vsechny potrebne soubory jsou ~/raab/cac-guide
. Protoze nektere odstavce budou totozne s odstavci z Pruvodce CAK 1.0, realizujte 'cut'n paste' ze souboru z adresare cac1/.
cac1/ - finalni verze CAC 1.0
upload/ - oblibeny adresar pro zapis zmenenych souboru
pdf/ - aktualni pdf verze
===== Dokumentace k nastrojum =====
Adresar nastroje bude mit nasledujici strukturu
* docs/ # uzivatelska dokumentace, instalacni pokyny - cesky I anglicky
* README_{CZ|EN}.txt # cesky a anglicky 'hruba' dokumentace
* instalacni balicek/balicky
Viz napr. /net/projects/REST/data/CAC/cac10/tools/LAW
===== Tutorialy =====
K nastrojum s grafickym rozhranim, tedy
* Bonito
* LAW
* TrEd
* Netgraph
* Styx
* BB FlashBack Express - viz demo_1
* Wink software - viz demo_2
Pro demo_1 k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pak jsem nasla program Wink, ktery existuje jak pod Win, tak pod Linux - coz je pro nas dulezite. Vyzkousela jsem a vzniklo demo_2. Podivejte se na ne, prosim.
Smysluplnost tutorialu ODSOUHLASENA. (Jeste vas prosim o nazor, jestli vidite takoveto tutorialy smysluplne, tedy smysluplne na to, abychom je dali na cd CAC 2.0. Ja si myslim, ze to smysl ma. )
V Pruvodci CAC 2.0 bude rovnez odkaz na PDT tutorial z lonskeho listopadu
====== PRACE NA DATECH podrobne ======
===== Pro anotatory =====
* Textove materialy k anotaci
* Pokyny pro anotaci (23/6/2007) (CTI ME - shrnuti vsech podstatnych informaci)
* Valencni slovnik z PDT (a k němu manuál k používání pro analytickou anotaci)
* Prehled maker kontextu PML_CAC_A_Edit editoru TrEd
* Slajdy ze snidane 18/6/2007(trochu vice povidani o s. anotaci CAK)
* Slajdy ze snidane 25/6/2007(informacni schuzka se zajemci o anotovani)
* Prehled zpracovani souboru
* Mezianotatorska shoda v cislech
* zahrivaci kolo
* s3-s10
* TrEd - instalace pod systémem Windows a základní instrukce
* TrEd je ke stažení ve standardní distribuci (platné i pro anotaci CAC) na jeho “domácích stránkách” na http://ufal.mff.cuni.cz/~pajas/tred.
* Rychlý návod k instalaci (pro “offline” použití; pro anotátory ze SNK instaluje TrEd Radovan jinak):
* Z výše uvedené stránky stáhněte na svůj notebook soubor tred_wininst_en.zip
.
* Rozbalte jej kdekoliv; dostanete adresář tred_wininst_en
.
* V tomto adresáři spusťte soubor setup.bat
. Pozor, v adresáři je několik podobně pojmenovaných .bat
souborů - vy spusťte tento základní.
* Na všechny otázky odpovězte yes (y), nebo tak, aby instalace pokračovala, a nechte pro všechno, co vám instalační program nabízí, defaultní hodnoty.
* Po dokončení instalace spusťte TrEd (pomocí ikony na ploše). Ověřte (Help→About), že se jedná o verzi nejméně 1.3050 nebo vyšší.
* Po ověření verze si nastavte tzv. stylesheet
, tj. to, co všechno se vám při anotaci zobrazí. Při všech dalších spuštění TrEd se bude zobrazovat to, co jste si nastavili. Zkušenosti říkají, že stačí u uzlu zobrazit slovo a analytickou funkci. Z menu View → Edit Stylesheet
, pravou část okna smažte a vložte následující, které potvrďte ok
:
context: .*
hint:
text:<? $${m/w/token}eq$${m/form} ?
'#{'.CustomColor('sentence').'}${m/w/token}' :
'#{-over:1}#{'.CustomColor('spell').'}['.
join(“ ”,map { $_→{token} } ListV($this→attr('m/w'))).
']#{-over:0}#{'.CustomColor('sentence').'}${m/form}' ?>
node:<? $${afun} eq “AuxS” ? '${id}' : '${m/form}' ?>
node:<?$${afun}?>
* Rychlý návod ke spuštění TrEdu a anotaci (otevření souboru a nastavení prostředí, anotace)
* Spusťte TrEd, a pomocí Open
(nebo z Recent Files
) otevřete příslušný .a
soubor.
* Nastavte “kontext” (vpravo nahoře) PML_CAC_A_Edit
.
* Používejte makra z PML_CAC_A_Edit
(User-defined → PML_CAC_A_Edit
, příp. More
) a dále smíte používat Open
, Save
, Save As
z hlavního menu File
, a všechny další funkce, které slouží k “prohlížení” souboru(ů) - například posouvání po větách, přímý skok na větu s daným pořadovým číslem (tj. různá GoTo
…), vyhledávání v souboru pomocí F3/F4 apod. NIKDY ale nepoužívejte jakékoli funkce, které mění strom nebo hodnoty atributů z menu Node
, ani z maker Tred_Macro
nebo jiných maker a kontextů.
* První uložení souboru po jeho prvním otevření a zahájení jeho anotace
* Soubor se ukládá pomocí Save As
(menu File
), pak zvolte “Current”
v okně pro volbu formátu.
* Soubor uložte pod původním jménem s přidaným podtržítkem a iniciálami vašeho jména; postup: zvolte původní soubor s koncovkou .a
v nabízeném seznamu, a přidejte mu před .a
ješte _JP
(J
- inicála jména, P
- iniciála příjmení).
* Po odsouhlasení jména na vás vyskočí okno “Select resources to save”
. Klikněte na první řádek (soubor s příponou .m
) - měl by se vysvítit. Pak zvolte tlačítko “Change Filename”
, a rovněž u tohoto souboru připište k jeho jménu “_JP”
(těsně před příponu .m
, obdobně jako u .a
souboru). Po odsouhlasení zkontrolujte, že v okně “Select resources to save”
je jméno správně upravené (s tím _JP
). Odsouhlaste uložení tlačítkem “OK”
.
* Další otevření a uložení částečně anotovaného nebo dodatečně opravovaného souboru
* Pro druhé a další otevření téhož souboru pro provádění další anotace nebo jakýchkoli jiných změn použijte soubor s modifikovaným jménem (…._JP.a
).
* Pro jeho uložení po provedení změn použijte File → Save
(F2).
* V okne “Select resources to save”
klikněte na první řádek (mělo by v něm být jméno už rovněž modifikované, s _JP.m
na konci). Hned poté odsouhlaste uložení pomocí tlačítka “OK”
(tedy není nutno znovu měnit jméno souboru pomocí Change Filename
).
===== Interni adresarova struktura =====
* 18.6. 8:30 schuzka o datech; výsledek schůzky:
* Vytvoření adresářové struktury v /net/projects/REST/data/CAC/work_CAC20/data
s dále uvedenými podadresáři.
* Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře:
* 00_actual
- aktuální data celého korpusu (Jiří Mírovský)
* odtud bude brát Kiril data a rozdělovat práci anotátorkám
* 01_annotations
- anotace souborů jednotlivými anotátorkami (Kiril Ribarov)
* odtud si bude Jirka brát data a pustí na ně první sadu “100%” automatických kontrol
* 02_auto_check_A
- první fáze automatických kontrol (Jiří Mírovský)
* data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné
* 03_comparison
- porovnání a slití souborů do jedné verze
* takto slitá data dá Kiril paní Bémové ke kontrole
* 04_manual_check_1
- ruční kontrola a oprava nesrovnalostí dvou anotací, případně výstupu skriptů (Kiril Ribarov)
* na ručně prošlá data se pustí další, již méně spolehlivé skripty, které jen upozorňují na podezřelá místa; případně i stopro skripty
* 05_auto_check_B
- druhá fáze automatických kontrol (Jiří Mírovský)
* podezřelá místa pak znovu zkontroluje paní Bémová, když bude tak hodná
* 06_manual_check_2
- ruční kontrola a oprava podezřelých míst, na která upozornily skripty (Kiril Ribarov)
* odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; Kiril navrhuje znovu pustit kontrolní skripty
* 07_finished
- tady budou hotová data, tedy ta část korpusu, která je již hotová; hotová data se budou kopírovat rovněž do adresáře 00_actual
, aby se odtud v případě potřeby mohla brát (Jiří Mírovský, Kiril Ribarov)
* Polo-automaticka kontrola morfologickych anotaci 'sama proti sobe'
* Jirka Mirovsky
* na kontrolach m-souboru pracuje lokalne u sebe
* Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim
* Jirka Mirovsky
* brat a-soubory z adresare net/projects/rest/data/CAC/atrees/MST2/odAlly
(popis viz nize)
* k 3/6 umisteny souborty s11-s16
* Priprava dat k dvojite rucni syntakticke anotaci
* Kiril - zpracovani dat MST parserem
* podpora v TrEdu pro snadnejsi anotaci: pro anotovani PDT 1.0 byla v TrEd nabizena makra pro prijemnejsi anotaci. Tato makra byla napsana pro format fs a jeste pro koncepci PDT 1.0, ktera se v nekterych ohledech lisi od te v PDT 2.0 (napr. viz koordinace). Kdyz se v soucasne distribuci TrEd nastavi kontext Analytic, tak ten nabizi prave zminena makra. 12/6/2007
Kirile,
tady preposilam soubor PML_A_Edit.mak a k nemu prilohu od Katky. Radovan jim tato makra udelal primo do PML_A_Edit, coz neni dobre, protoze tim padem my a oni mame jiny PML_A_Edit. Je potreba to udelat “spravne” (tj.v duchu PML schemat) - nechat PML_A_Edit byt, a udelat novy (napr. pojmenovany PML_CAC_A_Edit), ktery “includuje” vsechna makra z PML_A_Edit, a ty specificka pro
anotaci CAC (vc. afunu, koordinaci apod.) prida prave do nej. Myslim, ze taky bude dobre, aby cesti anotatori a slovaci meli ted vsechno stejne - takze az to budes mit, posli to prosim zpet
Radovanovi at jim to nainstaluje. Jinak jsem dnes odpodival na nekolik dotazu ohledne 2. kola;
myslim, ze nejdulezitejsi je, abys jim poslal doplnene pokyny o tom, co smeji a nesmeji pouzivat.
Diky, Honza
* Rucni kontrola syntaktickych anotaci
* data po rucni anotaci v adresari net/projects/rest/data/CAC/atrees/MST2/odAnotatoru
* Kiril - do TrEdu udelatka pro pohodlnejsi kontrolu diskrepanci
* Alla - resit diskrepance anotatoru
* data po Alline kontrole v adresari net/projects/rest/data/CAC/atrees/MST2/odAlly
* Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci
* Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v net/projects/rest/data/CAC/atrees/MST2/odAlly
), protoze pokud by se zjistilo, ze je nutno neco doimplementovat, tak aby na to byl cas. Dulezite poznamky uvadej zde.
====== KONTAKTY ======
* Alla Bemova (bemova@ufal.mff.cuni.cz
, kontrola anotaci)
* Veronika Curdova (myopie@seznam.cz
, cz, anotatorka)
* Katarina Gajdosova (katarinag@korpus.juls.savba.sk
, sk, anotatorka)
* Jan Hajic (hajic@ufal.mff.cuni.cz
)
* Barbora Hladka (hladka@ufal.mff.cuni.cz
)
* KK (sk, )
* Jirka Mirovsky (mirovsky@ufal.mff.cuni.cz
)
* Kiril Ribarov (ribarov@ufal.mff.cuni.cz
, TrEd)
* Zdenka Uresova (uresova@ufal.mff.cuni.cz
, kontrola anotaci)
* Lenka Zehrova (z.lenicka@centrum.cz
, cz, anotatorka)