This is an old revision of the document!
Table of Contents
Zkusenosti s praci nad CAC 1.0 a jeho pruvodcem me nuti uz ted premyslet o vydani druhe verze CAC. Vse se odviji od terminu vydani - protoze projekt IS, pod ktery prace nad CAC spada, konci v roce 2008, musi byt CAC 2.0 vydan (nebo alespon podan do tisku) do konce roku 2008.
CO
- publikovani
- u LDC
- CD ROM
- bonus-tracks/
- STYX/
- TrEd_hlasem/
- data/
- format: PML (CSTS?)
- zahrnout puvodni anotace?
- tutorials/
- tools/
- Bonito/
- LAW/
- TrEd/
- Netgraph/
- tool_chain/
- tokenizer/
- morphology/
- tagger/
- parser/
- tool_chain - tATP
- -t … tokenizer
- -A … morfologicka analyza
- -T … tagging
- -AT … morf. analyza a nasledne tagging
- -P … parsing
- -tATP - run it all
- Pruvodce
- cesky, nasledne anglicky preklad
- Predmluva (BH, predmluva.xml)
- Uvod (BH, uvod.xml))
- Projekt Ceskeho akademickeho korpusu
- Co je Cesky akademicky korpus 2.0
- Zdroje textu
- Roviny anotace
- Kvantitativni udaje
- CD-ROM Cesky akademicky korpus 2.0
- Adresarova struktura (BH, adresar.xml)
- Data (Jirka M., data.xml)
- Format dat
- Konvence pojmenovani souboru
- Velikost dat
- Nastroje
- Bonito (Jarka, nastroje-bonito.xml)
- LAW (Jirka H., nastroje-law.xml)
- TrEd (XY, nastroje-tred.xml)
- Netgraph (Jirka M., nastroje-netgraph.xml)
- Automaticke zpracovani textu (BH, KR o parseru, nastroje-zprac.xml)
- Tutorialy (BH, tutorialy.xml)
- Bonusovy material (bonus.xml)
- Instalace (BH, instalace.xml)
- Osobnosti v projektu (BH, osobnosti.xml)
- Podekovani (BH, podekovani.xml)
- Literatura (BH, literatura.xml)
- Priloha A Zdroje textu (BH, zdroje.xml)
- Priloha B Pavucina (BH, pavucina.xml)
- Priloha C Popis lemmat (BH, lemmata.xml)
- Priloha D Popis morfologickych znacek (BH, znacky.xml)
- Priloha E Popis analytickych funkci (BH, funkce.xml)
- Design
- CD, plakat, web
KDO-CO-JAK
Pokud jste se zatoulali na tuto stranku a nasli zde prekvapive (bez predchoziho varovani) svoje jmeno, tak mate pravdu;-) Vezte, ze budete varovani velmi brzo!!
Ondrej Bojar
- instalacni skripty (viz CAK 1.0)
Jarka Hlavacova
- Bonito
- prohlizeni *.m souboru (viz CAK 1.0)
- prohlizeni anal. fci z *.a souboru (viz PDT)
- morfologie (viz CAK 1.0)
- MA
- 'studentska' MA
- Na cd-rom CAC 2.0 by mela byt 'nova' morfologie, ktera uz nepotrebuje 2GB mista.
- Tak jak je mozne prohlizet i anal. fce PDT, tak to bude mozne i pro CAC. Volani morfologie z Bonito zustane zachovano.
Emil Jerabek
Michal Kebrt
- morph-parse-chain
- cast 'morph' - viz CAK 1.0?
- doplnit parser
- s jakym formatem dat pracovat (PML vs. CSTS)?
Oldrich Kruza
- CAK do Bonito
- viz CAK 1.0
- Postup stejny jako pro CAC 1.0, tj. az budou data nachystana k publikaci, tak je nalit do Bonito.
Ondrej Kucera
- STYX
Pavel Kveton
- morfologie v Bonito
- viz CAK 1.0
Jirka Mirovsky
- kontrola morfologickych anotaci
- kontrolni skripty morf. vs. syntax a syntax (PDT2.0-like kontroly)
- kontrola syntaxe probehne ve dvou fazich:
- s hotovym necelym vzorkem dat - pripraveni skriptu
- posleze se vsemi daty, az budou hotova
Pavel Pecina
- tokenizer
11.4.2007 Pavel pise:
Ano, tokenizer muzete pouzit.
Jeho kod je zde: /net/projects/textseg
A dokumentace tady: https://wiki.ufal.ms.mff.cuni.cz/internal:textseg
Pavel Ceska uz na nem nepracuje, ale nic v nem neni zadratovano tak, aby
to neslo rychle a dobre upravit. Porad planujeme pizzovy seminar, na
kterem by se to mohlo vsechno jeste probrat a pripadne upravit. Takze,
nez budete chtit nejakou finalni verzi, tak nam jeste dejte vedet.
Kiril Ribarov
- parser
- priprava dat pro anotatory
- S jakym formatem dat MST pracuje? Umi PML.
- MST parser natrenovat na jakych datech - kompletni syntakticky anotovana data z PDT 2.0?
Michal Sotkovsky
- design
- navrh tak pekny jako CAK 1.0 - pouze zmenit barvicky
Honza Votrubec
- tagger
- bude umet cist z a zapisovat do PML?
- > ano, bude
- Tagger natrenovat na jakych datech - kompletni morfologicky anotovana data z PDT 2.0?
- > nic jiného k trénování vhodného asi ani nemáme - ale PDT je v některých věcech nekompatibilní s CAK (např. číslovky)
- technicky editor pruvodce
KALENDAR
Udaje psane kurzivou signalizuji splneni.
2007 | duben | kveten | cerven | cervenec | srpen | zari | rijen | listopad | prosinec |
---|---|---|---|---|---|---|---|---|---|
Bara | zahajit komunikaci s LDC (spolu s Honzou H.) | - | do 20. cervna odevzdat 'naplnene' xml soubory | 1. verze Pruvodce | - | - | - | - | - |
do 17.4. pripravit osnovu Pruvodce - viz cast CO bod 3 | - | - | - | - | - | - | - | - | |
24.4. oslovit ty, kteri budou psat casti Pruvodce | - | - | - | - | - | - | - | - | |
Jirka H. | - | - | do 20. cervna odevzdat 'naplneny' xml soubor | - | - | dodat df verzi LAW pro cd | dodat tutorial k LAW | - | - |
Jarka | - | - | do 20. cervna odevzdat 'naplnene' xml soubory | - | - | dodat df verzi morf. anal. pro cd | dodat tutorial k Bonito | - | - |
Jirka M. | kontrola morf. anotaci | - | do 20. cervna odevzdat 'naplnene' xml soubory | - | - | - | dodat tutorial k Netgraphu | - | - |
Kiril | prubezne priprava dat pro anotatory | vymyslet strategii pro porovnani souboru od anotatoru | - | - | - | dodat df verzi parseru pro cd | - | - | - |
Honza V. | do 23.4. pripravit xml soubory pro jednotlive casti Pruvodce | - | - | 1. verze Pruvodce | - | dodat df verzi taggeru pro cd | - | - | - |
Pavel Q. | - | - | - | - | - | dodat morfologii pro Bonito | - | - | - |
Ondra B. | - | - | - | - | - | - | - | 1. verze instalatoru | - |
Michal K. | - | - | - | - | - | - | morph-parse-chain | - | - |
Michal S. | - | - | dodat designove podklady | - | - | - | - | - | - |
Ondrej K. | - | - | - | - | - | dodat df verzi STYX pro cd | dodat tutorial k STYX | - | - |
POKYNY
Pruvodce
Vsechny potrebne soubory jsou ~/votrubec/cac-guide
. Protoze nektere odstavce budou totozne s odstavci z Pruvodce CAK 1.0, realizujte 'cut'n paste' ze souboru z adresare cac1/.
cac1/ - finalni verze CAC 1.0 upload/ - oblibeny adresar pro zapis zmenenych souboru pdf/ - aktualni pdf verze
Dokumentace k nastrojum
Adresar nastroje bude mit nasledujici strukturu
- docs/ # uzivatelska dokumentace, instalacni pokyny - cesky I anglicky
- README_{CZ|EN}.txt # cesky a anglicky 'hruba' dokumentace
- instalacni balicek/balicky
Viz napr. /net/projects/REST/data/CAC/cac10/tools/LAW
Tutorialy
K nastrojum s grafickym rozhranim, tedy
- Bonito
- LAW
- TrEd
- Netgraph
- Styx
- BB FlashBack Express - viz demo_1
- Wink software - viz demo_2
Pro demo_1 k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pak jsem nasla program Wink, ktery existuje jak pod Win, tak pod Linux - coz je pro nas dulezite. Vyzkousela jsem a vzniklo demo_2. Podivejte se na ne, prosim.
Smysluplnost tutorialu ODSOUHLASENA. (Jeste vas prosim o nazor, jestli vidite takoveto tutorialy smysluplne, tedy smysluplne na to, abychom je dali na cd CAC 2.0. Ja si myslim, ze to smysl ma. )
V Pruvodci CAC 2.0 bude rovnez odkaz na PDT tutorial z lonskeho listopadu
PRACE NA DATECH
- Polo-automaticka kontrola morfologickych anotaci 'sama proti sobe'
- Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim
- Priprava dat k dvojite rucni syntakticke anotaci
- Rucni kontrola syntaktickych anotaci
- Automaticke kontrolni skripty (z PDT 2.0)