[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Zkusenosti s praci nad CAC 1.0 a jeho pruvodcem me nuti uz ted premyslet o vydani druhe verze CAC. Vse se odviji od terminu vydani - protoze projekt IS, pod ktery prace nad CAC spada, konci v roce 2008, musi byt CAC 2.0 vydan (nebo alespon podan do tisku) do konce roku 2008.

CO

  1. publikovani
    • u LDC
  2. CD ROM
    • bonus-tracks/
    • data/
      • format: PML (CSTS?)
      • zahrnout puvodni anotace?
    • tutorials/
    • tools/
      • Bonito/
      • LAW/
      • TrEd/
      • tokenizer/
      • MA/
      • tagger/
      • parser/
      • morph-parse-chain - tATP
        • -t … tokenizer
        • -A … morfologicka analyza
        • -T … tagging
        • -AT … morf. analyza a nasledne tagging
        • -P … parsing
        • -tATP - run it all
  3. Pruvodce
    • cesky, nasledne anglicky preklad
      1. Predmluva (BH)
      2. Uvod (BH)
        1. Projekt Ceskeho akademickeho korpusu
        2. Co je Cesky akademicky korpus 2.0
        3. Zdroje textu
        4. Roviny anotace
        5. Kvantitativni udaje
      3. CD-ROM Cesky akademicky korpus 2.0
        1. Adresarova struktura (BH)
        2. Data (Jirka M.)
          1. Format dat
          2. Konvence pojmenovani souboru
          3. Velikost dat
        3. Nastroje
          1. Bonito (Jarka)
          2. LAW (Jirka H.)
          3. TrEd
          4. Netgraph (Jirka M.)
          5. Automaticke zpracovani textu (BH, KR o parseru)
      4. Tutorialy (BH)
      5. Bonusovy material
      6. Instalace (BH)
      7. Osobnosti v projektu (BH)
      8. Podekovani (BH)
      9. Literatura (BH)
      10. Zdroje textu (BH)
      11. Pavucina (BH)
      12. Popis lemmat (BH)
      13. Popis morfologickych znacek (BH)
      14. Popis analytickych funkci (BH)
  4. Design
    • CD, plakat, web

KDO-CO-JAK

Pokud jste se zatoulali na tuto stranku a nasli zde prekvapive (bez predchoziho varovani) svoje jmeno, tak mate pravdu;-) Vezte, ze budete varovani velmi brzo!!

Ondrej Bojar

Jarka Hlavacova

  1. Na cd-rom CAC 2.0 by mela byt 'nova' morfologie, ktera uz nepotrebuje 2GB mista.
  2. Tak jak je mozne prohlizet i anal. fce PDT, tak to bude mozne i pro CAC. Volani morfologie z Bonito zustane zachovano.

Emil Jerabek
Michal Kebrt

Oldrich Kruza

  1. Postup stejny jako pro CAC 1.0, tj. az budou data nachystana k publikaci, tak je nalit do Bonito.

Ondrej Kucera

Pavel Kveton

Jirka Mirovsky

Pavel Pecina

11.4.2007 Pavel pise:
Ano, tokenizer muzete pouzit.

Jeho kod je zde: /net/projects/textseg

A dokumentace tady: https://wiki.ufal.ms.mff.cuni.cz/internal:textseg

Pavel Ceska uz na nem nepracuje, ale nic v nem neni zadratovano tak, aby
to neslo rychle a dobre upravit. Porad planujeme pizzovy seminar, na
kterem by se to mohlo vsechno jeste probrat a pripadne upravit. Takze,
nez budete chtit nejakou finalni verzi, tak nam jeste dejte vedet.

Kiril Ribarov

  1. S jakym formatem dat MST pracuje? Umi PML.
  2. MST parser natrenovat na jakych datech - kompletni syntakticky anotovana data z PDT 2.0?

Michal Sotkovsky

Honza Votrubec

  1. bude umet cist z a zapisovat do PML?
    1. > ano, bude
  2. Tagger natrenovat na jakych datech - kompletni morfologicky anotovana data z PDT 2.0?
    1. > nic jiného k trénování vhodného asi ani nemáme - ale PDT je v některých věcech nekompatibilní s CAK (např. číslovky)

KALENDAR

Udaje psane kurzivou signalizuji splneni.

2007 duben kveten cerven cervenec srpen zari rijen listopad prosinec
Bara zahajit komunikaci s LDC (spolu s Honzou H.)--1. verze Pruvodce-----
do 17.4. pripravit osnovu Pruvodce - viz cast CO bod 3--------
24.4. oslovit ty, kteri budou psat casti Pruvodce--------
Jirka H. -----dodat df verzi LAW pro cddodat tutorial k LAW--
Jarka -----dodat df verzi morf. anal. pro cddodat tutorial k Bonito--
Jirka M. kontrola morf. anotaci-----dodat tutorial k Netgraphu--
Kiril prubezne priprava dat pro anotatory----dodat df verzi parseru pro cd---
Honza V. do 23.4. pripravit xml soubory pro jednotlive casti Pruvodce----dodat df verzi taggeru pro cd---
Pavel Q. -----dodat morfologii pro Bonito---
Ondra B. -------1. verze instalatoru-
Michal K. ------morph-parse-chain--
Michal S. --dodat designove podklady------
Ondrej K. -----dodat df verzi STYX pro cddodat tutorial k STYX--

POKYNY

Dokumentace k nastrojum

Adresar nastroje bude mit nasledujici strukturu

Viz napr. /net/projects/REST/data/CAC/cac10/tools/LAW

Tutorialy

K nastrojum s grafickym rozhranim, tedy

Pro demo k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pokud ovsem nekdo znate nebo uz dokonce mate jiny software, tak se nicemu jinemu nebranim.


[ Back to the navigation ] [ Back to the content ]