[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:hladka:smerem-k-cak-2.0 [2007/03/30 11:51]
hladka
user:hladka:smerem-k-cak-2.0 [2008/12/12 12:21] (current)
hladka
Line 1: Line 1:
-Zkusenosti s praci nad CAC 1.0 a jeho pruvodcem me nuti uz ted premyslet o vydani druhe verze CAC. Vse se odviji od terminu vydani - protoze projekt IS, pod ktery prace nad CAC spada, konci v roce 2008, musi byt CAC 2.0 vydan (nebo alespon podan do tisku) do konce roku 2008. +====== CAK 2.0 ======
  
-====== CO? ====== + 
-  publikovani + 
-     * u koho+ 
-     za hranicemi CR (ELRA/ELDALDC?) + 
-  CD ROM + 
-      bonus-tracks+ 
-      * data+ 
-         formatPML (CSTS?+ 
-         zahrnout puvodni anotace? + 
-      * demos/ (dema nastroju jako napr. [[http://ufal.mff.cuni.cz/styx/styx_demo.html|STYX - demo]]) +===== Aktuality ====== 
-      * tools/ +   * **28/04/2008** //Podivejte se prosim na anglickou verzi Pruvodce jak ve formatu html, tak i v pdf. Abych tak rekla ... nemusi to byt vylozene systematicky (napr. ze si vytisknete pdf a cele ho prectete), protoze kdyz se na text podiva nekdo, kdo ho cele noci needitoval, tak jeho prvni pohled padne na nejaky nedostatek:-( Komentare posilejte Honzovi Raabovi s Cc: hladka. Ucinte tak prosim nejpozdeji ve stredu 30. 4. - opravdu uz finisujeme, na zacatku kvetna odchazi CD-ROM do LDC.// 
-         Bonito- prohlizec *.m souboru i anotaci analfci v *.a souborechmorfologie +      anglicke [[http://ufal.mff.cuni.cz/morce/cac/index_en.php|html]] 
-         * LAW/  +      * anglicke [[http://ufal.mff.cuni.cz/~hladka/CAC20/en_cac-guide.pdf|pdf]] 
-         * TrEd/  +   * **18/12/07** **REKAPITULACE roku 2007**, **aktulizace ke dni 7. 1. 2008** 
-         * tokenizer/ +      * Pruvodce CAK 2.0 
-         MA/+         * ceska verze DOKONCENO 
 +         * anglicka verze PRACUJE SE NA NI 
 +      * CD-ROM 
 +         * data PRACUJE SE NA NICH 
 +         * nastroje 
 +            * zrevidovat soubory README 
 +            * Bonito - zavisi na datech 
 +            * LAW - DOKONCENO 
 +            * Netgraph - DOKONCENO (až na přiložená data ve formátu fs, která jsou zatím neúplná) 
 +            * TrEd - DOKONCENO 
 +            * tool_chain - LADI SE, otaznik konverze pml w-soubor <-> csts 
 +               * do souboru README napsat verze nastroju, na jakych datech byly natrenovany, e-mailove odkazy 
 +               * tokenizace - dokumentace
 +               morfologicka analyza - dokumentace
 +               * tagger 
 +               * parser 
 +         * bonusy 
 +            * STYX DOKONCENO 
 +            TrEdVoice DOKONCENO    
 +         * tutorialy 
 +            * Bonito - DOKONCENO - jsou tam jeste nejake otazniky - viz vyse 
 +            * Netgraph - DOKONCENO 
 +            * TrEdVoice - DOKONCENO 
 +            * LAW - DOKONCENO 
 +            * TrEd - DOKONCENO 
 +            * STYX - DOKONCENO 
 +   * **23/11/07** 
 +      * Pruvodce CAK 2.0 ([[http://ufal.mff.cuni.cz/~hladka/CAC20/cac-guide.pdf|pdf]],                          [[http://ufal.mff.cuni.cz/morce/cac|html]]) 
 +         Pruvodce je uz v takove fazi, ze je vhodne, abyste si ho precetli 
 +         * Prosim o korektury - korektury zaneste do vytisteneho Pruvodce. Byla bych moc rada, kdybyste je stihli do patku 30. listopadu t.r. (prijdu si pro ne:-))Nektere obrazky z pdf vypadly, podivejte se na ne v html (diky)
 +      * Prosim o komentar k demosnimkum, ktere najdete v ''/net/projects/rest/CAC/cac20/tutorials'' (jeste chybi demosnimek k TrEd - Petr Pajas udela; STYX - chybi df. verze STYX, LAW) Komentare prosim piste primo sem na wiki. 
 +         Nethraph 
 +            * JM: libi se;-) 
 +            * BH: moc rychly, komentare k dotazum; aktualizace JM: zpomalil jsem to o 10% a pridal komentar ke strukturnimu dotazu 
 +         * Bonito 
 +            * BH: moc velka obrazovka, doplnit uvod a zaver 
 +            * JM: libi se, u frekvencni distribuce obe sipky oznaceny VPRED 
 +         * TredVoice 
 +            * BH: libi se mi 
 +            * JM: libi se 
 +         * Styx 
 +         * TrEd   
 +      * Prosim o testovani skriptu ''tool_chain'' (''/net/projects/rest/CAC/cac20/tools/tool_chain''). Komentar posilejte primo Michalovi Kebrtovi (''michalek.k@seznam.cz''     
 +   * **24/9/07 v 9:00 schuzka k CAK 2.0. chodba ve 4. patre zapadniho kridla** - body pgmu, ktere jsme probrali, jsem presunula na patricna mista wiki dokumentace 
 +      * CAK 1.0 
 +         * Rozesilani Pruvodce - Zatim jsem koupila 50 vytisku, z UFALovskeho adresare jsem vzala ty adresy, ktere u sebe maji alespon jeden z priznaku PDT0, PDT1, PCEDT, PADT a nekolik kousku jiz odeslo (cervene v [[http://ufal.mff.cuni.cz/~hladka/CAC20/stitky-korpusy.rtf|prilozenem souboru]] vybranych adres). Pokud chcete Pruvodce nekam poslat, tak adresu doplnte do souboru (pokud tam jeste neni), zacervenejte ji a dejte mi vedet. Realizaci odeslani zajistim. 
 +      * Pruvodce CAK 2.0 
 +         aktualni verze: [[http://ufal.mff.cuni.cz/morce/cac|html]]     
 +            //Zatim neni nutne cist Pruvodce jako celekJeste udelame jedno kolo zmen/doplnku/..., // 
 +            //Podivejte se na barvy.// 
 +    * **19/7/07** 
 +      * Pruvodce CAK 1.0 vysel (viz [[http://cupress.cuni.cz/ink_ext/index.jsp?include=podrobnosti&id=2440&zalozka=1|zde]]) 
 +      * podepsana smlouva mezi UK MFF LDC 
 +      * prvni verze Pruvodce CAK 2.0 vznikla dle planu - diky! Do pulky srpna doplnimprip. opravim co je potreba a pak se jednotlivcum zase ozvu 
 +      * rucni anotace dat dost "boli", nejak se mi nedari anotatory dostatecne motivovat 
 +      * kontrolni skripty nastaveny 
 + 
 + 
 +===== Publikovani ====== 
 +      * u LDC 
 +         * dohoda UK MFF <-> LDC PODEPSANA 
 +         * dohoda UK MFF <-> UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 + 
 +===== CD ROM ===== 
 +Adresar ''/net/projects/REST/data/CAC/cac20'' je nasim 'ladicim' adresarem. //Az budete mit nastroje nachystane v nejake verzi (nemusi byt definitivni), tak je ulozte do spravneho adresare - abychom mohli zvolna zacit ladit.// 
 +   * bonus-tracks/ 
 +      * STYX/ 
 +      * TrEdVoice/ ## //Kam presne prijde TrEdVoice? K TrEd? // 
 +   * data/ 
 +      * format: PML, CSTS ##  
 +   * tools/ 
 +      * Bonito/  
 +      * LAW/  
 +      * TrEd/ ## // Filelist se seznamem 180 souboru CAK 2.0 // 
 +      * Netgraph/ ## Klient i server. 
 +      * tool_chain
 +         * tokenizer/ ##  
 +         morphology/ ## // I SLED?//
          * tagger/          * tagger/
-         * parser/ +         * parser/ ## //Mozne problemy - velikost natrenovaneho modulu, vypocetni a pametove naroky. (KR)/
-         morph-parse-chain ATP +         tool_chain 
-            * -... morfologicka analyza +    * tutorials/ 
-            -... tagging + 
-            * -AT ... morfanalyza nasledne tagging + 
-            * -... parsing + 
-            * -ATP run it all + 
-    Pruvodce + 
-     publikovani +===== Pruvodce ===== 
-         u koho? Za hranicemi CR (ELRA/ELDA? LDC?+      cesky, nasledne anglicky preklad 
-         ceskynasledne anglicky preklad +         Predmluva (**BH, predmluva.xml**) 
-   - Design+         Uvod (BH, uvod.xml)) 
 +            Projekt Ceskeho akademickeho korpusu 
 +            - Co je Cesky akademicky korpus 2.0 
 +            - Zdroje textu 
 +            - Roviny anotace 
 +            - Vyvoj projektu 
 +               - CAK 1.0 
 +               - Na ceste k CAK 2.0 
 +                  // Tabulka 2.2 upravy (ktere BH, realizace JR)// 
 +                  * // Doplnit popis pilotni studie (KR)// 
 +                  * // Jake dalsi morfkontroly se delaly, upozornit na guessed-form(JM)// 
 +                  * //Doplnit logistiku syntaktickych kontrol(KR, JM)// 
 +            - Kvantitativni udaje 
 +         - CD-ROM Cesky akademicky korpus 2.
 +            - Adresarova struktura (**BH, adresar.xml**) 
 +               * //Doplnit kam prijde TrEdVoice.// 
 +               * //Ohlidat info o tokenizaci.// 
 +            - Data (**Jirka M., data.xml**) 
 +               Format dat  
 +               - Konvence pojmenovani souboru 
 +               - Velikost dat 
 +            - Nastroje //U kazdeho nastroje uvest odkaz do kapitoly Tutorialy.// 
 +               - Bonito (**Jarka, nastroje-bonito.xml**) 
 +                  * //Doplnit dotazy na linearni vyhledavani ve stromove strukture.// 
 +                  * //Obrazek 3.3 nahradit obrazovkou se vsemi atributy CAK 2.0.// 
 +                  * //Tabulka 3.7 cara mezi sloupci, mezi radky.// 
 +                  * //Tabulku 3.7 ilustrovat - nakreslit strom u kazdeho uzlu zobrazit hodnoty vsech atributu uvedenych v tabulce a doplnit nejaky dotaz primo v Bonito.// 
 +               - LAW (**Jirka H., nastroje-law.xml**) 
 +               - TrEd (**XY, nastroje-tred.xml**) 
 +                  * //Doplnit (BH) // 
 +               - Netgraph (**Jirka M., nastroje-netgraph.xml**) 
 +                  * Spravny spelling je **Netgraph**. 
 +               - Automaticke zpracovani textu (**BH, KR o parseru, nastroje-zprac.xml**) 
 +                  * // Doplnit odstavec o tokenizaci, pokud tam bude.// 
 +                  * // Aktualizovat procenta uspesnosti u taggeru.// 
 +                  * // Specifikovat na jakych datech PZK 2.0 byl tagger trenovan.// 
 +                  * // Doplnit odstavec o parsingu (uspesnost, trenovaci data).//  
 +                  * // Popsat prepinace u tool_chain// 
 +            - Bonusovy material (**bonus.xml**) 
 +               * //Doplnit ilustracni obrazek, neco vice k rozpoznavaci, doplnit citace. (BH)// 
 +            Tutorialy (**BH, tutorialy.xml**) 
 +            Instalace (**BH, instalace.xml**) 
 +            Distribuce a licence (**BH, distribuce.xml**) 
 +         - Osobnosti v projektu (**BH, osobnosti.xml**) 
 +         - Podekovani (**BH, podekovani.xml**) 
 +         - Literatura (**BH, literatura.xml**
 +         - Priloha A Zdroje textu (**BHzdroje.xml**) 
 +         Priloha B Popis lemmat (**BH, lemmata.xml**) 
 +         - Priloha C Popis morfologickych znacek (**BH, znacky.xml**) 
 +         - Priloha D Popis analytickych funkci (**BH, funkce.xml**) 
 +         - Priloha E Pavucina (**BH, pavucina.xml**) 
 + 
 +===== Design =====
       * CD, plakat, web       * CD, plakat, web
  
Line 36: Line 175:
  
 **Ondrej Bojar** **Ondrej Bojar**
-   * instalacni skript +   * instalacni skripty (viz CAK 1.0)
-      * tak pekne, jako pro CAC 1.0 +
-**Jirka Hana** +
-   * LAW +
-      * to, co umi LAW na cd-rom CAC 1.0  a navic +
-         * propojeni se slovnikovym editorem +
-         * volani MA -> viz Jarka +
-         * volani taggeru -> viz Honza V. +
- +
-  - //Popsat problemy s PML, ktere se objevily pri ladeni LAW pro cd-rom CAC 1.0.// +
-  - //Ohledne slovnikoveho editoru kontaktovat Leose Prikryla.// +
-  - //Dodelat ceske menu.// +
- +
-**Bara Hladka** +
-   * rizeni +
-  - //Vybrat vydavatele (konzultovat s Honzou H.a praci nad CAC 2.0 podridit jejich podminkam.//+
  
 **Jarka Hlavacova** **Jarka Hlavacova**
Line 60: Line 184:
    * MA    * MA
       * 'studentska' MA       * 'studentska' MA
 +
   - // Na cd-rom CAC 2.0 by mela byt 'nova' morfologie, ktera uz nepotrebuje 2GB mista.//   - // Na cd-rom CAC 2.0 by mela byt 'nova' morfologie, ktera uz nepotrebuje 2GB mista.//
   - // Tak jak je mozne prohlizet i anal. fce PDT, tak to bude mozne i pro CAC. Volani morfologie z Bonito zustane zachovano.//   - // Tak jak je mozne prohlizet i anal. fce PDT, tak to bude mozne i pro CAC. Volani morfologie z Bonito zustane zachovano.//
Line 68: Line 193:
       * cast 'morph' - viz CAK 1.0?       * cast 'morph' - viz CAK 1.0?
       * doplnit parser       * doplnit parser
-      * s jakym formatem dat pracovat (PML vs. CSTS)+      * s jakym formatem dat pracovat (PML vs. CSTS)?
 **Oldrich Kruza** **Oldrich Kruza**
    * CAK do Bonito    * CAK do Bonito
Line 76: Line 201:
 **Ondrej Kucera** **Ondrej Kucera**
    * STYX    * STYX
 +
 **Pavel Kveton** **Pavel Kveton**
    * morfologie v Bonito    * morfologie v Bonito
       * viz CAK 1.0       * viz CAK 1.0
-  - // Morfologie jakou soucast Bonito pro Win i pro Linux+ 
  
 **Jirka Mirovsky** **Jirka Mirovsky**
    * kontrola morfologickych anotaci    * kontrola morfologickych anotaci
 +   * kontrolni skripty morf. vs. syntax a syntax (PDT2.0-like kontroly)
 +       * kontrola syntaxe probehne ve dvou fazich:
 +         - s hotovym necelym vzorkem dat - pripraveni skriptu
 +         - posleze se vsemi daty, az budou hotova
 +
 +
 **Pavel Pecina** **Pavel Pecina**
-   * tokenizer - jak funguje?+   * tokenizer  
 +//**11.4.2007** Pavel pise:// 
 +//Ano, tokenizer muzete pouzit.// 
 + 
 +//Jeho kod je zde: /net/projects/textseg // 
 + 
 +//A dokumentace tady:  https://wiki.ufal.ms.mff.cuni.cz/internal:textseg // 
 + 
 +//Pavel Ceska uz na nem nepracuje, ale nic v nem neni zadratovano tak, aby 
 +to neslo rychle a dobre upravit. Porad planujeme pizzovy seminar, na 
 +kterem by se to mohlo vsechno jeste probrat a pripadne upravit.  Takze, 
 +nez budete chtit nejakou finalni verzi, tak nam jeste dejte vedet.// 
 **Kiril Ribarov** **Kiril Ribarov**
    * parser    * parser
-      MST jakym formatem pracuje? +   priprava dat pro anotatory 
-   * vyhodnoceni rucnich syntaktickych anotaci+  //S jakym formatem dat MST pracuje?// Umi PML. 
 +  - //MST parser natrenovat na jakych datech - kompletni syntakticky anotovana data z PDT 2.0?// 
 + 
 **Michal Sotkovsky** **Michal Sotkovsky**
    * design    * design
    * navrh tak pekny jako CAK 1.0 - pouze zmenit barvicky    * navrh tak pekny jako CAK 1.0 - pouze zmenit barvicky
-**Honza Votrubec**+ 
 +**Honza Raab**
    * tagger    * tagger
-      * bude umet cist z a zapisovat do PML?+  - // bude umet cist z a zapisovat do PML? // 
 +        -> //ano, bude// 
 +  - //Tagger natrenovat na jakych datech - kompletni morfologicky anotovana data z PDT 2.0?// 
 +        -> //nic jiného k trénování vhodného asi ani nemáme - ale PDT je v některých věcech nekompatibilní s CAK (např. číslovky)// 
    * technicky editor pruvodce    * technicky editor pruvodce
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +====== KALENDAR ======
 +18.6. v 8:30 probehla schuzka o praci na datech; PRITOMNI: Alla Bemova, Veronika Curdova (anotatorka), Jan Hajic, Barbora Hladka, Jiri Mirovsky, Kiril Ribarov, Zdenka Uresova, Lenka Zehrova (anotatorka)
 +
 +//**Udaje psane kurzivou signalizuji splneni**.//
 +
 +|    **2007**         ^ duben            ^ kveten          ^ cerven ^cervenec ^srpen ^zari ^rijen ^listopad ^ prosinec ^
 +^ Bara       |//zahajit komunikaci s LDC (spolu s Honzou H.)//|-|do 20. cervna odevzdat 'naplnene' xml soubory; **18.6. 8:30 schuzka o datech**|1. verze Pruvodce|-|-|-|-|-|
 +^            |//do **17.4.** pripravit osnovu Pruvodce - viz cast CO bod 3//|-|-|-|-|-|-|-|-|
 +^            |//**24.4.** oslovit ty, kteri budou psat casti Pruvodce//|-|-|-|-|-|-|-|-|
 +^ Jirka H.    |-|-|do 20. cervna odevzdat 'naplneny' xml soubor|-|-|dodat df verzi LAW pro cd|dodat tutorial k LAW|-|-|
 +^ Jarka      |-|-|//do 20. cervna odevzdat 'naplnene' xml soubory//|-|-|//dodat df verzi morf. anal. pro cd//|//dodat tutorial k Bonito//|-|-|
 +^ Jirka M.      |kontrola morf. anotaci|-|//do 20. cervna odevzdat 'naplnene' xml soubory; seznamit se s kontrolnimi PDT 2.0 skripty; **18.6. 8:30 schuzka o datech**//|-|-|//dodat df. verzi Netgraph//|//dodat tutorial k Netgraph//|-|-|
 +^ Kiril      |prubezne priprava dat pro anotatory|//vymyslet strategii pro porovnani souboru od anotatoru//|//makra do TrEd;// **18.6. 8:30 schuzka o datech**|-|-|//dodat df verzi parseru pro cd//|-|-|-|
 +^ Honza R.     |//do **23.4.** pripravit xml soubory pro jednotlive casti Pruvodce//|-|-|//1. verze Pruvodce//|-|//dodat df verzi taggeru pro cd//|-|-|-|
 +^ Pavel Q.     |-|-|-|-|-|dodat morfologii pro Bonito|-|-|-|
 +^ Ondra B.      |-|-|-|-|-|-|-|1. verze instalatoru|-|
 +^ Michal K.     |-|-|-|-|-|-|//tool_chain//|-|-|
 +^ Michal S.     |-|-|-|-|-|//dodat designove podklady//|-|-|-|
 +^ Ondrej K.     |-|-|-|-|-|dodat df verzi STYX pro cd|dodat tutorial k STYX|-|-|
 +^ Leos Prikryl     |-|-|-|-|-|-|//dodat df. verzi TrEdVoice (ve spolupraci s Plzni)//|//dodat tutorial k TrEdVoice//|
 +
 +====== POKYNY ======
 +
 +===== Pruvodce =====
 +
 +Vsechny potrebne soubory jsou ''~/raab/cac-guide''. Protoze nektere odstavce budou totozne s odstavci z Pruvodce CAK 1.0, realizujte 'cut'n paste' ze souboru z adresare cac1/.
 +
 +
 +        cac1/ - finalni verze CAC 1.0
 +        upload/ - oblibeny adresar pro zapis zmenenych souboru
 +        pdf/ - aktualni pdf verze
 +
 +
 +===== Dokumentace k nastrojum =====
 +
 +Adresar nastroje bude mit nasledujici strukturu
 +   * docs/               # uzivatelska dokumentace, instalacni pokyny - cesky I anglicky
 +   * README_{CZ|EN}.txt  # cesky a anglicky 'hruba' dokumentace
 +   * instalacni balicek/balicky
 +
 +Viz napr. /net/projects/REST/data/CAC/cac10/tools/LAW
 +
 +
 +
 +===== Tutorialy =====
 +
 +K nastrojum s grafickym rozhranim, tedy
 +   * Bonito
 +   * LAW
 +   * TrEd
 +   * Netgraph
 +   * Styx
 +      * [[http://www.bbsoftware.co.uk/BBFlashBackExpress.aspx|BB FlashBack Express]] - viz [[http://ufal.mff.cuni.cz/styx/styx_demo.html|demo_1]]
 +      * [[http://www.debugmode.com/wink/|Wink software]] - viz [[http://ufal.mff.cuni.cz/~hladka/styx_wink.htm|demo_2]]
 +
 +Pro demo_1 k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pak jsem nasla program Wink, ktery existuje jak pod Win, tak pod Linux - coz je pro nas dulezite. Vyzkousela jsem a vzniklo demo_2. Podivejte se na ne, prosim. 
 +
 +Smysluplnost tutorialu ODSOUHLASENA.
 +
 +V Pruvodci CAC 2.0 bude rovnez odkaz na [[http://ufallab.ms.mff.cuni.cz/video/categoryshow/index/2|PDT tutorial]] z lonskeho listopadu
 +
 +
 +
 +====== PRACE NA DATECH podrobne ======
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +===== Pro anotatory =====
 +  * ** Textove materialy k anotaci**
 +      * **[[http://ufal.mff.cuni.cz/~hladka/CAC20/AnalAnnotCAC_07.pdf|Pokyny pro anotaci (23/6/2007)]]** (CTI ME - shrnuti vsech podstatnych informaci)
 +      * [[http://ufal.mff.cuni.cz/~hladka/CAC20/pdt-vallex-3col.zip|Valencni slovnik]] z PDT (a k němu {{user:hladka:pouzitipdtvallexu.pdf|manuál k používání pro analytickou anotaci}})
 +      * [[http://ufal.mff.cuni.cz/~hladka/CAC20/poznamky_od_AB.pdf|Postrehy]] z kontroly dvojite anotace textu
 +        * Jan Štěpánek: [[:cak:poznamky|poznámky]]
 +      * [[http://ufal.mff.cuni.cz/~hladka/CAC20/makra_CAK.pdf|Prehled maker]] kontextu PML_CAC_A_Edit editoru TrEd
 +      * [[http://ufal.mff.cuni.cz/~hladka/CAC20/Breakfast_CAC.pdf|Slajdy]] ze snidane 18/6/2007(trochu vice povidani o s. anotaci CAK)
 +      * [[http://ufal.mff.cuni.cz/~hladka/CAC20/Breakfast_CAC_druha.pdf|Slajdy]] ze snidane 25/6/2007(informacni schuzka se zajemci o anotovani)
 +   * **[[http://ufal.mff.cuni.cz/~hladka/CAC20/CAC2.0_files.html|Prehled zpracovani souboru]]**
 +   * **Mezianotatorska shoda v cislech**
 +      * [[http://ufal.mff.cuni.cz/~hladka/CAC20/anotatorska_ shoda_zahrivaci_kolo.pdf|zahrivaci kolo]]
 +      * [[http://ufal.mff.cuni.cz/~hladka/CAC20/anotatorska_shoda_s03-s10_Slovensko.pdf|s3-s10]]
 +
 +   * **TrEd - instalace pod systémem Windows a základní instrukce**
 +      * TrEd je ke stažení ve standardní distribuci (platné i pro anotaci CAC) na jeho "domácích stránkách" na [[http://ufal.mff.cuni.cz/~pajas/tred|http://ufal.mff.cuni.cz/~pajas/tred]]. 
 +      * Rychlý návod k instalaci (pro "offline" použití; pro anotátory ze SNK instaluje TrEd Radovan jinak):
 +         * Z výše uvedené stránky stáhněte na svůj notebook soubor ''tred_wininst_en.zip''.
 +         * Rozbalte jej kdekoliv; dostanete adresář ''tred_wininst_en''.
 +         * V tomto adresáři spusťte soubor ''setup.bat''. Pozor, v adresáři je několik podobně pojmenovaných ''.bat'' souborů - vy spusťte tento základní.
 +         * Na všechny otázky odpovězte yes (y), nebo tak, aby instalace pokračovala, a nechte pro všechno, co vám instalační program nabízí, defaultní hodnoty.
 +         * Po dokončení instalace spusťte TrEd (pomocí ikony na ploše). Ověřte (Help->About), že se jedná o verzi nejméně 1.3050 nebo vyšší.
 +         * Po ověření verze si nastavte tzv. ''stylesheet'', tj. to, co všechno se vám při anotaci zobrazí. Při všech dalších spuštění TrEd se bude zobrazovat to, co jste si nastavili. Zkušenosti říkají, že stačí u uzlu zobrazit slovo a analytickou funkci. Z menu ''View -> Edit Stylesheet'', pravou část okna smažte a vložte následující, které potvrďte ''ok'':
 +   ''context:  .*
 +   hint: 
 +   text:<? $${m/w/token}eq$${m/form} ? 
 +     '#{'.CustomColor('sentence').'}${m/w/token}'
 +     '#{-over:1}#{'.CustomColor('spell').'}['.
 +        join(" ",map { $_->{token} } ListV($this->attr('m/w'))).
 +     ']#{-over:0}#{'.CustomColor('sentence').'}${m/form}' ?>
 +   node:<? $${afun} eq "AuxS" ? '${id}' : '${m/form}' ?>
 +   node:<?$${afun}?>''
 +      * Rychlý návod ke spuštění TrEdu a anotaci (otevření souboru a nastavení prostředí, anotace)
 +         * Spusťte TrEd, a pomocí ''Open'' (nebo z ''Recent Files'') otevřete příslušný ''.a'' soubor.
 +         * Nastavte "kontext" (vpravo nahoře) ''PML_CAC_A_Edit''.
 +         * Používejte makra z ''PML_CAC_A_Edit'' (''User-defined -> PML_CAC_A_Edit'', příp. ''More'') a dále smíte používat ''Open'', ''Save'', ''Save As'' z hlavního menu ''File'', a všechny další funkce, které slouží k "prohlížení" souboru(ů) - například posouvání po větách, přímý skok na větu s daným pořadovým číslem (tj. různá ''GoTo''...), vyhledávání v souboru pomocí F3/F4 apod. **NIKDY** ale nepoužívejte jakékoli funkce, které mění strom nebo hodnoty atributů z menu ''Node'', ani z maker ''Tred_Macro'' nebo jiných maker a kontextů.
 +         * První uložení souboru po jeho prvním otevření a zahájení jeho anotace
 +            * Soubor se ukládá pomocí ''Save As'' (menu ''File''), pak zvolte ''"Current"'' v okně pro volbu formátu. 
 +            * Soubor uložte pod původním jménem s přidaným podtržítkem a iniciálami vašeho jména; postup: zvolte původní soubor s koncovkou ''.a'' v nabízeném seznamu, a přidejte mu před ''.a'' ješte ''_JP'' (''J'' - inicála jména, ''P'' - iniciála příjmení).
 +            * Po odsouhlasení jména na vás vyskočí okno ''"Select resources to save"''. Klikněte na první řádek (soubor s příponou ''.m'') - měl by se vysvítit. Pak zvolte tlačítko ''"Change Filename"'', a rovněž u tohoto souboru připište k jeho jménu ''"_JP"'' (těsně před příponu ''.m'', obdobně jako u ''.a'' souboru). Po odsouhlasení zkontrolujte, že v okně ''"Select resources to save"'' je jméno správně upravené (s tím ''_JP''). Odsouhlaste uložení tlačítkem ''"OK"''.
 +         * Další otevření a uložení částečně anotovaného nebo dodatečně opravovaného souboru
 +            * Pro druhé a další otevření téhož souboru pro provádění další anotace nebo jakýchkoli jiných změn použijte soubor s modifikovaným jménem (''...._JP.a'').
 +            * Pro jeho uložení po provedení změn použijte ''File -> Save'' (F2). 
 +            * V okne ''"Select resources to save"'' klikněte na první řádek (mělo by v něm být jméno už rovněž modifikované, s ''_JP.m'' na konci). Hned poté odsouhlaste uložení pomocí tlačítka ''"OK"'' (tedy není nutno znovu měnit jméno souboru pomocí ''Change Filename'').
 + 
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +===== Interni adresarova struktura =====
 +   * 18.6. 8:30 schuzka o datech
 +      * Vytvoření adresářové struktury v ''/net/projects/REST/data/CAC/work_CAC20/data'' s dále uvedenými podadresáři.
 +      * Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře (aktualizováno po schůzce 24.9.2007):
 +         * ''00_actual'' - aktuální .w a .m data celého korpusu (Jiří Mírovský)
 +         * &nbsp; &nbsp; odtud bude brát Kiril data a pouštět na ně parser
 +         * ''01_MST_Parsed'' - sem umístí Kiril vždy nově zparsovaný korpus (kdykoliv ho bude nově parsovat), do podadresáře pojmenovaného podle data (Kiril Ribarov)
 +         * &nbsp; &nbsp; odtud si bude Jirka brát data a pustí na ně automatické kontrolní skripty
 +         * ''02_auto_check_A'' - první fáze automatických kontrol (Jiří Mírovský)
 +         * &nbsp; &nbsp; odtud bude Bára brát data a rozdělovat práci anotátorkám
 +         * ''03_2annotations'' - anotace souborů jednotlivými anotátorkami (Kiril Ribarov)
 +         * &nbsp; &nbsp; data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné
 +         * ''04_comparison'' - porovnání a slití souborů do jedné verze (Kiril Ribarov)
 +         * &nbsp; &nbsp; odtud si vezme data Jirka a znovu na ně spustí kontrolní skripty
 +         * ''05_auto_check_B'' - druhá fáze automatických kontrol (Jiří Mírovský)
 +         * &nbsp; &nbsp; odtud vezme data Kiril a dá je paní Bémové ke kontrole
 +         * ''06_manual_check'' - sem dá Kiril data poté, co jsou zkontrolována paní Bémovou (Kiril Ribarov)
 +         * &nbsp; &nbsp; odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; vezme si odtud data a znovu na ně spustí kontrolní skripty
 +         * ''07_auto_check_C'' - třetí fáze automatických kontrol; analytická rovina se považuje už za správnou, Jirka ručně opraví morfologii (Jiří Mírovský)
 +         * &nbsp; &nbsp; odtud dá Jirka data do následujícího adresáře, je hotovo
 +         * ''08_finished'' - tady budou hotová data, tedy ta část korpusu, která je již hotová; hotová .w a .m data se budou kopírovat rovněž do adresáře ''00_actual'', aby se odtud v případě potřeby mohla brát (.w by se měnit nemělo) (Jiří Mírovský, Kiril Ribarov)
 +         * ''_schemas'' - aktuální PML-schémata potřebná k otevření souborů ve výše uvedených adresářích          
 +   * Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim
 +      * Jirka Mirovsky
 +      * brat a-soubory z adresare ''net/projects/rest/data/CAC/atrees/MST2/odAlly'' (popis viz nize)
 +      * k 3/6 umisteny souborty ''s11-s16''
 +   * Priprava dat k dvojite rucni syntakticke anotaci
 +      * Kiril - zpracovani dat MST parserem
 +      * podpora v TrEdu pro snadnejsi anotaci: pro anotovani PDT 1.0 byla v TrEd nabizena makra pro prijemnejsi anotaci. Tato makra byla napsana pro format fs a jeste pro koncepci PDT 1.0, ktera se v nekterych ohledech lisi od te v PDT 2.0 (napr. viz koordinace). Kdyz se v soucasne distribuci TrEd nastavi kontext Analytic, tak ten nabizi prave zminena makra. ''12/6/2007 
 +Kirile,
 +tady preposilam soubor PML_A_Edit.mak a k nemu prilohu od Katky. Radovan jim tato makra udelal primo do PML_A_Edit, coz neni dobre, protoze tim padem my a oni mame jiny PML_A_Edit. Je potreba to udelat "spravne" (tj.v  duchu PML schemat) - nechat PML_A_Edit byt, a udelat novy (napr. pojmenovany PML_CAC_A_Edit), ktery "includuje" vsechna makra z PML_A_Edit, a ty specificka pro
 +anotaci CAC (vc. afunu, koordinaci apod.) prida prave do nej. Myslim, ze taky bude dobre, aby cesti anotatori a slovaci meli ted vsechno stejne - takze az to budes mit, posli to prosim zpet
 +Radovanovi at jim to nainstaluje. Jinak jsem dnes odpodival na nekolik dotazu ohledne 2. kola;
 +myslim, ze nejdulezitejsi je, abys jim poslal doplnene pokyny o tom, co smeji a nesmeji pouzivat.
 +Diky, Honza ''
 +    * Rucni kontrola syntaktickych anotaci
 +      * data po rucni anotaci v adresari ''net/projects/rest/data/CAC/atrees/MST2/odAnotatoru''
 +      * Kiril - do TrEdu udelatka pro pohodlnejsi kontrolu diskrepanci
 +      * Alla - resit diskrepance anotatoru
 +      * data po Alline kontrole v adresari ''net/projects/rest/data/CAC/atrees/MST2/odAlly''
 +   * Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci
 +      * **Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v ''net/projects/rest/data/CAC/atrees/MST2/odAlly''), protoze pokud by se zjistilo, ze je nutno neco doimplementovat, tak aby na to byl cas.  Dulezite poznamky uvadej zde.** 
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +
 +===== Soubory - prehled JIZ zpracovanych v danem kole ===== 
 +^ jmeno souboru    1. kolo (''03_2annotations''      2. kolo (''06_manual_check''         ^ 
 +| a01w    |   ab    ab     
 +| a02w    |   ab    ab     
 +| a03w    |   ab    ab     
 +| a04w    |   kk    zu    | 
 +| a05w    |   mz    ab    | 
 +| a06w    |   kg    ab     
 +| a07w    |   mz    ab    | 
 +| a08w    |   kk    zu     
 +| a09w    |   kg    ab     
 +| a10w    |   kk    zu     
 +| a11w    |   mz    ab    | 
 +| a12w    |   kg    ab     
 +| a13w    |   kk    zu     
 +| a14w    |   mz    ab    | 
 +| a15w    |   kg    ab     
 +| a16s    |    |        | 
 +| a17s    |    |       
 +| a18s    |    |      | 
 +| a19s    |      |        | 
 +| a20w    |   kg     zu     
 +
 +^ jmeno souboru    1. kolo (''03_2annotations''     ^   2. kolo (''06_manual_check''         ^ 
 +| n01w    |  ab    ab     
 +| n02w    |  ab    ab     
 +| n03w    |  ik    ab       
 +| n04w    |  ik    ab     
 +| n05w    |  ik    ab      | 
 +| n06w    |  ik    ab    | 
 +| n07w    |  ik    ab     
 +| n08w    |  ik    ab    | 
 +| n09w    |  ik    ab      | 
 +| n10w    |  ik    ab      | 
 +| n11w    |  ik    ab      | 
 +| n12w    |  ik    ab      | 
 +| n13w    |  ik    ab     
 +| n14w    |  ik    ab      | 
 +| n15w    |  ik    ab      | 
 +| n16w    |  ik    ab      | 
 +| n17w    |  ik    ab    | 
 +| n18w    |  ik    ab   
 +| n19w    |  ik    ab    | 
 +| n20w    |  ik    ab     
 +| n21w    |  ik    ab   
 +| n22w    |  ik    ab    | 
 +| n23w    |  ik    ab    | 
 +| n24w    |  ik    ab    | 
 +| n25w    |  ik    ab      | 
 +| n26w    |  ik    ab    | 
 +| n27w    |  ik    ab     
 +| n28w    |  ik    ab   
 +| n29w    |  ik    ab      | 
 +| n30w    |  ik    ab      | 
 +| n31w    |  ik    ab      | 
 +| n32w    |  ik    zu      | 
 +| n33w    |  ik    zu     
 +| n34w    |  ik  |   zu     
 +| n35w    |  ik  |   zu     
 +| n36w    |  ik  |   ab     
 +| n37w    |  ik  |   ab    | 
 +| n38w    |  ik  |   ab   
 +| n39w    |  ik  |   ab     
 +| n40w    |  ik  |   ab      | 
 +| n41w    |  ik  |   ab      | 
 +| n42w    |  ik  |   ab    | 
 +| n43w    |  ik  |   ab    | 
 +| n44w    |  kk  |   zu   
 +| n45w    |  kg  |   zu   
 +| n46w    |  mz  |   zu 
 +| n47w    |  kk  |   zu   
 +| n48w    |  kg  |   ab   
 +| n49w    |  mz  |   zu 
 +| n50w    |  mz  |   ab   
 +| n51w    |  mz  |   zu    | 
 +| n52w     kg  |   ab     
 +| n53s      |       
 +| n54s              | 
 +| n55s    |    |        | 
 +| n56s    |    |        | 
 +| n57s      |       
 +| n58s      |      | 
 +| n59s              | 
 +| n60s        |        | 
 +
 +^ jmeno souboru    1. kolo (''03_2annotations''     ^   2. kolo (''06_manual_check''         ^ 
 +| s00s    |               |
 +| s01w    |  ab    ab     
 +| s02w    |  ab    ab     
 +| s03w    |  kg,kk    ab       
 +| s04w    |  kg,kk    ab     
 +| s05w    |  kg,kk    ab      | 
 +| s06w    |  kg,kk    ab    | 
 +| s07w    |  kg,kk    ab     
 +| s08w    |  kg,kk    ab    | 
 +| s09w    |  kg,kk    ab      | 
 +| s10w    |  kg,kk    ab      | 
 +| s11w    |  ab    ab      | 
 +| s12w    |  ab    ab      | 
 +| s13w    |  ab    ab     
 +| s14w    |  ab    ab    | 
 +| s15w    |  ab    ab   
 +| s16w    |  ab    ab   
 +| s17w    |  sk    ab    | 
 +| s18w    |  sk    ab    | 
 +| s19w    |  sk    ab      | 
 +| s20w    |  sk    ab      | 
 +| s21w    |  sk    ab     
 +| s22w    |  sk    ab     
 +| s23w    |  sk    ab     
 +| s24w    |  sk    ab     
 +| s25w    |  sk    ab     
 +| s26w    |  sk    ab    | 
 +| s27w    |  sk    ab     
 +| s28w    |  sk    ab    | 
 +| s29w    |  sk    ab      | 
 +| s30w    |  sk    ab      | 
 +| s31w    |  kk,kg |   ab     
 +| s32w    |  kk,mz |   ab     
 +| s33w    |  kk,mz |   ab    | 
 +| s34w    |  kk,kg |   ab     
 +| s35w    |  kg,mz |   ab     
 +| s36w    |  kk,mz |   ab     
 +| s37w    |  kk,kg |   ab    | 
 +| s38w    |  kg,mz |   ab   
 +| s39w    |  kk,mz |   ab    | 
 +| s40w    |  kk,kg |   ab     
 +| s41w    |  kk    |   ab    | 
 +| s42w    |  kk    |   ab    | 
 +| s43w    |  kk    |   ab     
 +| s44w    |  kk    |   ab    | 
 +| s45w    |  kk    |   ab     
 +| s46w    |  mz    |  zu    | 
 +| s47w    |  mz    |  zu    | 
 +| s48w    |  mz    |  zu    | 
 +| s49w    |  mz    |  zu    | 
 +| s50w    |  mz    |  zu    | 
 +| s51w    |  kg  |    ab    | 
 +| s52w    |  kg     ab     
 +| s53w    |  kg  |    ab   
 +| s54w    |  kg     ab     
 +| s55w    |  kg     ab     
 +| s56w    |  kk     ab     
 +| s57w    |  kk     ab    | 
 +| s58w    |  kk     ab   
 +| s59w    |  kk     ab     
 +| s60w    |  kk     ab     
 +| s61w    |  mz     zu    | 
 +| s62w    |  mz     zu    | 
 +| s63w    |  mz     zu    | 
 +| s64w    |  mz     zu    | 
 +| s65w    |  mz     zu    | 
 +| s66w    |  mz     zu    | 
 +| s67w    |  mz     zu    | 
 +| s68w    |  mz     zu    | 
 +| s69s    |  mz     zu    | 
 +| s70s    |  mz     zu     
 +| s71s    |  kk     zu    | 
 +| s72s    |  kk     zu    | 
 +| s73s    |  kk     zu    | 
 +| s74s    |  kk          | 
 +| s75s    |  kk          | 
 +| s76s    |  kk     zu    | 
 +| s77s    |   kk |       
 +| s78s    |  kk  |      | 
 +| s79s     kk  |        | 
 +| s80s     kk          | 
 +| s81s    |  kg    |       
 +| s82s    |  mz    |       
 +| s83s    |  mz    |       
 +| s84s           
 +| s85s    |  kg  |        | 
 +| s86s    |  |      | 
 +| s87s             
 +| s88s      |      | 
 +| s89s    mz          | 
 +| s90s    |  |        | 
 +| s91s    |    |        | 
 +| s92s              | 
 +| s93s    mz  |       
 +| s94s    mz          | 
 +| s95s    |    |        | 
 +| s96s    |    |        | 
 +| s97s      |       
 +| s98s    kk  |      | 
 +| s99s    mz          | 
 +
 +
 +
 +
 +====== KONTAKTY ======
 +   * Alla Bemova (''bemova@ufal.mff.cuni.cz'', kontrola anotaci)
 +   * Katarina Gajdosova (''katarinag@korpus.juls.savba.sk'', sk, anotatorka)
 +   * Jan Hajic (''hajic@ufal.mff.cuni.cz'')
 +   * Barbora Hladka (''hladka@ufal.mff.cuni.cz'')
 +   * Katarína Kandračová (sk, )
 +   * Jirka Mirovsky (''mirovsky@ufal.mff.cuni.cz'')
 +   * Kiril Ribarov (''ribarov@ufal.mff.cuni.cz'', TrEd)
 +   * Zdenka Uresova (''uresova@ufal.mff.cuni.cz'', kontrola anotaci)
 +   * MZ
 + 
 +   

[ Back to the navigation ] [ Back to the content ]