Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:smerem-k-cak-2.0 [2007/09/19 14:43] hladka |
user:hladka:smerem-k-cak-2.0 [2007/10/02 20:51] hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== CAK 2.0 ====== | ====== CAK 2.0 ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 23: | Line 34: | ||
===== Aktuality ====== | ===== Aktuality ====== | ||
- | * **24/9/07 v 9:00 schuzka k CAK 2.0** - PROGRAM | + | * **24/9/07 v 9:00 schuzka k CAK 2.0. chodba ve 4. patre zapadniho kridla** - body pgmu, ktere jsme probrali, jsem presunula na patricna mista wiki dokumentace |
* CAK 1.0 | * CAK 1.0 | ||
- | * //Jak se vam libi Pruvodce CAK 1.0?// | + | * Rozesilani Pruvodce - Zatim jsem koupila |
- | * Rozesilani Pruvodce - // | + | |
* Pruvodce CAK 2.0 | * Pruvodce CAK 2.0 | ||
- | * aktualni verze: [[http:// | + | * aktualni verze: [[http:// |
- | * Zatavene listy nebudou. | + | * //Zatim neni nutne cist Pruvodce jako celek. Jeste udelame jedno kolo zmen/doplnku/..., // |
- | * Moje poznamky k jednotlivym obsahovym castem viz nize v casti ' | + | * //Podivejte se na barvy.// |
- | * CD-ROM CAK 2.0 | + | * **19/7/07** |
- | | + | |
- | * //Bude samostatny tokenizer?// | + | |
- | * //Bude ' | + | |
- | * tool_chain. //S jakymi prepinaci? Prvotni navrh viz | + | |
- | | + | |
- | * Spusti-li se Bonito, automaticky se otevre CAK. //Neco podobneho s TrEd. // | + | |
- | * Instalace. //Jake balicky? Kontrola [[http:// | + | |
- | * TrEdVoice. //Kam? Proberu s Leosem Prikrylem.// | + | |
- | | + | |
* Pruvodce CAK 1.0 vysel (viz [[http:// | * Pruvodce CAK 1.0 vysel (viz [[http:// | ||
* podepsana smlouva mezi UK MFF a LDC | * podepsana smlouva mezi UK MFF a LDC | ||
Line 52: | Line 53: | ||
* dohoda UK MFF <-> LDC PODEPSANA | * dohoda UK MFF <-> LDC PODEPSANA | ||
* dohoda UK MFF <-> UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi | * dohoda UK MFF <-> UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== CD ROM ===== | ===== CD ROM ===== | ||
+ | Adresar ''/ | ||
* bonus-tracks/ | * bonus-tracks/ | ||
* STYX/ | * STYX/ | ||
- | * TrEdVoice/ | + | * TrEdVoice/ ## //Kam presne prijde TrEdVoice? K TrEd? // |
* data/ | * data/ | ||
- | * format: PML | + | * format: PML ## // I ve formatu csts. V Pruvodci se jasne rekne proc a jake vyhody jsou csts vs. pml a naopak.// |
* tools/ | * tools/ | ||
* Bonito/ | * Bonito/ | ||
* LAW/ | * LAW/ | ||
- | * TrEd/ | + | * TrEd/ ## // Filelist se seznamem 180 souboru CAK 2.0 // |
- | * Netgraph/ | + | * Netgraph/ |
* tool_chain/ | * tool_chain/ | ||
- | * tokenizer/ | + | * tokenizer/ ## // To se jeste musi poradne rozmyslet.// |
- | * morphology/ | + | * morphology/ ## // " |
* tagger/ | * tagger/ | ||
- | * parser/ | + | * parser/ ## //Mozne problemy - velikost natrenovaneho modulu, vypocetni a pametove naroky. (KR)// |
* tool_chain | * tool_chain | ||
* tutorials/ | * tutorials/ | ||
- | |||
Line 84: | Line 92: | ||
- Zdroje textu | - Zdroje textu | ||
- Roviny anotace | - Roviny anotace | ||
- | * //Doplnit info o a-rovine. (BH) // | ||
- Vyvoj projektu | - Vyvoj projektu | ||
- | - CAK 1.0 //Doplnit. (BH)// | + | - CAK 1.0 |
- Na ceste k CAK 2.0 | - Na ceste k CAK 2.0 | ||
+ | * // Tabulka 2.2 - upravy (ktere BH, realizace JR)// | ||
* // Doplnit popis pilotni studie (KR)// | * // Doplnit popis pilotni studie (KR)// | ||
- | * // Jake dalsi morf. kontroly se delaly, upozornit na guessed-form. // | + | * // Jake dalsi morf. kontroly se delaly, upozornit na guessed-form. |
+ | * //Doplnit logistiku syntaktickych kontrol. (KR, JM)// | ||
- Kvantitativni udaje | - Kvantitativni udaje | ||
- CD-ROM Cesky akademicky korpus 2.0 | - CD-ROM Cesky akademicky korpus 2.0 | ||
Line 96: | Line 105: | ||
* //Ohlidat info o tokenizaci.// | * //Ohlidat info o tokenizaci.// | ||
- Data (**Jirka M., data.xml**) | - Data (**Jirka M., data.xml**) | ||
- | - Format dat | + | - Format dat //Doplnit csts. Strucny popis, Plusy a minusy csts a pml. (JM)// |
- Konvence pojmenovani souboru | - Konvence pojmenovani souboru | ||
- Velikost dat | - Velikost dat | ||
- | - Nastroje | + | - Nastroje |
- Bonito (**Jarka, nastroje-bonito.xml**) | - Bonito (**Jarka, nastroje-bonito.xml**) | ||
* //Doplnit dotazy na linearni vyhledavani ve stromove strukture.// | * //Doplnit dotazy na linearni vyhledavani ve stromove strukture.// | ||
Line 109: | Line 118: | ||
* //Doplnit (BH) // | * //Doplnit (BH) // | ||
- Netgraph (**Jirka M., nastroje-netgraph.xml**) | - Netgraph (**Jirka M., nastroje-netgraph.xml**) | ||
- | * //Jaky je spravny | + | * Spravny |
* // Dodat obrazky se stromy z CAK.// | * // Dodat obrazky se stromy z CAK.// | ||
* // Nekde v uvodu odstavce doplnit jak se ma Netgraph k TrEd.// | * // Nekde v uvodu odstavce doplnit jak se ma Netgraph k TrEd.// | ||
- Automaticke zpracovani textu (**BH, KR o parseru, nastroje-zprac.xml**) | - Automaticke zpracovani textu (**BH, KR o parseru, nastroje-zprac.xml**) | ||
- | * // Doplnit odstavec o tokenizaci, pokud tam bude. // | + | * // Doplnit odstavec o tokenizaci, pokud tam bude.// |
- | * // Aktualizovat procenta uspesnosti u taggeru. // | + | * // Aktualizovat procenta uspesnosti u taggeru.// |
- | * // Specifikovat na jakych datech PZK 2.0 byl tagger trenovan. // | + | * // Specifikovat na jakych datech PZK 2.0 byl tagger trenovan.// |
- | | + | * // Doplnit odstavec o parsingu (uspesnost, trenovaci data).// |
- | * // Popsat prepinace u tool_chain | + | * // Popsat prepinace u tool_chain// |
- Bonusovy material (**bonus.xml**) | - Bonusovy material (**bonus.xml**) | ||
- | * //Doplnit ilustracni obrazek, neco vice k rozpoznavaci, | + | * //Doplnit ilustracni obrazek, neco vice k rozpoznavaci, |
- Tutorialy (**BH, tutorialy.xml**) | - Tutorialy (**BH, tutorialy.xml**) | ||
- Instalace (**BH, instalace.xml**) | - Instalace (**BH, instalace.xml**) | ||
- | * // | + | - Distribuce a licence (**BH, TBA.xml**) |
+ | * // | ||
- Osobnosti v projektu (**BH, osobnosti.xml**) | - Osobnosti v projektu (**BH, osobnosti.xml**) | ||
- Podekovani (**BH, podekovani.xml**) | - Podekovani (**BH, podekovani.xml**) | ||
Line 212: | Line 222: | ||
* technicky editor pruvodce | * technicky editor pruvodce | ||
+ | |||
+ | |||
+ | |||
====== KALENDAR ====== | ====== KALENDAR ====== | ||
Line 229: | Line 242: | ||
^ Pavel Q. | ^ Pavel Q. | ||
^ Ondra B. |-|-|-|-|-|-|-|1. verze instalatoru|-| | ^ Ondra B. |-|-|-|-|-|-|-|1. verze instalatoru|-| | ||
- | ^ Michal K. | + | ^ Michal K. |
^ Michal S. | ^ Michal S. | ||
^ Ondrej K. | ^ Ondrej K. | ||
Line 253: | Line 266: | ||
Viz napr. / | Viz napr. / | ||
+ | |||
===== Tutorialy ===== | ===== Tutorialy ===== | ||
Line 267: | Line 281: | ||
Pro demo_1 k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pak jsem nasla program Wink, ktery existuje jak pod Win, tak pod Linux - coz je pro nas dulezite. Vyzkousela jsem a vzniklo demo_2. Podivejte se na ne, prosim. | Pro demo_1 k STYX jsem pouzila BB FlashBack Express, ktery bylo mozne ziskat zdarma. K tomu, aby se primo do tutorialu daly vkladat poznamky, tak bude potreba koupit BB FlashBack. Pak jsem nasla program Wink, ktery existuje jak pod Win, tak pod Linux - coz je pro nas dulezite. Vyzkousela jsem a vzniklo demo_2. Podivejte se na ne, prosim. | ||
- | Smysluplnost tutorialu ODSOUHLASENA. | + | Smysluplnost tutorialu ODSOUHLASENA. |
V Pruvodci CAC 2.0 bude rovnez odkaz na [[http:// | V Pruvodci CAC 2.0 bude rovnez odkaz na [[http:// | ||
+ | |||
+ | |||
====== PRACE NA DATECH podrobne ====== | ====== PRACE NA DATECH podrobne ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== Pro anotatory ===== | ===== Pro anotatory ===== | ||
Line 316: | Line 337: | ||
* V okne ''" | * V okne ''" | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== Interni adresarova struktura ===== | ===== Interni adresarova struktura ===== | ||
- | * 18.6. 8:30 schuzka o datech; výsledek schůzky: | + | * 18.6. 8:30 schuzka o datech |
* Vytvoření adresářové struktury v ''/ | * Vytvoření adresářové struktury v ''/ | ||
- | * Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře: | + | * Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře |
- | * '' | + | * '' |
- | * odtud bude brát Kiril data a rozdělovat práci anotátorkám | + | * odtud bude brát Kiril data a pouštět na ně parser |
- | * '' | + | * '' |
- | * odtud si bude Jirka brát data a pustí na ně první sadu " | + | * odtud si bude Jirka brát data a pustí na ně automatické kontrolní skripty |
* '' | * '' | ||
+ | * odtud bude Bára brát data a rozdělovat práci anotátorkám | ||
+ | * '' | ||
* data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné | * data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné | ||
- | * '' | + | * '' |
- | * takto slitá data dá Kiril paní Bémové ke kontrole | + | * & |
- | * '' | + | |
- | * na ručně prošlá data se pustí další, již méně spolehlivé skripty, které jen upozorňují na podezřelá místa; případně i stopro | + | |
* '' | * '' | ||
- | * & | + | * & |
- | * '' | + | * '' |
- | * odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; | + | * odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; |
- | * '' | + | * '' |
- | + | * odtud dá Jirka data do následujícího adresáře, je hotovo | |
- | * Polo-automaticka kontrola morfologickych anotaci | + | * '' |
- | * Jirka Mirovsky | + | * '' |
- | * na kontrolach m-souboru pracuje lokalne u sebe | + | |
* Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim | * Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim | ||
* Jirka Mirovsky | * Jirka Mirovsky | ||
Line 360: | Line 395: | ||
* Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci | * Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci | ||
* **Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v '' | * **Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v '' | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Soubory - prehled zpracovani ===== | ||
+ | ^ jmeno souboru | ||
+ | | a01w | | ||
+ | | a02w | ab | ab | ||
+ | | a03w | ||
+ | | a04w | ||
+ | | a05w | | | | ||
+ | | a06w | | | | ||
+ | | a07w | ||
+ | | a08w | ||
+ | | a09w | ||
+ | | a10w | | | | ||
+ | | a11w | | | | ||
+ | | a12w | ||
+ | | a13w | ||
+ | | a14w | ||
+ | | a15w | | | | ||
+ | | a16s | | | | ||
+ | | a17s | ||
+ | | a18s | ||
+ | | a19s | ||
+ | | a20w | ||
+ | |||
+ | ^ jmeno souboru | ||
+ | | n01w | ab | ||
+ | | n02w | ab | ||
+ | | n03w | ik | ||
+ | | n04w | ik | ||
+ | | n05w | ik | ||
+ | | n06w | ik | ||
+ | | n07w | ik | ||
+ | | n08w | ik | ||
+ | | n09w | ik | ||
+ | | n10w | ik | ||
+ | | n11w | ik | ||
+ | | n12w | ik | ||
+ | | n13w | | ||
+ | | n14w | | ||
+ | | n15w | | | | ||
+ | | n16w | | | | ||
+ | | n17w | ||
+ | | n18w | ||
+ | | n19w | ||
+ | | n20w | ||
+ | | n21w | | ||
+ | | n22w | | ||
+ | | n23w | | ||
+ | | n24w | ||
+ | | n25w | | | | ||
+ | | n26w | | | | ||
+ | | n27w | ||
+ | | n28w | ||
+ | | n29w | ||
+ | | n30w | | | | ||
+ | | n31w | | | | ||
+ | | n32w | ||
+ | | n33w | ||
+ | | n34w | ||
+ | | n35w | | | | ||
+ | | n36w | | | | ||
+ | | n37w | ||
+ | | n38w | ||
+ | | n39w | ||
+ | | n40w | ||
+ | | n41w | | | ||
+ | | n42w | | | ||
+ | | n43w | ||
+ | | n44w | ||
+ | | n45w | | | | ||
+ | | n46w | | | | ||
+ | | n47w | ||
+ | | n48w | ||
+ | | n49w | ||
+ | | n50w | | | | ||
+ | | n51w | | | | ||
+ | | n52w | ||
+ | | n53s | ||
+ | | n54s | ||
+ | | n55s | | | | ||
+ | | n56s | | | | ||
+ | | n57s | ||
+ | | n58s | ||
+ | | n59s | ||
+ | | n60s | ||
+ | |||
====== KONTAKTY ====== | ====== KONTAKTY ====== |