Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:smerem-k-cak-2.0 [2007/09/21 12:00] hladka |
user:hladka:smerem-k-cak-2.0 [2007/11/06 13:01] hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== CAK 2.0 ====== | ====== CAK 2.0 ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 29: | Line 34: | ||
===== Aktuality ====== | ===== Aktuality ====== | ||
- | * **24/9/07 v 9:00 schuzka k CAK 2.0** - PROGRAM (Sepsala BH) | + | * **24/9/07 v 9:00 schuzka k CAK 2.0. chodba ve 4. patre zapadniho kridla** - body pgmu, ktere jsme probrali, jsem presunula na patricna mista wiki dokumentace |
* CAK 1.0 | * CAK 1.0 | ||
- | * //Jak se vam libi Pruvodce CAK 1.0?// | + | * Rozesilani Pruvodce - Zatim jsem koupila |
- | * Rozesilani Pruvodce - // | + | |
* Pruvodce CAK 2.0 | * Pruvodce CAK 2.0 | ||
* aktualni verze: [[http:// | * aktualni verze: [[http:// | ||
* //Zatim neni nutne cist Pruvodce jako celek. Jeste udelame jedno kolo zmen/ | * //Zatim neni nutne cist Pruvodce jako celek. Jeste udelame jedno kolo zmen/ | ||
* //Podivejte se na barvy.// | * //Podivejte se na barvy.// | ||
- | * Zatavene listy nebudou. | + | |
- | * Moje poznamky k jednotlivym obsahovym castem viz nize v casti ' | + | |
- | * CD-ROM CAK 2.0 | + | |
- | * O datech (az na format) se v sirsim kruhu bavit nebudeme. //Po skonceni hlavni schuzky se sejdeme (Kiril, Jirka, Bara) nad daty.// | + | |
- | * //V jakych formatech (CSTS, PML) CAK 2.0?// | + | |
- | * //Bude samostatny tokenizer?// | + | |
- | * //Bude ' | + | |
- | * // Tagger (MORCE), parser (MST). // | + | |
- | * tool_chain. //S jakymi prepinaci? Prvotni navrh viz | + | |
- | * //Co z Netgraph na CD?// | + | |
- | * Spusti-li se Bonito, automaticky se otevre CAK. //Neco podobneho s TrEd. // | + | |
- | * Instalace. //Jake balicky? Kontrola [[http:// | + | |
- | * TrEdVoice. //Kam? Proberu s Leosem Prikrylem.// | + | |
- | * //Podivejte se do KALENDARE, co nas ceka v zari a rijnu.// | + | |
- | * // | + | |
- | * **19/7/07** | + | |
* Pruvodce CAK 1.0 vysel (viz [[http:// | * Pruvodce CAK 1.0 vysel (viz [[http:// | ||
* podepsana smlouva mezi UK MFF a LDC | * podepsana smlouva mezi UK MFF a LDC | ||
Line 64: | Line 53: | ||
* dohoda UK MFF <-> LDC PODEPSANA | * dohoda UK MFF <-> LDC PODEPSANA | ||
* dohoda UK MFF <-> UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi | * dohoda UK MFF <-> UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== CD ROM ===== | ===== CD ROM ===== | ||
+ | Adresar ''/ | ||
* bonus-tracks/ | * bonus-tracks/ | ||
* STYX/ | * STYX/ | ||
- | * TrEdVoice/ | + | * TrEdVoice/ ## //Kam presne prijde TrEdVoice? K TrEd? // |
* data/ | * data/ | ||
- | * format: PML | + | * format: PML, CSTS ## |
* tools/ | * tools/ | ||
* Bonito/ | * Bonito/ | ||
* LAW/ | * LAW/ | ||
- | * TrEd/ | + | * TrEd/ ## // Filelist se seznamem 180 souboru CAK 2.0 // |
- | * Netgraph/ | + | * Netgraph/ |
* tool_chain/ | * tool_chain/ | ||
- | * tokenizer/ | + | * tokenizer/ ## // To se jeste musi poradne rozmyslet.// |
- | * morphology/ | + | * morphology/ ## // " |
* tagger/ | * tagger/ | ||
- | * parser/ | + | * parser/ ## //Mozne problemy - velikost natrenovaneho modulu, vypocetni a pametove naroky. (KR)// |
* tool_chain | * tool_chain | ||
* tutorials/ | * tutorials/ | ||
- | |||
- | |||
- | |||
- | |||
Line 101: | Line 95: | ||
- Zdroje textu | - Zdroje textu | ||
- Roviny anotace | - Roviny anotace | ||
- | * //Doplnit info o a-rovine. (BH) // | ||
- Vyvoj projektu | - Vyvoj projektu | ||
- | - CAK 1.0 //Doplnit. (BH)// | + | - CAK 1.0 |
- Na ceste k CAK 2.0 | - Na ceste k CAK 2.0 | ||
* // Tabulka 2.2 - upravy (ktere BH, realizace JR)// | * // Tabulka 2.2 - upravy (ktere BH, realizace JR)// | ||
Line 115: | Line 108: | ||
* //Ohlidat info o tokenizaci.// | * //Ohlidat info o tokenizaci.// | ||
- Data (**Jirka M., data.xml**) | - Data (**Jirka M., data.xml**) | ||
- | - Format dat | + | - Format dat |
- Konvence pojmenovani souboru | - Konvence pojmenovani souboru | ||
- Velikost dat | - Velikost dat | ||
Line 128: | Line 121: | ||
* //Doplnit (BH) // | * //Doplnit (BH) // | ||
- Netgraph (**Jirka M., nastroje-netgraph.xml**) | - Netgraph (**Jirka M., nastroje-netgraph.xml**) | ||
- | * //Jaky je spravny | + | * Spravny |
- | | + | |
- | | + | |
- Automaticke zpracovani textu (**BH, KR o parseru, nastroje-zprac.xml**) | - Automaticke zpracovani textu (**BH, KR o parseru, nastroje-zprac.xml**) | ||
- | * // Doplnit odstavec o tokenizaci, pokud tam bude. // | + | * // Doplnit odstavec o tokenizaci, pokud tam bude.// |
- | * // Aktualizovat procenta uspesnosti u taggeru. // | + | * // Aktualizovat procenta uspesnosti u taggeru.// |
- | * // Specifikovat na jakych datech PZK 2.0 byl tagger trenovan. // | + | * // Specifikovat na jakych datech PZK 2.0 byl tagger trenovan.// |
- | | + | * // Doplnit odstavec o parsingu (uspesnost, trenovaci data).// |
- | * // Popsat prepinace u tool_chain | + | * // Popsat prepinace u tool_chain// |
- Bonusovy material (**bonus.xml**) | - Bonusovy material (**bonus.xml**) | ||
- | * //Doplnit ilustracni obrazek, neco vice k rozpoznavaci, | + | * //Doplnit ilustracni obrazek, neco vice k rozpoznavaci, |
- Tutorialy (**BH, tutorialy.xml**) | - Tutorialy (**BH, tutorialy.xml**) | ||
- Instalace (**BH, instalace.xml**) | - Instalace (**BH, instalace.xml**) | ||
- | * //Doplnit typy instalacnich balicku | + | - Distribuce |
- Osobnosti v projektu (**BH, osobnosti.xml**) | - Osobnosti v projektu (**BH, osobnosti.xml**) | ||
- Podekovani (**BH, podekovani.xml**) | - Podekovani (**BH, podekovani.xml**) | ||
Line 231: | Line 222: | ||
* technicky editor pruvodce | * technicky editor pruvodce | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 243: | Line 240: | ||
^ |// | ^ |// | ||
^ Jirka H. |-|-|do 20. cervna odevzdat ' | ^ Jirka H. |-|-|do 20. cervna odevzdat ' | ||
- | ^ Jarka |-|-|//do 20. cervna odevzdat ' | + | ^ Jarka |-|-|//do 20. cervna odevzdat ' |
- | ^ Jirka M. |kontrola morf. anotaci|-|// | + | ^ Jirka M. |kontrola morf. anotaci|-|// |
^ Kiril |prubezne priprava dat pro anotatory|// | ^ Kiril |prubezne priprava dat pro anotatory|// | ||
- | ^ Honza R. |//do **23.4.** pripravit xml soubory pro jednotlive casti Pruvodce// | + | ^ Honza R. |//do **23.4.** pripravit xml soubory pro jednotlive casti Pruvodce// |
^ Pavel Q. | ^ Pavel Q. | ||
^ Ondra B. |-|-|-|-|-|-|-|1. verze instalatoru|-| | ^ Ondra B. |-|-|-|-|-|-|-|1. verze instalatoru|-| | ||
^ Michal K. | ^ Michal K. | ||
- | ^ Michal S. | + | ^ Michal S. |
^ Ondrej K. | ^ Ondrej K. | ||
+ | ^ Leos Prikryl | ||
====== POKYNY ====== | ====== POKYNY ====== | ||
Line 291: | Line 289: | ||
V Pruvodci CAC 2.0 bude rovnez odkaz na [[http:// | V Pruvodci CAC 2.0 bude rovnez odkaz na [[http:// | ||
+ | |||
+ | |||
====== PRACE NA DATECH podrobne ====== | ====== PRACE NA DATECH podrobne ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== Pro anotatory ===== | ===== Pro anotatory ===== | ||
Line 337: | Line 342: | ||
* V okne ''" | * V okne ''" | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 342: | Line 359: | ||
===== Interni adresarova struktura ===== | ===== Interni adresarova struktura ===== | ||
- | * 20.9. zde jsou moje (BH) body do pgmu | + | * 18.6. 8:30 schuzka o datech |
- | * revize adresarove struktury a jejiho popisu uvedeneho nize | + | |
- | * dalsi kontrola m-souboru --> kontaktovat Johanku | + | |
- | * soubory **PRO** anotatory predavam ja; **ODKUD?** Doposud jsem je brala z '' | + | |
- | * soubory **OD** anotatoru prijimam ja (pro prehled). E-maily se soubory presilam Kirilovi. | + | |
- | * protoze je nedostatek anotatoru, anotatorka '' | + | |
- | * prehledova tabulka zpracovani souboru | + | |
- | * 18.6. 8:30 schuzka o datech; výsledek schůzky: | + | |
* Vytvoření adresářové struktury v ''/ | * Vytvoření adresářové struktury v ''/ | ||
- | * Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře: | + | * Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře |
- | * '' | + | * '' |
- | * odtud bude brát Kiril data a rozdělovat práci anotátorkám | + | * odtud bude brát Kiril data a pouštět na ně parser |
- | * '' | + | * '' |
- | * odtud si bude Jirka brát data a pustí na ně první sadu " | + | * odtud si bude Jirka brát data a pustí na ně automatické kontrolní skripty |
* '' | * '' | ||
+ | * odtud bude Bára brát data a rozdělovat práci anotátorkám | ||
+ | * '' | ||
* data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné | * data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné | ||
- | * '' | + | * '' |
- | * takto slitá data dá Kiril paní Bémové ke kontrole | + | * & |
- | * '' | + | |
- | * na ručně prošlá data se pustí další, již méně spolehlivé skripty, které jen upozorňují na podezřelá místa; případně i stopro | + | |
* '' | * '' | ||
- | * & | + | * & |
- | * '' | + | * '' |
- | * odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; | + | * odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; |
- | * '' | + | * '' |
- | + | * odtud dá Jirka data do následujícího adresáře, je hotovo | |
- | * Polo-automaticka kontrola morfologickych anotaci | + | * '' |
- | * Jirka Mirovsky | + | * '' |
- | * na kontrolach m-souboru pracuje lokalne u sebe | + | |
* Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim | * Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim | ||
* Jirka Mirovsky | * Jirka Mirovsky | ||
Line 391: | Line 400: | ||
* Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci | * Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci | ||
* **Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v '' | * **Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v '' | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Soubory - prehled JIZ zpracovanych v danem kole ===== | ||
+ | ^ jmeno souboru | ||
+ | | a01w | | ||
+ | | a02w | | ||
+ | | a03w | | ||
+ | | a04w | ||
+ | | a05w | | | | ||
+ | | a06w | | | | ||
+ | | a07w | ||
+ | | a08w | ||
+ | | a09w | ||
+ | | a10w | | | | ||
+ | | a11w | | | | ||
+ | | a12w | ||
+ | | a13w | ||
+ | | a14w | ||
+ | | a15w | | | | ||
+ | | a16s | | | | ||
+ | | a17s | ||
+ | | a18s | ||
+ | | a19s | ||
+ | | a20w | ||
+ | |||
+ | ^ jmeno souboru | ||
+ | | n01w | ab | ||
+ | | n02w | ab | ||
+ | | n03w | ik | ||
+ | | n04w | ik | ||
+ | | n05w | ik | ||
+ | | n06w | ik | ||
+ | | n07w | ik | ||
+ | | n08w | ik | ||
+ | | n09w | ik | ||
+ | | n10w | ik | ||
+ | | n11w | ik | ||
+ | | n12w | ik | ||
+ | | n13w | ik | ||
+ | | n14w | ik | ||
+ | | n15w | ik | ||
+ | | n16w | ik | ||
+ | | n17w | ik | ||
+ | | n18w | ||
+ | | n19w | ||
+ | | n20w | ||
+ | | n21w | | | | ||
+ | | n22w | | | ||
+ | | n23w | | | ||
+ | | n24w | ||
+ | | n25w | | | | ||
+ | | n26w | | | | ||
+ | | n27w | ||
+ | | n28w | ||
+ | | n29w | ||
+ | | n30w | | | | ||
+ | | n31w | | | | ||
+ | | n32w | ||
+ | | n33w | ||
+ | | n34w | ||
+ | | n35w | | | | ||
+ | | n36w | | | | ||
+ | | n37w | ||
+ | | n38w | ||
+ | | n39w | ||
+ | | n40w | ||
+ | | n41w | | | ||
+ | | n42w | | | ||
+ | | n43w | ||
+ | | n44w | ||
+ | | n45w | | | | ||
+ | | n46w | | | | ||
+ | | n47w | ||
+ | | n48w | ||
+ | | n49w | ||
+ | | n50w | | | | ||
+ | | n51w | | | | ||
+ | | n52w | ||
+ | | n53s | ||
+ | | n54s | ||
+ | | n55s | | | | ||
+ | | n56s | | | | ||
+ | | n57s | ||
+ | | n58s | ||
+ | | n59s | ||
+ | | n60s | ||
+ | |||
+ | ^ jmeno souboru | ||
+ | | s00s | | ||
+ | | s01w | ab | ||
+ | | s02w | ab | ||
+ | | s03w | kg,kk | ||
+ | | s04w | kg,kk | ||
+ | | s05w | kg,kk | ||
+ | | s06w | kg,kk | ||
+ | | s07w | kg,kk | ||
+ | | s08w | kg,kk | ||
+ | | s09w | kg,kk | ||
+ | | s10w | kg,kk | ||
+ | | s11w | ab | ||
+ | | s12w | ab | ||
+ | | s13w | ab | ||
+ | | s14w | ab | ||
+ | | s15w | ab | ||
+ | | s16w | ab | ||
+ | | s17w | sk | ||
+ | | s18w | sk | ||
+ | | s19w | sk | ||
+ | | s20w | sk | ||
+ | | s21w | sk | ||
+ | | s22w | sk | ||
+ | | s23w | sk | ||
+ | | s24w | sk | ||
+ | | s25w | sk | ||
+ | | s26w | sk | ||
+ | | s27w | sk | ||
+ | | s28w | sk | ||
+ | | s29w | sk | ||
+ | | s30w | sk | ||
+ | | s31w | kk,kg | | | ||
+ | | s32w | kk,mz | | | ||
+ | | s33w | kk,mz | | ||
+ | | s34w | kk,kg | | | ||
+ | | s35w | kg,mz | | | ||
+ | | s36w | kk,mz | | | ||
+ | | s37w | kk,kg | | ||
+ | | s38w | kg,mz | | | ||
+ | | s39w | kk,mz | | | ||
+ | | s40w | kk,kg | | | ||
+ | | s41w | | | ||
+ | | s42w | | | ||
+ | | s43w | ||
+ | | s44w | ||
+ | | s45w | | | | ||
+ | | s46w | | | | ||
+ | | s47w | ||
+ | | s48w | ||
+ | | s49w | ||
+ | | s50w | | | | ||
+ | | s51w | | | | ||
+ | | s52w | ||
+ | | s53w | ||
+ | | s54w | ||
+ | | s55w | | | | ||
+ | | s56w | | | | ||
+ | | s57w | ||
+ | | s58w | ||
+ | | s59w | ||
+ | | s60w | ||
+ | | s61w | | ||
+ | | s62w | | ||
+ | | s63w | | ||
+ | | s64w | | ||
+ | | s65w | | ||
+ | | s66w | | ||
+ | | s67w | | ||
+ | | s68w | | ||
+ | | s69s | | ||
+ | | s70s | | ||
+ | | s71s | | ||
+ | | s72s | | ||
+ | | s73s | | ||
+ | | s74s | | ||
+ | | s75s | | | | ||
+ | | s76s | | | | ||
+ | | s77s | ||
+ | | s78s | ||
+ | | s79s | ||
+ | | s80s | ||
+ | | s81s | | | ||
+ | | s82s | | | ||
+ | | s83s | | | ||
+ | | s84s | ||
+ | | s85s | | | | ||
+ | | s86s | | | | ||
+ | | s87s | ||
+ | | s88s | ||
+ | | s89s | ||
+ | | s90s | | | | ||
+ | | s91s | | | | ||
+ | | s92s | ||
+ | | s93s | ||
+ | | s94s | ||
+ | | s95s | | | | ||
+ | | s96s | | | | ||
+ | | s97s | ||
+ | | s98s | ||
+ | | s99s | ||
+ | |||
+ | |||
+ | |||
====== KONTAKTY ====== | ====== KONTAKTY ====== | ||
* Alla Bemova ('' | * Alla Bemova ('' | ||
- | * Veronika Curdova ('' | ||
* Katarina Gajdosova ('' | * Katarina Gajdosova ('' | ||
* Jan Hajic ('' | * Jan Hajic ('' | ||
* Barbora Hladka ('' | * Barbora Hladka ('' | ||
- | | + | |
* Jirka Mirovsky ('' | * Jirka Mirovsky ('' | ||
* Kiril Ribarov ('' | * Kiril Ribarov ('' | ||
* Zdenka Uresova ('' | * Zdenka Uresova ('' | ||
- | | + | |
+ | |||