Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:hladka:smerem-k-cak-2.0 [2007/09/24 14:40] mirovsky |
user:hladka:smerem-k-cak-2.0 [2007/10/02 20:51] hladka |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== CAK 2.0 ====== | ====== CAK 2.0 ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
Line 30: | Line 34: | ||
===== Aktuality ====== | ===== Aktuality ====== | ||
- | * **24/9/07 v 9:00 schuzka k CAK 2.0. chodba ve 4. patre zapadniho kridla** - PROGRAM (Sepsala BH) | + | * **24/9/07 v 9:00 schuzka k CAK 2.0. chodba ve 4. patre zapadniho kridla** - body pgmu, ktere jsme probrali, jsem presunula na patricna mista wiki dokumentace |
* CAK 1.0 | * CAK 1.0 | ||
- | * //Jak se vam libi Pruvodce CAK 1.0?// | + | * Rozesilani Pruvodce - Zatim jsem koupila |
- | * Rozesilani Pruvodce - // | + | |
* Pruvodce CAK 2.0 | * Pruvodce CAK 2.0 | ||
* aktualni verze: [[http:// | * aktualni verze: [[http:// | ||
* //Zatim neni nutne cist Pruvodce jako celek. Jeste udelame jedno kolo zmen/ | * //Zatim neni nutne cist Pruvodce jako celek. Jeste udelame jedno kolo zmen/ | ||
* //Podivejte se na barvy.// | * //Podivejte se na barvy.// | ||
- | * Zatavene listy nebudou. | + | |
- | * Moje poznamky k jednotlivym obsahovym castem viz nize v casti ' | + | |
- | * CD-ROM CAK 2.0 | + | |
- | * O datech (az na format) se v sirsim kruhu bavit nebudeme. //Po skonceni hlavni schuzky se sejdeme (Kiril, Jirka, Bara) nad daty.// | + | |
- | * //V jakych formatech (CSTS, PML) CAK 2.0?// | + | |
- | * //Bude samostatny tokenizer?// | + | |
- | * //Bude ' | + | |
- | * // Tagger (MORCE), parser (MST). // | + | |
- | * tool_chain. //S jakymi prepinaci? Prvotni navrh viz | + | |
- | * //Co z Netgraph na CD?// | + | |
- | * Spusti-li se Bonito, automaticky se otevre CAK. //Neco podobneho s TrEd. // | + | |
- | * Instalace. //Jake balicky? Kontrola [[http:// | + | |
- | * TrEdVoice. //Kam? Proberu s Leosem Prikrylem.// | + | |
- | * //Podivejte se do KALENDARE, co nas ceka v zari a rijnu.// | + | |
- | * // | + | |
- | * **19/7/07** | + | |
* Pruvodce CAK 1.0 vysel (viz [[http:// | * Pruvodce CAK 1.0 vysel (viz [[http:// | ||
* podepsana smlouva mezi UK MFF a LDC | * podepsana smlouva mezi UK MFF a LDC | ||
Line 65: | Line 53: | ||
* dohoda UK MFF <-> LDC PODEPSANA | * dohoda UK MFF <-> LDC PODEPSANA | ||
* dohoda UK MFF <-> UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi | * dohoda UK MFF <-> UJC AV je schvalena LDC, jeste dat k druhemu cteni Karlovi Olivovi | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== CD ROM ===== | ===== CD ROM ===== | ||
+ | Adresar ''/ | ||
* bonus-tracks/ | * bonus-tracks/ | ||
* STYX/ | * STYX/ | ||
- | * TrEdVoice/ | + | * TrEdVoice/ ## //Kam presne prijde TrEdVoice? K TrEd? // |
* data/ | * data/ | ||
- | * format: PML | + | * format: PML ## // I ve formatu csts. V Pruvodci se jasne rekne proc a jake vyhody jsou csts vs. pml a naopak.// |
* tools/ | * tools/ | ||
* Bonito/ | * Bonito/ | ||
* LAW/ | * LAW/ | ||
- | * TrEd/ | + | * TrEd/ ## // Filelist se seznamem 180 souboru CAK 2.0 // |
- | * Netgraph/ | + | * Netgraph/ |
* tool_chain/ | * tool_chain/ | ||
- | * tokenizer/ | + | * tokenizer/ ## // To se jeste musi poradne rozmyslet.// |
- | * morphology/ | + | * morphology/ ## // " |
* tagger/ | * tagger/ | ||
- | * parser/ | + | * parser/ ## //Mozne problemy - velikost natrenovaneho modulu, vypocetni a pametove naroky. (KR)// |
* tool_chain | * tool_chain | ||
* tutorials/ | * tutorials/ | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
Line 105: | Line 92: | ||
- Zdroje textu | - Zdroje textu | ||
- Roviny anotace | - Roviny anotace | ||
- | * //Doplnit info o a-rovine. (BH) // | ||
- Vyvoj projektu | - Vyvoj projektu | ||
- | - CAK 1.0 //Doplnit. (BH)// | + | - CAK 1.0 |
- Na ceste k CAK 2.0 | - Na ceste k CAK 2.0 | ||
* // Tabulka 2.2 - upravy (ktere BH, realizace JR)// | * // Tabulka 2.2 - upravy (ktere BH, realizace JR)// | ||
Line 119: | Line 105: | ||
* //Ohlidat info o tokenizaci.// | * //Ohlidat info o tokenizaci.// | ||
- Data (**Jirka M., data.xml**) | - Data (**Jirka M., data.xml**) | ||
- | - Format dat | + | - Format dat //Doplnit csts. Strucny popis, Plusy a minusy csts a pml. (JM)// |
- Konvence pojmenovani souboru | - Konvence pojmenovani souboru | ||
- Velikost dat | - Velikost dat | ||
Line 132: | Line 118: | ||
* //Doplnit (BH) // | * //Doplnit (BH) // | ||
- Netgraph (**Jirka M., nastroje-netgraph.xml**) | - Netgraph (**Jirka M., nastroje-netgraph.xml**) | ||
- | * //Jaky je spravny | + | * Spravny |
* // Dodat obrazky se stromy z CAK.// | * // Dodat obrazky se stromy z CAK.// | ||
* // Nekde v uvodu odstavce doplnit jak se ma Netgraph k TrEd.// | * // Nekde v uvodu odstavce doplnit jak se ma Netgraph k TrEd.// | ||
- Automaticke zpracovani textu (**BH, KR o parseru, nastroje-zprac.xml**) | - Automaticke zpracovani textu (**BH, KR o parseru, nastroje-zprac.xml**) | ||
- | * // Doplnit odstavec o tokenizaci, pokud tam bude. // | + | * // Doplnit odstavec o tokenizaci, pokud tam bude.// |
- | * // Aktualizovat procenta uspesnosti u taggeru. // | + | * // Aktualizovat procenta uspesnosti u taggeru.// |
- | * // Specifikovat na jakych datech PZK 2.0 byl tagger trenovan. // | + | * // Specifikovat na jakych datech PZK 2.0 byl tagger trenovan.// |
- | | + | * // Doplnit odstavec o parsingu (uspesnost, trenovaci data).// |
* // Popsat prepinace u tool_chain// | * // Popsat prepinace u tool_chain// | ||
- Bonusovy material (**bonus.xml**) | - Bonusovy material (**bonus.xml**) | ||
- | * //Doplnit ilustracni obrazek, neco vice k rozpoznavaci, | + | * //Doplnit ilustracni obrazek, neco vice k rozpoznavaci, |
- Tutorialy (**BH, tutorialy.xml**) | - Tutorialy (**BH, tutorialy.xml**) | ||
- Instalace (**BH, instalace.xml**) | - Instalace (**BH, instalace.xml**) | ||
- | * // | + | - Distribuce a licence (**BH, TBA.xml**) |
+ | * // | ||
- Osobnosti v projektu (**BH, osobnosti.xml**) | - Osobnosti v projektu (**BH, osobnosti.xml**) | ||
- Podekovani (**BH, podekovani.xml**) | - Podekovani (**BH, podekovani.xml**) | ||
Line 235: | Line 222: | ||
* technicky editor pruvodce | * technicky editor pruvodce | ||
+ | |||
+ | |||
Line 295: | Line 284: | ||
V Pruvodci CAC 2.0 bude rovnez odkaz na [[http:// | V Pruvodci CAC 2.0 bude rovnez odkaz na [[http:// | ||
+ | |||
+ | |||
====== PRACE NA DATECH podrobne ====== | ====== PRACE NA DATECH podrobne ====== | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
===== Pro anotatory ===== | ===== Pro anotatory ===== | ||
Line 341: | Line 337: | ||
* V okne ''" | * V okne ''" | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
Line 347: | Line 354: | ||
===== Interni adresarova struktura ===== | ===== Interni adresarova struktura ===== | ||
- | * 20.9. zde jsou moje (BH) body do pgmu | + | * 18.6. 8:30 schuzka o datech |
- | * revize adresarove struktury a jejiho popisu uvedeneho nize | + | |
- | * dalsi kontrola m-souboru --> kontaktovat Johanku | + | |
- | * soubory **PRO** anotatory predavam ja; **ODKUD?** Doposud jsem je brala z '' | + | |
- | * soubory **OD** anotatoru prijimam ja (pro prehled). E-maily se soubory presilam Kirilovi. | + | |
- | * protoze je nedostatek anotatoru, anotatorka '' | + | |
- | * prehledova tabulka zpracovani souboru | + | |
- | * 18.6. 8:30 schuzka o datech; výsledek schůzky: | + | |
* Vytvoření adresářové struktury v ''/ | * Vytvoření adresářové struktury v ''/ | ||
- | * Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře: | + | * Data budou uložena a zpracována takto, v závorce jsou lidé zodpovědní za obsah adresáře |
* '' | * '' | ||
- | * odtud bude brát Bára data a rozdělovat práci anotátorkám | + | * odtud bude brát Kiril data a pouštět na ně parser |
* '' | * '' | ||
- | * odtud bude Bára brát data a rozdělovat práci anotátorkám | + | * odtud si bude Jirka brát data a pustí na ně automatické kontrolní skripty |
- | * '' | + | |
- | * odtud si bude Jirka brát data a pustí na ně první sadu " | + | |
* '' | * '' | ||
+ | * odtud bude Bára brát data a rozdělovat práci anotátorkám | ||
+ | * '' | ||
* data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné | * data odtud si vezme Kiril a provede porovnání a slití dvou verzí do jedné | ||
- | * '' | + | * '' |
- | * takto slitá data dá Kiril paní Bémové ke kontrole | + | * & |
- | * '' | + | |
- | * na ručně prošlá data se pustí další, již méně spolehlivé skripty, které jen upozorňují na podezřelá místa; případně i stopro | + | |
* '' | * '' | ||
- | * & | + | * & |
- | * '' | + | * '' |
- | * odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; | + | * odtud již vychází hotová analytická rovina; morfologická rovina a slovní měly zůstat beze změny, kromě atributu guessed_form na morfologické rovině, kam anotátorky mohly něco doplnit; kontrolu, že se nic nezměnilo, a slití guessed_form do aktuálního morfologického souboru provede Jirka; |
- | * '' | + | * '' |
- | + | * odtud dá Jirka data do následujícího adresáře, je hotovo | |
- | * Polo-automaticka kontrola morfologickych anotaci | + | * '' |
- | * Jirka Mirovsky | + | * '' |
- | * na kontrolach m-souboru pracuje lokalne u sebe | + | |
* Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim | * Polo-automaticka kontrola morfologickych anotaci vzhledem k syntaktickym anotacim | ||
* Jirka Mirovsky | * Jirka Mirovsky | ||
Line 398: | Line 395: | ||
* Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci | * Skripty (z PDT 2.0) pro kontrolu syntaktickych anotaci | ||
* **Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v '' | * **Jirko, mohl by ses prosim seznamit se skripty navrzenymi pro kontrolu syntaktickych anotaci PDT 2.0. Je potreba to udelat co nejdrive (samozrejme az budou nejake soubory v '' | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | |||
+ | ===== Soubory - prehled zpracovani ===== | ||
+ | ^ jmeno souboru | ||
+ | | a01w | | ||
+ | | a02w | ab | ab | ||
+ | | a03w | ||
+ | | a04w | ||
+ | | a05w | | | | ||
+ | | a06w | | | | ||
+ | | a07w | ||
+ | | a08w | ||
+ | | a09w | ||
+ | | a10w | | | | ||
+ | | a11w | | | | ||
+ | | a12w | ||
+ | | a13w | ||
+ | | a14w | ||
+ | | a15w | | | | ||
+ | | a16s | | | | ||
+ | | a17s | ||
+ | | a18s | ||
+ | | a19s | ||
+ | | a20w | ||
+ | |||
+ | ^ jmeno souboru | ||
+ | | n01w | ab | ||
+ | | n02w | ab | ||
+ | | n03w | ik | ||
+ | | n04w | ik | ||
+ | | n05w | ik | ||
+ | | n06w | ik | ||
+ | | n07w | ik | ||
+ | | n08w | ik | ||
+ | | n09w | ik | ||
+ | | n10w | ik | ||
+ | | n11w | ik | ||
+ | | n12w | ik | ||
+ | | n13w | | ||
+ | | n14w | | ||
+ | | n15w | | | | ||
+ | | n16w | | | | ||
+ | | n17w | ||
+ | | n18w | ||
+ | | n19w | ||
+ | | n20w | ||
+ | | n21w | | ||
+ | | n22w | | ||
+ | | n23w | | ||
+ | | n24w | ||
+ | | n25w | | | | ||
+ | | n26w | | | | ||
+ | | n27w | ||
+ | | n28w | ||
+ | | n29w | ||
+ | | n30w | | | | ||
+ | | n31w | | | | ||
+ | | n32w | ||
+ | | n33w | ||
+ | | n34w | ||
+ | | n35w | | | | ||
+ | | n36w | | | | ||
+ | | n37w | ||
+ | | n38w | ||
+ | | n39w | ||
+ | | n40w | ||
+ | | n41w | | | ||
+ | | n42w | | | ||
+ | | n43w | ||
+ | | n44w | ||
+ | | n45w | | | | ||
+ | | n46w | | | | ||
+ | | n47w | ||
+ | | n48w | ||
+ | | n49w | ||
+ | | n50w | | | | ||
+ | | n51w | | | | ||
+ | | n52w | ||
+ | | n53s | ||
+ | | n54s | ||
+ | | n55s | | | | ||
+ | | n56s | | | | ||
+ | | n57s | ||
+ | | n58s | ||
+ | | n59s | ||
+ | | n60s | ||
+ | |||
====== KONTAKTY ====== | ====== KONTAKTY ====== |