This is an old revision of the document!
Table of Contents
PDTSC 1.0 - příprava korpusu k vydání v LDC
Obsah CD:
- data
- MEd
- dokumentace
MM: Kam dávat věci, které už jsou k dispozici (např. manuál). Sem? Nezřídíme na to někde nějaký adresář?
Data
Na CD budou data dvojího typu:
- PML-data: vyčištěná data v PML formátu (která lze otevřít v MEdu)
- html-data: data v html formátu, která jsou dostupná bez MEdu a pro mnoho uživatelů jsou tak vděčnější k prohlížení
MM: Dáme tam od každého souboru jen dvě rekonstruované verze, nebo u těch, od kterých máme i více verzí (3), dáme všechny dostupné verze?
PML-data
blabla
(kde leží, co je s nimi třeba, rozdělení na train, test atp).
html-data
K html-datům by bylo dobré dodělat možnost přehrávání audia.
MEd
- anotační
- read-only – ten je potřeba “vyrobit”
Dokumentace
- Dokumentace povinná pro LDC
MM: To je co?
- Licence na data (Malach, na Companions povolení z Plzně)
- Guide
- Anotační manuál
Guide
- Tabulka, kdo co udělal
Anotační manuál
V české i anglické verzi.
MM: Český už mám. Do angličtiny už se překládá.
Instalace CD
- Unix
- Windows
Šéfova představa o instalaci: výsledkem instalace (po všech kliknutích) je otevření “pvního” souboru v MEdu
Další náležitosti
Kontrolní skript XML
Kontrola konzistence CD (data, XML, linky, audio…)