This is an old revision of the document!
Table of Contents
PDTSC 1.0 - příprava korpusu k vydání v LDC
Obsah CD:
- data
- MEd
- dokumentace
Data
Na CD budou data dvojího typu:
- PML-data: vyčištěná data v PML formátu (která lze otevřít v MEdu)
- html-data: data v html formátu, která jsou dostupná bez MEdu a pro mnoho uživatelů jsou tak vděčnější k prohlížení
MM: Dáme tam od každého souboru jen dvě rekonstruované verze, nebo u těch, od kterých máme i více verzí (3), dáme všechny dostupné verze?
PML-data
blabla
(kde leží, co je s nimi třeba, rozdělení na train, test atp).
html-data
K html-datům by bylo dobré dodělat možnost přehrávání audia.
MEd
- anotační
- read-only – ten je potřeba “vyrobit”
Dokumentace
- Dokumentace povinná pro LDC
MM: To je co?
- Licence na data (Malach, na Companions povolení z Plzně)
- Guide
- Anotační manuál
Guide
- Tabulka, kdo co udělal
Anotační manuál
V české i anglické verzi.
MM: Český už mám. Do angličtiny už se překládá.