====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== Pražský závislostní korpus mluvené češtiny je součástí velkého projektu: **The PDTSL - Prague Dependency Treebank of Spoken Language**, jehož oficiální stránky jsou zde: [[http://ufal.mff.cuni.cz/pdtsl/|Oficiální stránky projektu PDTSL]] **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řeči. Lingvistická analýza mluvené řeči a první pokusy se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechno, co lze při věrném přepisu mluvené řeči očekávat – včetně výplňkových slov, opakování, zakoktání, nových začátků, nedořečených klauzí, anakolutů i tzv. neřečových událostí, jako je zakašlání, smích apod. Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči byl proto stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na gramaticky správné věty, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči**. Klíčové přitom je zachování (anotování) vazeb mezi původní transkripcí mluvené řeči a rekonstruovaným standardizovaným textem. Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. Jako první data pro anotaci byla zvolena **data z projektu Malach**. Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (v rámci projektu Companions). * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] * [[people|Kdo na tom dělá a pod které projekty to patří]] * [[pub|Publikace, prezentace]] * [[:pdtsc:internal:start|Interní poznámky]] * [[:pdtsc:internal:cd|Příprava korpusu k vydání v LDC - PDTSC 1.0]]