[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Prague Dependency Treebank of Spoken Czech (PDTSC)

Pražský závislostní korpus mluvené češtiny (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.

Předpokládáme, že data korpusu PDTSC budou data z existujících mluvených korpusů, ke kterým se podaří získat přístup. Vybírána budou tak, aby pokrývala široké spektrum různých typů mluvených projevů: spontánní neformální mluvené projevy, diskuze, přednášky, interwiew aj.

Jako první data pro anotaci byla zvolena data z projektu Malach, která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového.


[ Back to the navigation ] [ Back to the content ]