[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
pdtsc:start [2007/05/31 15:25]
ptacek Document moved from external:pdtsc
pdtsc:start [2009/02/02 10:04]
mikulova
Line 1: Line 1:
 ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ======
-**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.+**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
  
-edpokládáme, že data korpusu PDTSC budou data existujících mluvených korpusů, ke kterým se podaří získat ístup. Vybírána budou takaby pokrývala široké spektrum různých typů mluvených projevů: spontánní neformální mluvené projevy, diskuze, přednáškyinterwiew aj.+Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řeči. Lingvistická analýza mluvené řeči a první pokusy se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechnoco lze při věrném episu mluvené řeči očekávat – včetně výplňkových slovopakování, zakoktání, nových začátků, nedořečených klauzí, anakolutů i tzv. neřečových událostí, jako je zakašlání, smích apod. Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči byl proto stanoven nový postuppřed vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na gramaticky správné větytj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči**. Klíčové itom je zachování (anotování) vazeb mezi původní transkripcí mluvené řeči a rekonstruovaným standardizovaným textem. Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotaceaniž by se tato pravidla musela nějak výrazně upravovat.
  
-Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového.+Jako první data pro anotaci byla zvolena **data z projektu Malach**
 +Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (rámci projektu Companions).
  
-  * [[external:pdtsc:people|Kdo na tom dělá a pod které projekty to patří]] +  * [[people|Kdo na tom dělá a pod které projekty to patří]] 
-  * [[external:pdtsc:done|Co už se udělalo]] +  * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] 
-  * [[external:pdtsc:todo|Na čem se právě dělá]] +  * [[:pdtsc:internal:start|Interní poznámky]]
-  * [[:internal:pdtsc|Interní poznámky]]+
  
  

[ Back to the navigation ] [ Back to the content ]