[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
pdtsc:start [2007/05/31 15:32]
ptacek
pdtsc:start [2009/02/02 10:04]
mikulova
Line 1: Line 1:
 ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ======
-**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.+**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
  
-edpokládáme, že data korpusu PDTSC budou data existujících mluvených korpusů, ke kterým se podaří získat ístup. Vybírána budou takaby pokrývala široké spektrum různých typů mluvených projevů: spontánní neformální mluvené projevy, diskuze, přednáškyinterwiew aj.+Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řeči. Lingvistická analýza mluvené řeči a první pokusy se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechnoco lze při věrném episu mluvené řeči očekávat – včetně výplňkových slovopakování, zakoktání, nových začátků, nedořečených klauzí, anakolutů i tzv. neřečových událostí, jako je zakašlání, smích apod. Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči byl proto stanoven nový postuppřed vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na gramaticky správné větytj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči**. Klíčové itom je zachování (anotování) vazeb mezi původní transkripcí mluvené řeči a rekonstruovaným standardizovaným textem. Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotaceaniž by se tato pravidla musela nějak výrazně upravovat.
  
-Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového.+Jako první data pro anotaci byla zvolena **data z projektu Malach**
 +Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (rámci projektu Companions).
  
   * [[people|Kdo na tom dělá a pod které projekty to patří]]   * [[people|Kdo na tom dělá a pod které projekty to patří]]
-  * [[done|Co už se udělalo]] +  * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] 
-  * [[todo|Na čem se právě dělá]] +  * [[:pdtsc:internal:start|Interní poznámky]]
-  * [[:pdtcs:internal:start|Interní poznámky]]+
  
  

[ Back to the navigation ] [ Back to the content ]