[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
pdtsc:start [2007/05/31 15:25]
ptacek Document moved from external:pdtsc
pdtsc:start [2008/03/18 09:16]
mikulova
Line 2: Line 2:
 **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
  
-Předpokládáme, že data korpusu PDTSC budou data z existujících mluvených korpusů, ke kterým se podaří získat přístup. Vybírána budou tak, aby pokrývala široké spektrum různých typů mluvených projevů: spontánní neformální mluvené projevy, diskuze, přednášky, interwiew aj.+Jako první data pro anotaci byla zvolena **data z projektu Malach**.
  
-Jako první data pro anotaci byla zvolena **data z projektu Malach**která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenoukterá by nepřinesla k poznání mluvené řeči prakticky nic nového.+V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, elektronicky dostupných mluvených korpusů. Ukázalo se, že mluvená řeč, zejména ve své spontánní podobě, nedodržuje často ani elementární gramatická pravidla a zvyklosti.  
 +Na základě těchto zjištění v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnutože původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction).
  
-  * [[external:pdtsc:people|Kdo na tom dělá a pod které projekty to patří]] +Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. 
-  * [[external:pdtsc:done|Co už se udělalo]] + 
-  * [[external:pdtsc:todo|Na čem se právě dělá]] + 
-  * [[:internal:pdtsc|Interní poznámky]]+  * [[people|Kdo na tom dělá a pod které projekty to patří]] 
 +  * [[done|Co už se udělalo]] 
 +  * [[todo|Na čem se právě dělá]] 
 +  * [[:pdtsc:internal:start|Interní poznámky]]
  
  

[ Back to the navigation ] [ Back to the content ]