[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
pdtsc:start [2007/05/31 15:27]
ptacek Links to external:pdtsc:done changed to pdtsc:done
pdtsc:start [2008/03/31 09:38]
mikulova
Line 2: Line 2:
 **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
  
-Předpokládáme, že data korpusu PDTSC budou data z existujících mluvených korpusů, ke kterým se podaří získat přístupVybírána budou takaby pokrývala široké spektrum různých typů mluvených projevů: spontánní neformální mluvené projevy, diskuze, ednáškyinterwiew aj.+Jako první data pro anotaci byla zvolena **data z projektu Malach**. 
 + 
 +V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, elektronicky dostupných mluvených korpusů. Ukázalo se, že mluvená řeč, zejména ve své spontánní podobě, nedodržuje často ani elementární gramatická pravidla a zvyklosti 
 +Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnutože původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postuppřed vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve evedou na standardizovaný texttj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). 
 + 
 +Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.
  
-Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového. 
  
   * [[people|Kdo na tom dělá a pod které projekty to patří]]   * [[people|Kdo na tom dělá a pod které projekty to patří]]
-  * [[done|Co už se udělalo]] +  * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] 
-  * [[external:pdtsc:todo|Na čem se právě dělá]] +  * [[:pdtsc:internal:start|Interní poznámky]]
-  * [[:internal:pdtsc|Interní poznámky]]+
  
  

[ Back to the navigation ] [ Back to the content ]