Differences

This shows you the differences between two versions of the page.

--- pdtsc:start [2007/05/31 15:27]
ptacek Links to external:pdtsc:done changed to pdtsc:done
+++ pdtsc:start [2008/03/31 09:38]
mikulova
@@ Line 2: / Line 2: @@
 **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
-Předpokládáme, že data korpusu PDTSC budou data z existujících mluvených korpusů, ke kterým se podaří získat přístup. Vybírána budou tak, aby pokrývala široké spektrum různých typů mluvených projevů: spontánní neformální mluvené projevy, diskuze, přednášky, interwiew aj.
+Jako první data pro anotaci byla zvolena **data z projektu Malach**.
+V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, elektronicky dostupných mluvených korpusů. Ukázalo se, že mluvená řeč, zejména ve své spontánní podobě, nedodržuje často ani elementární gramatická pravidla a zvyklosti.
+Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction).
+Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.
-Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového.
   * [[people|Kdo na tom dělá a pod které projekty to patří]]
-  * [[done|Co už se udělalo]]
+  * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]]
-  * [[external:pdtsc:todo|Na čem se právě dělá]]
+  * [[:pdtsc:internal:start|Interní poznámky]]
-  * [[:internal:pdtsc|Interní poznámky]]

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences