Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
pdtsc:start [2007/05/31 15:32] ptacek |
pdtsc:start [2008/03/18 09:17] mikulova |
||
---|---|---|---|
Line 2: | Line 2: | ||
**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. | ||
- | Předpokládáme, | + | Jako první |
+ | |||
+ | V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, elektronicky dostupných | ||
+ | Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty | ||
+ | |||
+ | Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. | ||
- | Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového. | ||
* [[people|Kdo na tom dělá a pod které projekty to patří]] | * [[people|Kdo na tom dělá a pod které projekty to patří]] | ||
* [[done|Co už se udělalo]] | * [[done|Co už se udělalo]] | ||
- | * [[todo|Na čem se právě dělá]] | + | * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] |
- | * [[:pdtcs: | + | * [[:pdtsc: |