Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
pdtsc:start [2008/03/18 09:13] mikulova |
pdtsc:start [2009/02/02 10:04] mikulova |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ||
- | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. | + | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. |
- | Předpokládáme, | + | Původním záměrem |
- | + | ||
- | Jako první data pro anotaci | + | |
- | + | ||
- | V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, | + | |
- | Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči | + | |
- | * přepisy mluvených projevů (která mj. sledují i proud řeči v čase a lineárně tedy odpovídají vstupnímu akustickému signálu) budou zachovány (pro účely trénování systémů automatického rozpoznávání řeči) na **w-rovině** systému PDTSC, | + | |
- | * věta (segment mluvené řeči) bude již na úrovni morfologické (na **m-rovině**) “standardizována” ve smyslu použití standardních spisovných slovních tvarů a slov vůbec, gramatického slovosledu a běžné české syntaxe. | + | |
- | * klíčové přitom je **zachování vazeb** mezi původní transkripcí | + | |
- | + | ||
- | Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. | + | |
+ | Jako první data pro anotaci byla zvolena **data z projektu Malach**. | ||
+ | Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (v rámci projektu Companions). | ||
* [[people|Kdo na tom dělá a pod které projekty to patří]] | * [[people|Kdo na tom dělá a pod které projekty to patří]] | ||
- | | + | * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] |
- | | + | |
* [[: | * [[: | ||