Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
pdtsc:start [2008/03/18 09:17] mikulova |
pdtsc:start [2009/02/02 11:14] mikulova |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ||
- | **Pražský závislostní korpus mluvené češtiny** | + | Pražský závislostní korpus mluvené češtiny |
- | Jako první data pro anotaci byla zvolena | + | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. |
- | V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, | + | Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řeči. Lingvistická analýza mluvené řeči a první pokusy |
- | Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči | + | |
- | + | ||
- | Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. | + | |
+ | Jako první data pro anotaci byla zvolena **data z projektu Malach**. | ||
+ | Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (v rámci projektu Companions). | ||
+ | * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] | ||
* [[people|Kdo na tom dělá a pod které projekty to patří]] | * [[people|Kdo na tom dělá a pod které projekty to patří]] | ||
- | * [[done|Co už se udělalo]] | + | * [[pub|Publikace, prezentace]] |
- | * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] | + | |
* [[: | * [[: | ||