Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
pdtsc:start [2008/03/18 09:16] mikulova |
pdtsc:start [2009/02/02 10:04] mikulova |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ||
- | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. | + | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. |
+ | |||
+ | Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řeči. Lingvistická analýza mluvené řeči a první pokusy se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechno, co lze při věrném přepisu mluvené řeči očekávat – včetně výplňkových slov, opakování, | ||
Jako první data pro anotaci byla zvolena **data z projektu Malach**. | Jako první data pro anotaci byla zvolena **data z projektu Malach**. | ||
- | + | Vedle malachovských | |
- | V prvním roce projektu (2005) probíhala lingvistická analýza | + | |
- | Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). | + | |
- | + | ||
- | Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. | + | |
* [[people|Kdo na tom dělá a pod které projekty to patří]] | * [[people|Kdo na tom dělá a pod které projekty to patří]] | ||
- | | + | * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]] |
- | | + | |
* [[: | * [[: | ||