Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision | Next revision Both sides next revision | ||
pdtsc:start [2008/03/18 09:13] mikulova |
pdtsc:start [2008/03/18 09:16] mikulova |
||
---|---|---|---|
Line 2: | Line 2: | ||
**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči. | ||
- | Předpokládáme, | + | Jako první data pro anotaci byla zvolena **data z projektu Malach**. |
- | + | ||
- | Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového. | + | |
V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, | V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, | ||
- | Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). A to následujícím způsobem: | + | Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). |
- | * přepisy mluvených projevů (která mj. sledují i proud řeči v čase a lineárně tedy odpovídají vstupnímu akustickému signálu) budou zachovány (pro účely trénování systémů automatického rozpoznávání řeči) na **w-rovině** systému PDTSC, | + | |
- | * věta (segment mluvené řeči) bude již na úrovni morfologické (na **m-rovině**) “standardizována” ve smyslu použití standardních spisovných slovních tvarů a slov vůbec, gramatického slovosledu a běžné české syntaxe. | + | |
- | * klíčové přitom je **zachování vazeb** mezi původní transkripcí (na w-roviněh) a standardizovaným textem (na m-rovině). | + | |
Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. | Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. |