[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
pdtsc:start [2007/05/31 15:27]
ptacek Links to external:pdtsc:done changed to pdtsc:done
pdtsc:start [2008/03/18 09:13]
mikulova
Line 5: Line 5:
  
 Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového. Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba v polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenou, která by nepřinesla k poznání mluvené řeči prakticky nic nového.
 +
 +V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, elektronicky dostupných mluvených korpusů. Ukázalo se, že mluvená řeč, zejména ve své spontánní podobě, nedodržuje často ani elementární gramatická pravidla a zvyklosti. 
 +Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). A to následujícím způsobem:
 +  * přepisy mluvených projevů (která mj. sledují i proud řeči v čase a lineárně tedy odpovídají vstupnímu akustickému signálu) budou zachovány (pro účely trénování systémů automatického rozpoznávání řeči) na **w-rovině** systému PDTSC,
 +  * věta (segment mluvené řeči) bude již na úrovni morfologické (na **m-rovině**) “standardizována” ve smyslu použití standardních spisovných slovních tvarů a slov vůbec, gramatického slovosledu a běžné české syntaxe.
 +  * klíčové přitom je **zachování vazeb** mezi původní transkripcí (na w-roviněh) a standardizovaným textem (na m-rovině).
 +
 +Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.
 +
  
   * [[people|Kdo na tom dělá a pod které projekty to patří]]   * [[people|Kdo na tom dělá a pod které projekty to patří]]
   * [[done|Co už se udělalo]]   * [[done|Co už se udělalo]]
-  * [[external:pdtsc:todo|Na čem se právě dělá]] +  * [[todo|Na čem se právě dělá]] 
-  * [[:internal:pdtsc|Interní poznámky]]+  * [[:pdtsc:internal:start|Interní poznámky]]
  
  

[ Back to the navigation ] [ Back to the content ]