Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
pdtsc:done [2008/01/14 10:01] mikulova |
— (current) | ||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Co už se na PDTSC udělalo ====== | ||
- | V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, | ||
- | Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). A to následujícím způsobem: | ||
- | * přepisy mluvených projevů (která mj. sledují i proud řeči v čase a lineárně tedy odpovídají vstupnímu akustickému signálu) budou zachovány (pro účely trénování systémů automatického rozpoznávání řeči) na **w-rovině** systému PDTSC, | ||
- | * věta (segment mluvené řeči) bude již na úrovni morfologické (na **m-rovině**) “standardizována” ve smyslu použití standardních spisovných slovních tvarů a slov vůbec, gramatického slovosledu a běžné české syntaxe. | ||
- | * klíčové přitom je **zachování vazeb** mezi původní transkripcí (na w-roviněh) a standardizovaným textem (na m-rovině). | ||
- | |||
- | Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat. | ||
- | |||
- | ===== Příprava dat ===== | ||
- | Jako první data pro anotaci byla zvolena data z projektu Malach. Předzpracování dat bylo velmi náročné vzhledem k nutnosti získat nahrávky z korpusu projektu Malach a spárovat je s jejich transkripcí a částečnou standardizací z hlediska některých tvaroslovných koncovek, která byla provedena na Zápodočeské univerzitě v Plzni. Data byla vyčištěna od neúplných párů a poškozených záznamů a převedena do formátu PML. | ||
- | |||
- | |||
- | |||
- | ===== Původní verze anotačního nástroje: MEdit ===== | ||
- | Pro provádění rekonstrukce standardizovaného textu ze vstupní transkripce (pro převod w-roviny na m-rovinu) byl vytvořen speciální softwarový nástroj nazvaný **MEdit**. Tento nástroj umožňuje: | ||
- | * přesouvat libovolně slovní jednotky na m-rovině z hlediska jejich pořadí ve větě; | ||
- | * rozdělit nevhodně segmentovaný proud řeči; | ||
- | * slovní jednotky vymazat, vložit, spojit, jinak modifikovat, | ||
- | * propojit slovní jednotky na m-rovině a w-rovině tak, aby bylo zřejmé, se kterými slovními jednotkami původní transkripce (tj. slovními jednotky w-roviny) daná slovní jednotka m-roviny souvisí (ze kterých “vznikla”) a určit typ propojení; | ||
- | * poslech původní audionahrávky, | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | ===== Manuální rekonstrukce prvních 450 vět ===== | ||
- | V roce 2006 byla provedena manuální rekonstrukce prvních 450 vět. | ||
- | Pro tuto rekonstrucki byla použita pravidla zpracovaná Erin Fitzgerald (viz {{: | ||
- | |||
- | |||
- | |||
- | |||
- | |||
[ Back to the navigation ] [ Back to the content ]