[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Co už se na PDTSC udělalo

V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících, elektronicky dostupných mluvených korpusů. Ukázalo se, že mluvená řeč, zejména ve své spontánní podobě, nedodržuje často ani elementární gramatická pravidla a zvyklosti.
Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. rekonstrukce standardizovaného textu z mluvené řeči (speech reconstruction). A to následujícím způsobem:

Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.

Příprava dat

Jako první data pro anotaci byla zvolena data z projektu Malach. Předzpracování dat bylo velmi náročné vzhledem k nutnosti získat nahrávky z korpusu projektu Malach a spárovat je s jejich transkripcí a částečnou standardizací z hlediska některých tvaroslovných koncovek, která byla provedena na Zápodočeské univerzitě v Plzni. Data byla vyčištěna od neúplných párů a poškozených záznamů a převedena do formátu PML.

MEdit

Pro provádění rekonstrukce standardizovaného textu ze vstupní transkripce (pro převod w-roviny na m-rovinu) byl vytvořen speciální softwarový nástroj nazvaný MEdit. Tento nástroj umožňuje:

Manuální rekonstrukce prvních 450 vět

V roce 2006 byla provedena manuální rekonstrukce prvních 450 vět.
Pro tuto rekonstrucki byla použita pravidla zpracovaná Erin Fitzgerald (viz annotation_guidelines.doc). Erin Fitzgerald provádí obdobnou standardizaci na datech korpusu Switchboard v Center for Speech and Langauge Processing na Johns Hopkins University v Baltimore (u prof. Jelínka).


[ Back to the navigation ] [ Back to the content ]