Table of Contents
Rekonstrukce standardizovaného textu z mluvené řeči
Více informací je na interních stránkách.
Rekonstrukce standardizovaného textu z mluvené řeči představuje nový způsob definice rozhraní mezi systémy automatického rozpoznávání řeči a systémy hloubkové (významové) analýzy (psaného) textu. Vychází z přesvědčení, že při syntakticko-sémantické analýze, tj. při zachycování významu promluv, není nutné zohledňovat specifické jevy mluvené řeči, ale nezbytně nutné je pouze zachovat významy původních vyřčených segmentů a tyto významy zachytit v anotaci.
Při anotaci rekonstrukce standardizovaného textu z mluvené řeči v Pražském závislostním korpusu mluvené češtiny počítáme se třemi hierarchicky uspořádanými rovinami:
- z-rovina: nejnižší rovina korpusu. Obsahuje automaticky rozpoznané a automaticky segmentované promluvy.
- w-rovina: zachycuje manuálně transkribovaný text promluvy, tj. to, co mluvčí řekl, včetně všech přeřeknutí, zakašlání, pauz apod.
- m-rovina: obsahuje standardizovaný text, na kterém se následně provede morfologická anotace (text pak může být anotován na vyšších syntaktických rovinách).
Klíčové při tomto postupu je zachování vazeb mezi původní transkripcí (na w-rovině) a standardizovaným textem (na m-rovině). Propojeny jsou i jednotky w-roviny a z-roviny.
Jak jsme daleko
Oficiální zahájení anotací: 19. 12. 2007
Pravidla anotace
Aktuální verze anotačního manuálu: tr-2008-38
Anotační nástroj: MEd
Anotační nástroj MEd má své stránky zde: Anotační nástroj: Med