====== Rekonstrukce standardizovaného textu z mluvené řeči ====== Více informací je na [[:pdtsc:internal:start|interních stránkách]]. Rekonstrukce standardizovaného textu z mluvené řeči představuje nový způsob definice rozhraní mezi systémy automatického rozpoznávání řeči a systémy hloubkové (významové) analýzy (psaného) textu. Vychází z přesvědčení, že při syntakticko-sémantické analýze, tj. při zachycování významu promluv, není nutné zohledňovat specifické jevy mluvené řeči, ale nezbytně nutné je pouze zachovat významy původních vyřčených segmentů a tyto významy zachytit v anotaci. Při anotaci rekonstrukce standardizovaného textu z mluvené řeči v Pražském závislostním korpusu mluvené češtiny počítáme se třemi hierarchicky uspořádanými rovinami: * **z-rovina**: nejnižší rovina korpusu. Obsahuje automaticky rozpoznané a automaticky segmentované promluvy. * **w-rovina**: zachycuje manuálně transkribovaný text promluvy, tj. to, co mluvčí řekl, včetně všech přeřeknutí, zakašlání, pauz apod. * **m-rovina**: obsahuje standardizovaný text, na kterém se následně provede morfologická anotace (text pak může být anotován na vyšších syntaktických rovinách). Klíčové při tomto postupu je **zachování vazeb** mezi původní transkripcí (na w-rovině) a standardizovaným textem (na m-rovině). Propojeny jsou i jednotky w-roviny a z-roviny. ===== Jak jsme daleko ===== Oficiální zahájení anotací: **19. 12. 2007** [[https://blackbird.ms.mff.cuni.cz/cgi-bin/pajas/svn_file_view.pl|On-line prohlížeč anotovaných souborů]] ===== Pravidla anotace ===== Aktuální verze anotačního manuálu: {{pdtsc:tr-2008-38.pdf|tr-2008-38}} ===== Anotační nástroj: MEd ===== Anotační nástroj MEd má své stránky zde: [[https://ufal.mff.cuni.cz/pajas:med|Anotační nástroj: Med]]