[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
pdtsc:start [2008/03/18 09:16]
mikulova
pdtsc:start [2010/05/19 15:31] (current)
mikulova
Line 1: Line 1:
 ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ======
-**Pražský závislostní korpus mluvené češtiny** ​(Prague Dependency Treebank of Spoken ​Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.+Pražský závislostní korpus mluvené češtiny ​je součástí velkého projektu: ​**The PDTSL - Prague Dependency Treebank of Spoken ​Language**, jehož oficiální stránky jsou zde: [[http://​ufal.mff.cuni.cz/​pdtsl/​|Oficiální stránky projektu PDTSL]]
  
-Jako první data pro anotaci byla zvolena ​**data z projektu Malach**.+**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
  
-V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících,​ elektronicky dostupných mluvených korpusů. Ukázalo ​se, že mluvená řeč, zejména ve své spontánní podobě, ​nedodržuje často ani elementární gramatická pravidla a zvyklosti. ​ +Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řečiLingvistická analýza mluvené řeči a první pokusy ​se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní ​mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. ​Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechno, co lze při věrném přepisu mluvené řeči očekávat – včetně výplňkových slov, opakování,​ zakoktání,​ nových začátků, nedořečených klauzí, anakolutů i tzv. neřečových událostí, jako je zakašlání,​ smích apod. Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči ​byl proto stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na gramaticky správné věty, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči**. Klíčové přitom je zachování ​(anotovánívazeb mezi původní transkripcí mluvené řeči a rekonstruovaným standardizovaným textem. Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.
-Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči ​bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). +
- +
-Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.+
  
 +Jako první data pro anotaci byla zvolena **data z projektu Malach**.
 +Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (v rámci projektu Companions).
  
 +  * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]]
   * [[people|Kdo na tom dělá a pod které projekty to patří]]   * [[people|Kdo na tom dělá a pod které projekty to patří]]
-  * [[done|Co už se udělalo]] +  * [[pub|Publikace, prezentace]]
-  * [[todo|Na čem se právě dělá]]+
   * [[:​pdtsc:​internal:​start|Interní poznámky]]   * [[:​pdtsc:​internal:​start|Interní poznámky]]
 +  * [[:​pdtsc:​internal:​cd|Příprava korpusu k vydání v LDC - PDTSC 1.0]]
 +
  
  

[ Back to the navigation ] [ Back to the content ]