[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
pdtsc:start [2008/03/18 09:16]
mikulova
pdtsc:start [2010/05/19 15:30]
mikulova
Line 1: Line 1:
 ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ======
-**Pražský závislostní korpus mluvené češtiny** ​(Prague Dependency Treebank of Spoken ​Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.+Pražský závislostní korpus mluvené češtiny ​je součástí velkého projektu: ​**The PDTSL - Prague Dependency Treebank of Spoken ​Language**, jehož oficiální stránky jsou zde: [[http://​ufal.mff.cuni.cz/​pdtsl/​|Oficiální stránky projektu PDTSL]]
  
-Jako první data pro anotaci byla zvolena ​**data z projektu Malach**.+**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
  
-V prvním roce projektu (2005) probíhala lingvistická analýza dat z existujících,​ elektronicky dostupných mluvených korpusů. Ukázalo ​se, že mluvená řeč, zejména ve své spontánní podobě, ​nedodržuje často ani elementární gramatická pravidla a zvyklosti. ​ +Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řečiLingvistická analýza mluvené řeči a první pokusy ​se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní ​mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. ​Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechno, co lze při věrném přepisu mluvené řeči očekávat – včetně výplňkových slov, opakování,​ zakoktání,​ nových začátků, nedořečených klauzí, anakolutů i tzv. neřečových událostí, jako je zakašlání,​ smích apod. Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči ​byl proto stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na gramaticky správné věty, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči**. Klíčové přitom je zachování ​(anotovánívazeb mezi původní transkripcí mluvené řeči a rekonstruovaným standardizovaným textem. Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.
-Na základě těchto zjištění a v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči ​bylo rozhodnuto, že původní myšlenka úpravy specifikace tektogramatické reprezentace pro mluvenou řeč při zachování stylu a všech zásad anotace je zřejmě neschůdná. Byl stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na standardizovaný text, tj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči** (speech reconstruction). +
- +
-Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.+
  
 +Jako první data pro anotaci byla zvolena **data z projektu Malach**.
 +Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (v rámci projektu Companions).
  
 +  * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]]
   * [[people|Kdo na tom dělá a pod které projekty to patří]]   * [[people|Kdo na tom dělá a pod které projekty to patří]]
-  * [[done|Co už se udělalo]] +  * [[pub|Publikace, prezentace]]
-  * [[todo|Na čem se právě dělá]]+
   * [[:​pdtsc:​internal:​start|Interní poznámky]]   * [[:​pdtsc:​internal:​start|Interní poznámky]]
 +  * [[:​pdtsc:​internal:​cd|Příprava korpusu k vydání v LDC - PDTSC 1.0]]
 +  * [[cd|Příprava korpusu k vydání v LDC - PDTSC 1.0]]
 +
  
  

[ Back to the navigation ] [ Back to the content ]