[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
pdtsc:start [2007/05/31 15:26]
ptacek Links to external:pdtsc:people changed to pdtsc:people
pdtsc:start [2010/05/19 15:30]
mikulova
Line 1: Line 1:
 ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ======
-**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC)) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.+Pražský závislostní korpus mluvené češtiny je součástí velkého projektu: **The PDTSL - Prague Dependency Treebank of Spoken Language**, jehož oficiální stránky jsou zde: [[http://ufal.mff.cuni.cz/pdtsl/|Oficiální stránky projektu PDTSL]]
  
-Předpokládáme, že data korpusu PDTSC budou data z existujících mluvených korpusů, ke kterým se podaří získat přístup. Vybírána budou tak, aby pokrývala široké spektrum různých typů mluvených projevů: spontánní neformální mluvené projevy, diskuze, přednášky, interwiew aj.+**Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; PDTSC) bude hloubkově syntakticky anotovaný korpus mluvené češtiny pro účely pravděpodobnostního trénování a strojového učení za účelem plného porozumění mluvené řeči.
  
-Jako první data pro anotaci byla zvolena **data z projektu Malach**která leží zhruba polovině škály mezi zcela spontánní komunikací ve skupině a řečí čtenoukterá by nepřinesla k poznání mluvené řeči prakticky nic nového.+Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řeči. Lingvistická analýza mluvené řeči a první pokusy se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechno, co lze při rném přepisu mluvené řeči očekávat – včetně výplňkových slov, opakování, zakoktání, nových začátků, nedořečených klauzí, anakolutů i tzv. neřečových událostí, jako je zakašlání, smích apod. Na základě těchto zjištění v souladu s celosvětově novými směry výzkumu v oblasti zpracování mluvené řeči byl proto stanoven nový postup: před vlastní hloubkovou analýzou se segmenty mluvené řeči nejprve převedou na gramaticky správné větytj. provede se tzv. **rekonstrukce standardizovaného textu z mluvené řeči**. Klíčové přitom je zachování (anotování) vazeb mezi původní transkripcí mluvené řeči a rekonstruovaným standardizovaným textem. Standardizovaný text bude následně anotován podle stávajících pravidel tektogramatické anotace, aniž by se tato pravidla musela nějak výrazně upravovat.
  
 +Jako první data pro anotaci byla zvolena **data z projektu Malach**.
 +Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (v rámci projektu Companions).
 +
 +  * [[todo|Rekonstrukce standardizovaného textu z mluvené řeči]]
   * [[people|Kdo na tom dělá a pod které projekty to patří]]   * [[people|Kdo na tom dělá a pod které projekty to patří]]
-  * [[external:pdtsc:done|Co už se udělalo]] +  * [[pub|Publikace, prezentace]] 
-  * [[external:pdtsc:todo|Na čem se právě dělá]] +  * [[:pdtsc:internal:start|Interní poznámky]] 
-  * [[:internal:pdtsc|Interní poznámky]]+  * [[:pdtsc:internal:cd|Příprava korpusu k vydání v LDC - PDTSC 1.0]] 
 +  * [[cd|Příprava korpusu k vydání v LDC - PDTSC 1.0]] 
  
  

[ Back to the navigation ] [ Back to the content ]