Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
pdtsc:start [2007/05/31 15:25] ptacek Document moved from external:pdtsc |
pdtsc:start [2010/05/19 15:31] (current) mikulova |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ====== Prague Dependency Treebank of Spoken Czech (PDTSC) ====== | ||
- | **Pražský závislostní korpus mluvené češtiny** | + | Pražský závislostní korpus mluvené češtiny |
- | Předpokládáme, | + | **Pražský závislostní korpus mluvené češtiny** (Prague Dependency Treebank of Spoken Czech; |
- | Jako první data pro anotaci byla zvolena **data z projektu Malach**, která leží zhruba | + | Původním záměrem při budování PDTSC bylo syntakticko-sémanticky anotovat mluvenou řeč podle pravidel pro anotaci psaných textů Pražského závislostního korpusu a tato pravidla pouze upravovat a rozšiřovat pro zvláštnosti mluvené řeči. Lingvistická analýza mluvené řeči a první pokusy se syntaktickou anotací však ukázaly, že vzhledem ke specifičnosti mluveného projevu je tento původní záměr zřejmě neschůdný. Spontánní mluvená řeč nedodržuje často ani elementární gramatická pravidla a zvyklosti. Musela by tudíž být doslova vymýšlena “gramatická” (spíše však “negramatická”) pravidla anotace na všechno, co lze při věrném přepisu mluvené řeči očekávat – včetně výplňkových slov, opakování, |
+ | |||
+ | Jako první data pro anotaci byla zvolena **data z projektu Malach**. | ||
+ | Vedle malachovských dat anotujeme také české dialogy **Senior Companions** (v rámci projektu Companions). | ||
+ | |||
+ | * [[todo|Rekonstrukce standardizovaného textu z mluvené | ||
+ | * [[people|Kdo na tom dělá a pod které projekty to patří]] | ||
+ | * [[pub|Publikace, prezentace]] | ||
+ | * [[: | ||
+ | * [[: | ||
- | * [[external: | ||
- | * [[external: | ||
- | * [[external: | ||
- | * [[: | ||