Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:26] mikulova |
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:33] (current) mikulova |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== | ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== | ||
+ | {{: | ||
+ | |||
^ ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^ | ^ ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^ | ||
^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| | ^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| | ||
Line 44: | Line 46: | ||
(časopis Vesmír není zastoupen na tektogramatické rovině) | (časopis Vesmír není zastoupen na tektogramatické rovině) | ||
+ | **PDT 2.5** (2011, ÚFAL) | ||
+ | **Prague Dependency Treebank 2.5** | ||
+ | http:// | ||
+ | Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace. | ||
+ | |||
+ | **PDT 3.0** (plán 2013, LDC) | ||
+ | **Prague Dependency Treebank 3.0** | ||
+ | Identické texty jako PDT 2.0. | ||
+ | Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině. | ||
+ | |||
+ | **PCEDT 2.0** (2011, LDC) | ||
+ | **Prague Czech-English Dependency Treebank 2.0** | ||
+ | http:// | ||
+ | Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny. | ||
+ | |||
+ | **PDTSC 2.0** (plán 2013, LDC) | ||
+ | **Prague Dependency Treebank of Spoken Czech 2.0** | ||
+ | (verze 1.0 (http:// | ||
+ | České texty z projektu | ||
+ | Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči). | ||
+ | |||
+ | **FAUST** (2011) | ||
+ | Korpus vznikl pro projekt FAUST: | ||
+ | Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah. | ||