Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:22] mikulova |
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:33] (current) mikulova |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== | ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== | ||
+ | {{: | ||
+ | |||
^ ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^ | ^ ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^ | ||
^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| | ^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| | ||
Line 26: | Line 28: | ||
^diskurz|ne|manuálně|ne|ne|ne| | ^diskurz|ne|manuálně|ne|ne|ne| | ||
^bridging|ne|manuálně|ne|ne|ne| | ^bridging|ne|manuálně|ne|ne|ne| | ||
+ | |||
+ | manuálně = ruční anotace (může být automaticky předpřipravená, | ||
+ | automaticky = hodnoty jsou dosazeny automatickým nástrojem | ||
+ | poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně | ||
+ | ne = hodnoty nejsou vyplněny | ||
+ | ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci. | ||
+ | ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR | ||
+ | |||
+ | **PDT 2.0** (2006, LDC) | ||
+ | **Prague Dependency Treebank 2.0** | ||
+ | http:// | ||
+ | **Morfologická: | ||
+ | //Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995 | ||
+ | //Mladá fronta Dnes// (deník), 1992 | ||
+ | // | ||
+ | //Vesmír// (populárně vědecký měsíčník), | ||
+ | (časopis Vesmír není zastoupen na tektogramatické rovině) | ||
+ | |||
+ | **PDT 2.5** (2011, ÚFAL) | ||
+ | **Prague Dependency Treebank 2.5** | ||
+ | http:// | ||
+ | Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace. | ||
+ | |||
+ | **PDT 3.0** (plán 2013, LDC) | ||
+ | **Prague Dependency Treebank 3.0** | ||
+ | Identické texty jako PDT 2.0. | ||
+ | Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině. | ||
+ | |||
+ | **PCEDT 2.0** (2011, LDC) | ||
+ | **Prague Czech-English Dependency Treebank 2.0** | ||
+ | http:// | ||
+ | Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny. | ||
+ | |||
+ | **PDTSC 2.0** (plán 2013, LDC) | ||
+ | **Prague Dependency Treebank of Spoken Czech 2.0** | ||
+ | (verze 1.0 (http:// | ||
+ | České texty z projektu | ||
+ | Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči). | ||
+ | |||
+ | **FAUST** (2011) | ||
+ | Korpus vznikl pro projekt FAUST: | ||
+ | Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah. | ||