Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 10:59] mikulova vytvořeno |
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:33] (current) mikulova |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Přehled | + | ====== Přehled |
+ | {{: | ||
+ | |||
+ | ^ ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^ | ||
+ | ^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| | ||
+ | ^ počet vět|49 431|49 431|49 208|73 835|3 000| | ||
+ | ^ morfologická|manuálně|manuálně|automaticky|automaticky|automaticky| | ||
+ | ^ analytická|manuálně|manuálně|automaticky|automaticky|automaticky| | ||
+ | ^ a.rf|automaticky|automaticky|manuálně|manuálně|manuálně| | ||
+ | ^ gramatémy|poloauto|poloauto|ne (auto)|ne (auto)|ne (auto)| | ||
+ | ^ struktura|manuálně|manuálně|manuálně|manuálně|manuálně| | ||
+ | ^ funktory|manuálně|manuálně|manuálně|manuálně|manuálně| | ||
+ | ^ subfunktory|automaticky|automaticky|ne|ne|ne (auto)| | ||
+ | ^ valence|manuálně|manuálně|manuálně|manuálně|manuálně| | ||
+ | ^ -- u substantiv|manuálně|manuálně|ne (RSTR) |ne (RSTR) |ne (RSTR)| | ||
+ | ^ coref-gram|manuálně|manuálně|manuálně|bude|ne| | ||
+ | ^coref-text|manuálně|manuálně|manuálně|bude|ne| | ||
+ | ^ deepord, tfa|manuálně|manuálně|bude|ne|ne| | ||
+ | ^ quot|manuálně|manuálně|ne|ne|ne| | ||
+ | ^ klauze (na anal.)|ne|automaticky|ne|ne|ne| | ||
+ | ^ víceslovné výrazy|ne|manuálně|ne|ne|ne| | ||
+ | ^ typgroup|ne|manuálně|ne|manuálně|ne| | ||
+ | ^ formémy|ne|bude|automaticky|ne|ne| | ||
+ | ^ sentmod|automaticky|manuálně|ne| ne|ne| | ||
+ | ^ factmod|ne|manuálně|ne|ne|ne| | ||
+ | ^ coref – 1a2. osoba|ne|bude|bude|bude|ne| | ||
+ | ^ coref-text-rozšíř. |ne|manuálně|ne|ne|ne| | ||
+ | ^diskurz|ne|manuálně|ne|ne|ne| | ||
+ | ^bridging|ne|manuálně|ne|ne|ne| | ||
+ | |||
+ | manuálně = ruční anotace (může být automaticky předpřipravená, | ||
+ | automaticky = hodnoty jsou dosazeny automatickým nástrojem | ||
+ | poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně | ||
+ | ne = hodnoty nejsou vyplněny | ||
+ | ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci. | ||
+ | ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR | ||
+ | |||
+ | **PDT 2.0** (2006, LDC) | ||
+ | **Prague Dependency Treebank 2.0** | ||
+ | http:// | ||
+ | **Morfologická: | ||
+ | //Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995 | ||
+ | //Mladá fronta Dnes// (deník), 1992 | ||
+ | // | ||
+ | //Vesmír// (populárně vědecký měsíčník), | ||
+ | (časopis Vesmír není zastoupen na tektogramatické rovině) | ||
+ | |||
+ | **PDT 2.5** (2011, ÚFAL) | ||
+ | **Prague Dependency Treebank 2.5** | ||
+ | http:// | ||
+ | Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace. | ||
+ | |||
+ | **PDT 3.0** (plán 2013, LDC) | ||
+ | **Prague Dependency Treebank 3.0** | ||
+ | Identické texty jako PDT 2.0. | ||
+ | Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině. | ||
+ | |||
+ | **PCEDT 2.0** (2011, LDC) | ||
+ | **Prague Czech-English Dependency Treebank 2.0** | ||
+ | http:// | ||
+ | Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny. | ||
+ | |||
+ | **PDTSC 2.0** (plán 2013, LDC) | ||
+ | **Prague Dependency Treebank of Spoken Czech 2.0** | ||
+ | (verze 1.0 (http:// | ||
+ | České texty z projektu | ||
+ | Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči). | ||
+ | |||
+ | **FAUST** (2011) | ||
+ | Korpus vznikl pro projekt FAUST: | ||
+ | Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah. | ||