====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== {{:komputacni-lingvistika:komputacni-lingvistika:pdt-cz-korpusy-prehled-1.doc|ke stažení}} ^ ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^ ^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| ^ počet vět|49 431|49 431|49 208|73 835|3 000| ^ morfologická|manuálně|manuálně|automaticky|automaticky|automaticky| ^ analytická|manuálně|manuálně|automaticky|automaticky|automaticky| ^ a.rf|automaticky|automaticky|manuálně|manuálně|manuálně| ^ gramatémy|poloauto|poloauto|ne (auto)|ne (auto)|ne (auto)| ^ struktura|manuálně|manuálně|manuálně|manuálně|manuálně| ^ funktory|manuálně|manuálně|manuálně|manuálně|manuálně| ^ subfunktory|automaticky|automaticky|ne|ne|ne (auto)| ^ valence|manuálně|manuálně|manuálně|manuálně|manuálně| ^ -- u substantiv|manuálně|manuálně|ne (RSTR) |ne (RSTR) |ne (RSTR)| ^ coref-gram|manuálně|manuálně|manuálně|bude|ne| ^coref-text|manuálně|manuálně|manuálně|bude|ne| ^ deepord, tfa|manuálně|manuálně|bude|ne|ne| ^ quot|manuálně|manuálně|ne|ne|ne| ^ klauze (na anal.)|ne|automaticky|ne|ne|ne| ^ víceslovné výrazy|ne|manuálně|ne|ne|ne| ^ typgroup|ne|manuálně|ne|manuálně|ne| ^ formémy|ne|bude|automaticky|ne|ne| ^ sentmod|automaticky|manuálně|ne| ne|ne| ^ factmod|ne|manuálně|ne|ne|ne| ^ coref – 1a2. osoba|ne|bude|bude|bude|ne| ^ coref-text-rozšíř. |ne|manuálně|ne|ne|ne| ^diskurz|ne|manuálně|ne|ne|ne| ^bridging|ne|manuálně|ne|ne|ne| manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná) automaticky = hodnoty jsou dosazeny automatickým nástrojem poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně ne = hodnoty nejsou vyplněny ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci. ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR **PDT 2.0** (2006, LDC) **Prague Dependency Treebank 2.0** http://ufal.mff.cuni.cz/pdt2.0/ **Morfologická:** 2 mil. slov **Analytická:** 1,5 mil. slov **Tektogramatická:** 0,8 mil. slov //Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995 //Mladá fronta Dnes// (deník), 1992 //Českomoravský Profit// (ekonomický týdeník), 1994 //Vesmír// (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993 (časopis Vesmír není zastoupen na tektogramatické rovině) **PDT 2.5** (2011, ÚFAL) **Prague Dependency Treebank 2.5** http://ufal.mff.cuni.cz/pdt2.5/ Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace. **PDT 3.0** (plán 2013, LDC) **Prague Dependency Treebank 3.0** Identické texty jako PDT 2.0. Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině. **PCEDT 2.0** (2011, LDC) **Prague Czech-English Dependency Treebank 2.0** http://ufal.mff.cuni.cz/pcedt2.0/ Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny. **PDTSC 2.0** (plán 2013, LDC) **Prague Dependency Treebank of Spoken Czech 2.0** (verze 1.0 (http://ufal.mff.cuni.cz/pdtsc1.0/) neobsahuje tektogramatickou anotaci) České texty z projektu //Malach// (lehce moderované dialogy s lidmi, kteří přežili holocaust) a dialogy z projektu //Companions// (vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků; rozhovory byly nahrávány v nastavení Wizard of Oz). Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči). **FAUST** (2011) Korpus vznikl pro projekt FAUST: http://www.faust-fp7.eu/faust/ Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah.