Přehled pdt-korpusů s manuální tektogramatickou anotací
PDT 2.0 | PDT 2.5/3.0 | PCEDT-cz | PDTSC | FAUST | |
---|---|---|---|---|---|
počet tokenů | 833 195 | 833 195 | 1 151 150 | 742 257 | 33 772 |
počet vět | 49 431 | 49 431 | 49 208 | 73 835 | 3 000 |
morfologická | manuálně | manuálně | automaticky | automaticky | automaticky |
analytická | manuálně | manuálně | automaticky | automaticky | automaticky |
a.rf | automaticky | automaticky | manuálně | manuálně | manuálně |
gramatémy | poloauto | poloauto | ne (auto) | ne (auto) | ne (auto) |
struktura | manuálně | manuálně | manuálně | manuálně | manuálně |
funktory | manuálně | manuálně | manuálně | manuálně | manuálně |
subfunktory | automaticky | automaticky | ne | ne | ne (auto) |
valence | manuálně | manuálně | manuálně | manuálně | manuálně |
– u substantiv | manuálně | manuálně | ne (RSTR) | ne (RSTR) | ne (RSTR) |
coref-gram | manuálně | manuálně | manuálně | bude | ne |
coref-text | manuálně | manuálně | manuálně | bude | ne |
deepord, tfa | manuálně | manuálně | bude | ne | ne |
quot | manuálně | manuálně | ne | ne | ne |
klauze (na anal.) | ne | automaticky | ne | ne | ne |
víceslovné výrazy | ne | manuálně | ne | ne | ne |
typgroup | ne | manuálně | ne | manuálně | ne |
formémy | ne | bude | automaticky | ne | ne |
sentmod | automaticky | manuálně | ne | ne | ne |
factmod | ne | manuálně | ne | ne | ne |
coref – 1a2. osoba | ne | bude | bude | bude | ne |
coref-text-rozšíř. | ne | manuálně | ne | ne | ne |
diskurz | ne | manuálně | ne | ne | ne |
bridging | ne | manuálně | ne | ne | ne |
manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná)
automaticky = hodnoty jsou dosazeny automatickým nástrojem
poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně
ne = hodnoty nejsou vyplněny
ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci.
ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR
PDT 2.0 (2006, LDC)
Prague Dependency Treebank 2.0
http://ufal.mff.cuni.cz/pdt2.0/
Morfologická: 2 mil. slov Analytická: 1,5 mil. slov Tektogramatická: 0,8 mil. slov
Lidové noviny (deník), ISSN 1213-1385, 1991, 1994, 1995
Mladá fronta Dnes (deník), 1992
Českomoravský Profit (ekonomický týdeník), 1994
Vesmír (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993
(časopis Vesmír není zastoupen na tektogramatické rovině)
PDT 2.5 (2011, ÚFAL)
Prague Dependency Treebank 2.5
http://ufal.mff.cuni.cz/pdt2.5/
Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace.
PDT 3.0 (plán 2013, LDC)
Prague Dependency Treebank 3.0
Identické texty jako PDT 2.0.
Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině.
PCEDT 2.0 (2011, LDC)
Prague Czech-English Dependency Treebank 2.0
http://ufal.mff.cuni.cz/pcedt2.0/
Články z anglického deníku Wall Street Journal (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny.
PDTSC 2.0 (plán 2013, LDC)
Prague Dependency Treebank of Spoken Czech 2.0
(verze 1.0 (http://ufal.mff.cuni.cz/pdtsc1.0/) neobsahuje tektogramatickou anotaci)
České texty z projektu Malach (lehce moderované dialogy s lidmi, kteří přežili holocaust) a dialogy z projektu Companions (vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků; rozhovory byly nahrávány v nastavení Wizard of Oz).
Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči).
FAUST (2011)
Korpus vznikl pro projekt FAUST: http://www.faust-fp7.eu/faust/
Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah.