This is an old revision of the document!
Přehled pdt-korpusů s manuální tektogramatickou anotací
PDT 2.0 | PDT 2.5/3.0 | PCEDT-cz | PDTSC | FAUST | |
---|---|---|---|---|---|
počet tokenů | 833 195 | 833 195 | 1 151 150 | 742 257 | 33 772 |
počet vět | 49 431 | 49 431 | 49 208 | 73 835 | 3 000 |
morfologická | manuálně | manuálně | automaticky | automaticky | automaticky |
analytická | manuálně | manuálně | automaticky | automaticky | automaticky |
a.rf | automaticky | automaticky | manuálně | manuálně | manuálně |
gramatémy | poloauto | poloauto | ne (auto) | ne (auto) | ne (auto) |
struktura | manuálně | manuálně | manuálně | manuálně | manuálně |
funktory | manuálně | manuálně | manuálně | manuálně | manuálně |
subfunktory | automaticky | automaticky | ne | ne | ne (auto) |
valence | manuálně | manuálně | manuálně | manuálně | manuálně |
– u substantiv | manuálně | manuálně | ne (RSTR) | ne (RSTR) | ne (RSTR) |
coref-gram | manuálně | manuálně | manuálně | bude | ne |
coref-text | manuálně | manuálně | manuálně | bude | ne |
deepord, tfa | manuálně | manuálně | bude | ne | ne |
quot | manuálně | manuálně | ne | ne | ne |
klauze (na anal.) | ne | automaticky | ne | ne | ne |
víceslovné výrazy | ne | manuálně | ne | ne | ne |
typgroup | ne | manuálně | ne | manuálně | ne |
formémy | ne | bude | automaticky | ne | ne |
sentmod | automaticky | manuálně | ne | ne | ne |
factmod | ne | manuálně | ne | ne | ne |
coref – 1a2. osoba | ne | bude | bude | bude | ne |
coref-text-rozšíř. | ne | manuálně | ne | ne | ne |
diskurz | ne | manuálně | ne | ne | ne |
bridging | ne | manuálně | ne | ne | ne |
manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná)
automaticky = hodnoty jsou dosazeny automatickým nástrojem
poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně
ne = hodnoty nejsou vyplněny
ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci.
ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR
PDT 2.0 (2006, LDC)
Prague Dependency Treebank 2.0
http://ufal.mff.cuni.cz/pdt2.0/
Morfologická: 2 mil. slov Analytická: 1,5 mil. slov Tektogramatická: 0,8 mil. slov
Lidové noviny (deník), ISSN 1213-1385, 1991, 1994, 1995
Mladá fronta Dnes (deník), 1992
Českomoravský Profit (ekonomický týdeník), 1994
Vesmír (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993
(časopis Vesmír není zastoupen na tektogramatické rovině)