[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Přehled pdt-korpusů s manuální tektogramatickou anotací

PDT 2.0 PDT 2.5/3.0 PCEDT-cz PDTSC FAUST
počet tokenů833 195833 1951 151 150742 25733 772
počet vět49 43149 43149 20873 8353 000
morfologickámanuálněmanuálněautomatickyautomatickyautomaticky
analytickámanuálněmanuálněautomatickyautomatickyautomaticky
a.rfautomatickyautomatickymanuálněmanuálněmanuálně
gramatémypoloautopoloautone (auto)ne (auto)ne (auto)
strukturamanuálněmanuálněmanuálněmanuálněmanuálně
funktorymanuálněmanuálněmanuálněmanuálněmanuálně
subfunktoryautomatickyautomatickynenene (auto)
valencemanuálněmanuálněmanuálněmanuálněmanuálně
– u substantivmanuálněmanuálněne (RSTR) ne (RSTR) ne (RSTR)
coref-grammanuálněmanuálněmanuálněbudene
coref-textmanuálněmanuálněmanuálněbudene
deepord, tfamanuálněmanuálněbudenene
quotmanuálněmanuálněnenene
klauze (na anal.)neautomatickynenene
víceslovné výrazynemanuálněnenene
typgroupnemanuálněnemanuálněne
formémynebudeautomatickynene
sentmodautomatickymanuálněne nene
factmodnemanuálněnenene
coref – 1a2. osobanebudebudebudene
coref-text-rozšíř. nemanuálněnenene
diskurznemanuálněnenene
bridgingnemanuálněnenene

manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná)
automaticky = hodnoty jsou dosazeny automatickým nástrojem
poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně
ne = hodnoty nejsou vyplněny
ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci.
ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR

PDT 2.0 (2006, LDC)
Prague Dependency Treebank 2.0
http://ufal.mff.cuni.cz/pdt2.0/
Morfologická: 2 mil. slov Analytická: 1,5 mil. slov Tektogramatická: 0,8 mil. slov
Lidové noviny (deník), ISSN 1213-1385, 1991, 1994, 1995
Mladá fronta Dnes (deník), 1992
Českomoravský Profit (ekonomický týdeník), 1994
Vesmír (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993
(časopis Vesmír není zastoupen na tektogramatické rovině)

PDT 2.5 (2011, ÚFAL)
Prague Dependency Treebank 2.5
http://ufal.mff.cuni.cz/pdt2.5/
Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace.

PDT 3.0 (plán 2013, LDC)
Prague Dependency Treebank 3.0
Identické texty jako PDT 2.0.
Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině.

PCEDT 2.0 (2011, LDC)
Prague Czech-English Dependency Treebank 2.0
http://ufal.mff.cuni.cz/pcedt2.0/
Články z anglického deníku Wall Street Journal (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny.

PDTSC 2.0 (plán 2013, LDC)
Prague Dependency Treebank of Spoken Czech 2.0
(verze 1.0 (http://ufal.mff.cuni.cz/pdtsc1.0/) neobsahuje tektogramatickou anotaci)
České texty z projektu Malach (lehce moderované dialogy s lidmi, kteří přežili holocaust) a dialogy z projektu Companions (vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků; rozhovory byly nahrávány v nastavení Wizard of Oz).
Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči).

FAUST (2011)
Korpus vznikl pro projekt FAUST: http://www.faust-fp7.eu/faust/
Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah.


[ Back to the navigation ] [ Back to the content ]