[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 10:59]
mikulova
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:26]
mikulova
Line 1: Line 1:
 ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ======
 +^   ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^  
 +^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| 
 +^ počet vět|49 431|49 431|49 208|73 835|3 000|
 +^ morfologická|manuálně|manuálně|automaticky|automaticky|automaticky|
 +^ analytická|manuálně|manuálně|automaticky|automaticky|automaticky|
 +^ a.rf|automaticky|automaticky|manuálně|manuálně|manuálně|
 +^ gramatémy|poloauto|poloauto|ne (auto)|ne (auto)|ne (auto)|
 +^ struktura|manuálně|manuálně|manuálně|manuálně|manuálně|
 +^ funktory|manuálně|manuálně|manuálně|manuálně|manuálně|
 +^ subfunktory|automaticky|automaticky|ne|ne|ne (auto)|
 +^ valence|manuálně|manuálně|manuálně|manuálně|manuálně|
 +^ -- u substantiv|manuálně|manuálně|ne (RSTR) |ne (RSTR) |ne (RSTR)|
 +^ coref-gram|manuálně|manuálně|manuálně|bude|ne|
 +^coref-text|manuálně|manuálně|manuálně|bude|ne|
 +^ deepord, tfa|manuálně|manuálně|bude|ne|ne|
 +^ quot|manuálně|manuálně|ne|ne|ne|
 +^ klauze (na anal.)|ne|automaticky|ne|ne|ne|
 +^ víceslovné výrazy|ne|manuálně|ne|ne|ne|
 +^ typgroup|ne|manuálně|ne|manuálně|ne|
 +^ formémy|ne|bude|automaticky|ne|ne|
 +^ sentmod|automaticky|manuálně|ne| ne|ne|
 +^ factmod|ne|manuálně|ne|ne|ne|
 +^ coref – 1a2. osoba|ne|bude|bude|bude|ne|
 +^ coref-text-rozšíř. |ne|manuálně|ne|ne|ne|
 +^diskurz|ne|manuálně|ne|ne|ne|
 +^bridging|ne|manuálně|ne|ne|ne|
 +
 +manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná)
 +automaticky = hodnoty jsou dosazeny automatickým nástrojem
 +poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně
 +ne = hodnoty nejsou vyplněny
 +ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci.
 +ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR
 +
 +**PDT 2.0** (2006, LDC)
 +**Prague Dependency Treebank 2.0**
 +http://ufal.mff.cuni.cz/pdt2.0/
 +**Morfologická:** 2 mil. slov **Analytická:** 1,5 mil. slov **Tektogramatická:** 0,8 mil. slov
 +//Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995
 +//Mladá fronta Dnes// (deník), 1992
 +//Českomoravský Profit// (ekonomický týdeník), 1994
 +//Vesmír// (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993
 +(časopis Vesmír není zastoupen na tektogramatické rovině)
 +
  

[ Back to the navigation ] [ Back to the content ]