[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 10:59]
mikulova vytvořeno
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:26]
mikulova
Line 1: Line 1:
-====== Přehled pražských závislostních korpusů s manuální tektogramatickou anotací ======+====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== 
 +^   ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^   
 +^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772|  
 +^ počet vět|49 431|49 431|49 208|73 835|3 000| 
 +^ morfologická|manuálně|manuálně|automaticky|automaticky|automaticky| 
 +^ analytická|manuálně|manuálně|automaticky|automaticky|automaticky| 
 +^ a.rf|automaticky|automaticky|manuálně|manuálně|manuálně| 
 +^ gramatémy|poloauto|poloauto|ne (auto)|ne (auto)|ne (auto)| 
 +^ struktura|manuálně|manuálně|manuálně|manuálně|manuálně| 
 +^ funktory|manuálně|manuálně|manuálně|manuálně|manuálně| 
 +^ subfunktory|automaticky|automaticky|ne|ne|ne (auto)| 
 +^ valence|manuálně|manuálně|manuálně|manuálně|manuálně| 
 +^ -- u substantiv|manuálně|manuálně|ne (RSTR) |ne (RSTR) |ne (RSTR)| 
 +^ coref-gram|manuálně|manuálně|manuálně|bude|ne| 
 +^coref-text|manuálně|manuálně|manuálně|bude|ne| 
 +^ deepord, tfa|manuálně|manuálně|bude|ne|ne| 
 +^ quot|manuálně|manuálně|ne|ne|ne| 
 +^ klauze (na anal.)|ne|automaticky|ne|ne|ne| 
 +^ víceslovné výrazy|ne|manuálně|ne|ne|ne| 
 +^ typgroup|ne|manuálně|ne|manuálně|ne| 
 +^ formémy|ne|bude|automaticky|ne|ne| 
 +^ sentmod|automaticky|manuálně|ne| ne|ne| 
 +^ factmod|ne|manuálně|ne|ne|ne| 
 +^ coref – 1a2. osoba|ne|bude|bude|bude|ne| 
 +^ coref-text-rozšíř. |ne|manuálně|ne|ne|ne| 
 +^diskurz|ne|manuálně|ne|ne|ne| 
 +^bridging|ne|manuálně|ne|ne|ne| 
 + 
 +manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná) 
 +automaticky = hodnoty jsou dosazeny automatickým nástrojem 
 +poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně 
 +ne = hodnoty nejsou vyplněny 
 +ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci. 
 +ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR 
 + 
 +**PDT 2.0** (2006, LDC) 
 +**Prague Dependency Treebank 2.0** 
 +http://ufal.mff.cuni.cz/pdt2.0/ 
 +**Morfologická:** 2 mil. slov **Analytická:** 1,5 mil. slov **Tektogramatická:** 0,8 mil. slov 
 +//Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995 
 +//Mladá fronta Dnes// (deník), 1992 
 +//Českomoravský Profit// (ekonomický týdeník), 1994 
 +//Vesmír// (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993 
 +(časopis Vesmír není zastoupen na tektogramatické rovině) 
  

[ Back to the navigation ] [ Back to the content ]