[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 10:59]
mikulova vytvořeno
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:33] (current)
mikulova
Line 1: Line 1:
-====== Přehled pražských závislostních korpusů s manuální tektogramatickou anotací ======+====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== 
 +{{:komputacni-lingvistika:komputacni-lingvistika:pdt-cz-korpusy-prehled-1.doc|ke stažení}} 
 + 
 +^   ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^   
 +^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772|  
 +^ počet vět|49 431|49 431|49 208|73 835|3 000| 
 +^ morfologická|manuálně|manuálně|automaticky|automaticky|automaticky| 
 +^ analytická|manuálně|manuálně|automaticky|automaticky|automaticky| 
 +^ a.rf|automaticky|automaticky|manuálně|manuálně|manuálně| 
 +^ gramatémy|poloauto|poloauto|ne (auto)|ne (auto)|ne (auto)| 
 +^ struktura|manuálně|manuálně|manuálně|manuálně|manuálně| 
 +^ funktory|manuálně|manuálně|manuálně|manuálně|manuálně| 
 +^ subfunktory|automaticky|automaticky|ne|ne|ne (auto)| 
 +^ valence|manuálně|manuálně|manuálně|manuálně|manuálně| 
 +^ -- u substantiv|manuálně|manuálně|ne (RSTR) |ne (RSTR) |ne (RSTR)| 
 +^ coref-gram|manuálně|manuálně|manuálně|bude|ne| 
 +^coref-text|manuálně|manuálně|manuálně|bude|ne| 
 +^ deepord, tfa|manuálně|manuálně|bude|ne|ne| 
 +^ quot|manuálně|manuálně|ne|ne|ne| 
 +^ klauze (na anal.)|ne|automaticky|ne|ne|ne| 
 +^ víceslovné výrazy|ne|manuálně|ne|ne|ne| 
 +^ typgroup|ne|manuálně|ne|manuálně|ne| 
 +^ formémy|ne|bude|automaticky|ne|ne| 
 +^ sentmod|automaticky|manuálně|ne| ne|ne| 
 +^ factmod|ne|manuálně|ne|ne|ne| 
 +^ coref – 1a2. osoba|ne|bude|bude|bude|ne| 
 +^ coref-text-rozšíř. |ne|manuálně|ne|ne|ne| 
 +^diskurz|ne|manuálně|ne|ne|ne| 
 +^bridging|ne|manuálně|ne|ne|ne| 
 + 
 +manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná) 
 +automaticky = hodnoty jsou dosazeny automatickým nástrojem 
 +poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně 
 +ne = hodnoty nejsou vyplněny 
 +ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci. 
 +ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR 
 + 
 +**PDT 2.0** (2006, LDC) 
 +**Prague Dependency Treebank 2.0** 
 +http://ufal.mff.cuni.cz/pdt2.0/ 
 +**Morfologická:** 2 mil. slov **Analytická:** 1,5 mil. slov **Tektogramatická:** 0,8 mil. slov 
 +//Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995 
 +//Mladá fronta Dnes// (deník), 1992 
 +//Českomoravský Profit// (ekonomický týdeník), 1994 
 +//Vesmír// (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993 
 +(časopis Vesmír není zastoupen na tektogramatické rovině) 
 + 
 +**PDT 2.5** (2011, ÚFAL) 
 +**Prague Dependency Treebank 2.5** 
 +http://ufal.mff.cuni.cz/pdt2.5/ 
 +Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace. 
 + 
 +**PDT 3.0** (plán 2013, LDC) 
 +**Prague Dependency Treebank 3.0** 
 +Identické texty jako PDT 2.0. 
 +Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině. 
 + 
 +**PCEDT 2.0** (2011, LDC) 
 +**Prague Czech-English Dependency Treebank 2.0** 
 +http://ufal.mff.cuni.cz/pcedt2.0/ 
 +Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny. 
 + 
 +**PDTSC 2.0** (plán 2013, LDC) 
 +**Prague Dependency Treebank of Spoken Czech 2.0** 
 +(verze 1.0 (http://ufal.mff.cuni.cz/pdtsc1.0/) neobsahuje tektogramatickou anotaci) 
 +České texty z projektu  //Malach// (lehce moderované dialogy s lidmi, kteří přežili holocaust) a dialogy z projektu //Companions// (vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků; rozhovory byly nahrávány v nastavení Wizard of Oz). 
 +Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči). 
 + 
 +**FAUST** (2011) 
 +Korpus vznikl pro projekt FAUST:  http://www.faust-fp7.eu/faust/ 
 +Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah.
  

[ Back to the navigation ] [ Back to the content ]