[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 10:59]
mikulova
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:33] (current)
mikulova
Line 1: Line 1:
 ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ======
 +{{:komputacni-lingvistika:komputacni-lingvistika:pdt-cz-korpusy-prehled-1.doc|ke stažení}}
 +
 +^   ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^  
 +^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| 
 +^ počet vět|49 431|49 431|49 208|73 835|3 000|
 +^ morfologická|manuálně|manuálně|automaticky|automaticky|automaticky|
 +^ analytická|manuálně|manuálně|automaticky|automaticky|automaticky|
 +^ a.rf|automaticky|automaticky|manuálně|manuálně|manuálně|
 +^ gramatémy|poloauto|poloauto|ne (auto)|ne (auto)|ne (auto)|
 +^ struktura|manuálně|manuálně|manuálně|manuálně|manuálně|
 +^ funktory|manuálně|manuálně|manuálně|manuálně|manuálně|
 +^ subfunktory|automaticky|automaticky|ne|ne|ne (auto)|
 +^ valence|manuálně|manuálně|manuálně|manuálně|manuálně|
 +^ -- u substantiv|manuálně|manuálně|ne (RSTR) |ne (RSTR) |ne (RSTR)|
 +^ coref-gram|manuálně|manuálně|manuálně|bude|ne|
 +^coref-text|manuálně|manuálně|manuálně|bude|ne|
 +^ deepord, tfa|manuálně|manuálně|bude|ne|ne|
 +^ quot|manuálně|manuálně|ne|ne|ne|
 +^ klauze (na anal.)|ne|automaticky|ne|ne|ne|
 +^ víceslovné výrazy|ne|manuálně|ne|ne|ne|
 +^ typgroup|ne|manuálně|ne|manuálně|ne|
 +^ formémy|ne|bude|automaticky|ne|ne|
 +^ sentmod|automaticky|manuálně|ne| ne|ne|
 +^ factmod|ne|manuálně|ne|ne|ne|
 +^ coref – 1a2. osoba|ne|bude|bude|bude|ne|
 +^ coref-text-rozšíř. |ne|manuálně|ne|ne|ne|
 +^diskurz|ne|manuálně|ne|ne|ne|
 +^bridging|ne|manuálně|ne|ne|ne|
 +
 +manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná)
 +automaticky = hodnoty jsou dosazeny automatickým nástrojem
 +poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně
 +ne = hodnoty nejsou vyplněny
 +ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci.
 +ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR
 +
 +**PDT 2.0** (2006, LDC)
 +**Prague Dependency Treebank 2.0**
 +http://ufal.mff.cuni.cz/pdt2.0/
 +**Morfologická:** 2 mil. slov **Analytická:** 1,5 mil. slov **Tektogramatická:** 0,8 mil. slov
 +//Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995
 +//Mladá fronta Dnes// (deník), 1992
 +//Českomoravský Profit// (ekonomický týdeník), 1994
 +//Vesmír// (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993
 +(časopis Vesmír není zastoupen na tektogramatické rovině)
 +
 +**PDT 2.5** (2011, ÚFAL)
 +**Prague Dependency Treebank 2.5**
 +http://ufal.mff.cuni.cz/pdt2.5/
 +Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace.
 +
 +**PDT 3.0** (plán 2013, LDC)
 +**Prague Dependency Treebank 3.0**
 +Identické texty jako PDT 2.0.
 +Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině.
 +
 +**PCEDT 2.0** (2011, LDC)
 +**Prague Czech-English Dependency Treebank 2.0**
 +http://ufal.mff.cuni.cz/pcedt2.0/
 +Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny.
 +
 +**PDTSC 2.0** (plán 2013, LDC)
 +**Prague Dependency Treebank of Spoken Czech 2.0**
 +(verze 1.0 (http://ufal.mff.cuni.cz/pdtsc1.0/) neobsahuje tektogramatickou anotaci)
 +České texty z projektu  //Malach// (lehce moderované dialogy s lidmi, kteří přežili holocaust) a dialogy z projektu //Companions// (vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků; rozhovory byly nahrávány v nastavení Wizard of Oz).
 +Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči).
 +
 +**FAUST** (2011)
 +Korpus vznikl pro projekt FAUST:  http://www.faust-fp7.eu/faust/
 +Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah.
  

[ Back to the navigation ] [ Back to the content ]