[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:26]
mikulova
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:33] (current)
mikulova
Line 1: Line 1:
 ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ====== ====== Přehled pdt-korpusů s manuální tektogramatickou anotací ======
 +{{:komputacni-lingvistika:komputacni-lingvistika:pdt-cz-korpusy-prehled-1.doc|ke stažení}}
 +
 ^   ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^   ^   ^ PDT 2.0 ^ PDT 2.5/3.0 ^ PCEDT-cz ^ PDTSC ^ FAUST ^  
 ^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772|  ^ počet tokenů|833 195|833 195|1 151 150|742 257|33 772| 
Line 44: Line 46:
 (časopis Vesmír není zastoupen na tektogramatické rovině) (časopis Vesmír není zastoupen na tektogramatické rovině)
  
 +**PDT 2.5** (2011, ÚFAL)
 +**Prague Dependency Treebank 2.5**
 +http://ufal.mff.cuni.cz/pdt2.5/
 +Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace.
 +
 +**PDT 3.0** (plán 2013, LDC)
 +**Prague Dependency Treebank 3.0**
 +Identické texty jako PDT 2.0.
 +Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině.
 +
 +**PCEDT 2.0** (2011, LDC)
 +**Prague Czech-English Dependency Treebank 2.0**
 +http://ufal.mff.cuni.cz/pcedt2.0/
 +Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny.
 +
 +**PDTSC 2.0** (plán 2013, LDC)
 +**Prague Dependency Treebank of Spoken Czech 2.0**
 +(verze 1.0 (http://ufal.mff.cuni.cz/pdtsc1.0/) neobsahuje tektogramatickou anotaci)
 +České texty z projektu  //Malach// (lehce moderované dialogy s lidmi, kteří přežili holocaust) a dialogy z projektu //Companions// (vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků; rozhovory byly nahrávány v nastavení Wizard of Oz).
 +Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči).
 +
 +**FAUST** (2011)
 +Korpus vznikl pro projekt FAUST:  http://www.faust-fp7.eu/faust/
 +Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah.
  

[ Back to the navigation ] [ Back to the content ]