[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:22]
mikulova
komputacni-lingvistika:komputacni-lingvistika:kurpusy-tab [2012/12/06 11:31]
mikulova
Line 26: Line 26:
 ^diskurz|ne|manuálně|ne|ne|ne| ^diskurz|ne|manuálně|ne|ne|ne|
 ^bridging|ne|manuálně|ne|ne|ne| ^bridging|ne|manuálně|ne|ne|ne|
 +
 +manuálně = ruční anotace (může být automaticky předpřipravená, ale vždy ručně zkontrolovaná)
 +automaticky = hodnoty jsou dosazeny automatickým nástrojem
 +poloauto = hodnoty jsou dosazeny automatickým nástrojem, v některých případech zkontrolované a doplňované ručně
 +ne = hodnoty nejsou vyplněny
 +ne (auto) = hodnoty nejsou vyplněny, a pokud ano, jsou to nespolehlivé hodnoty, které vyprodukoval automatický parser, který stromy připravuje k anotaci.
 +ne (RSTR) = namísto funktorů aktantů a substantivních funktorů MAT, APP, AUTH je vždy funktor RSTR
 +
 +**PDT 2.0** (2006, LDC)
 +**Prague Dependency Treebank 2.0**
 +http://ufal.mff.cuni.cz/pdt2.0/
 +**Morfologická:** 2 mil. slov **Analytická:** 1,5 mil. slov **Tektogramatická:** 0,8 mil. slov
 +//Lidové noviny// (deník), ISSN 1213-1385, 1991, 1994, 1995
 +//Mladá fronta Dnes// (deník), 1992
 +//Českomoravský Profit// (ekonomický týdeník), 1994
 +//Vesmír// (populárně vědecký měsíčník), ISSN 1214-4029, Vesmír, s.r.o., 1992, 1993
 +(časopis Vesmír není zastoupen na tektogramatické rovině)
 +
 +**PDT 2.5** (2011, ÚFAL)
 +**Prague Dependency Treebank 2.5**
 +http://ufal.mff.cuni.cz/pdt2.5/
 +Identické texty jako PDT 2.0, obohacená tektogramatická a analytická anotace.
 +
 +**PDT 3.0** (plán 2013, LDC)
 +**Prague Dependency Treebank 3.0**
 +Identické texty jako PDT 2.0.
 +Korpus bude zahrnovat PDT 2.5 plus další novinky v anotaci na tektogramatické rovině.
 +
 +**PCEDT 2.0** (2011, LDC)
 +**Prague Czech-English Dependency Treebank 2.0**
 +http://ufal.mff.cuni.cz/pcedt2.0/
 +Články z anglického deníku //Wall Street Journal// (z let 1989), které byly pro českou část korpusu přeloženy (profesionálními překladateli) do češtiny.
 +
 +**PDTSC 2.0** (plán 2013, LDC)
 +**Prague Dependency Treebank of Spoken Czech 2.0**
 +(verze 1.0 (http://ufal.mff.cuni.cz/pdtsc1.0/) neobsahuje tektogramatickou anotaci)
 +České texty z projektu  //Malach// (lehce moderované dialogy s lidmi, kteří přežili holocaust) a dialogy z projektu //Companions// (vzpomínání a konverzace nad osobní sbírkou fotografií jednoho z řečníků; rozhovory byly nahrávány v nastavení Wizard of Oz).
 +Doslovný přepis mluvené řeči (w-rovina) je na m-rovině nahrazen tzv. standardizovaným textem (rekonstrukce mluvené řeči).
 +
 +**FAUST** (2011)
 +Korpus vznikl pro projekt FAUST:  http://www.faust-fp7.eu/faust/
 +Obsahuje 3 x 1 000 krátkých segmentů textu, které si různí uživatelé nechali přeložit na on-line serveru www.reverso.net. Původní anglické znění prošlo korekturou a následně bylo přeloženo do češtiny nezávisle třemi překladateli. Poznámka: řada segmentů má velmi vulgární obsah.
  

[ Back to the navigation ] [ Back to the content ]