====== Prague Czech-English Dependency Treebank - cz ====== **Prague Czech-English Dependency Treebank** (PCEDT) je projekt paralelní anotace anglických a českých vět na tektogramatické rovině. Anotace anglických a českých vět probíhá odděleně. Tyto stránky se týkají anotace české části projektu: **PCEDT_cz**. Anglická část projektu (PEDT) má své stránky [[.pedt|zde]]. **Data** pro PCEDT jsou převzata z PennTreebanku (PTB): z deníku Wall Street Journal. Celý PTB: 2499 souborů (cca 1,2 mil. slov). Pro PCEDT: 2 312 souborů (které jsou v PTB manuálně anotované do podoby složkových stromů). Pro PCEDT_cz byly anglické texty přeloženy do češtiny. V současné době probíhá ještě revize překladu (více [[.pcedt:done|zde]]). Automaticky jsou jednotlivé věty předzpracovány až do podoby tektogramatických stromů (parser V. Klimeš). * [[.pcedt:people|Kdo na tom dělá a pod které projekty to patří]] * [[.pcedt:done|Revize a postrevize překladů]] * [[.pcedt:ar|Analytická anotace]] * [[.pcedt:tr|Tektogramatická anotace - 1. fáze]] * [[.pcedt:coref|Anotace koreference]] * [[.pcedt:pub|Články a prezentace]] * [[:pcedt:internal:start|Interní poznámky]] * [[:pcedt:internal:pcedt20cd|Příprava CD PCEDT 2.0]] * [[.pcedt:tfa|Anotace TFA v české části]]