[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Prague Czech-English Dependency Treebank - cz

Prague Czech-English Dependency Treebank (PCEDT) je projekt paralelní anotace anglických a českých vět na tektogramatické rovině.
Anotace anglických a českých vět probíhá odděleně. Tyto stránky se týkají anotace české části projektu: PCEDT_cz.
Anglická část projektu (PEDT) má své stránky zde.

Data pro PCEDT jsou převzata z PennTreebanku (PTB): z deníku Wall Street Journal.
Celý PTB: 2499 souborů (cca 1,2 mil. slov).
Pro PCEDT: 2 312 souborů (které jsou v PTB manuálně anotované do podoby složkových stromů).
Pro PCEDT_cz byly anglické texty přeloženy do češtiny. V současné době probíhá ještě revize překladu (více zde).
Automaticky jsou jednotlivé věty předzpracovány až do podoby tektogramatických stromů (parser V. Klimeš).


[ Back to the navigation ] [ Back to the content ]