This is an old revision of the document!
Table of Contents
Příprava anotace PCEDT_cz
Překlad textů z PennTreebanku
Všech 2312 souborů (cca 49 000 vět) bylo několika různými překladateli přeloženo do češtiny. Poslední přeložený soubor byl odevzdán 11. 1. 2007.
- Pokyny k překladu txt
- Glosář xls
- Ukázka wsj1915.cz.txt wsj1915.en.txt
Textové verze anglických originálů:
/f/project/bh/data/pcedt/en/*.en.txt
Textové verze českých překladů (po kontrolních skriptech):
/f/project/bh/4057/section/*/*.cz.txt
Revize překladu
Ze všech přeložených souborů byly vybrány soubory, které obsahují z hlediska překladu problematická místa (označená překladateli speciálními znaky %%, $$, &&, §§, ??). Takových souborů bylo zjištěno 642. V současné době probíhá na těchto souborech revize překladu.
- Seznam všech souborů určených k revizi soubory_k_revizi.txt
- Aktuální seznam nezrevidovaných souborů soubory_k_revizi_070210.txt
Rozšíření PDT-Vallexu
Valenční slovník z PDT 2.0 byl doplněn o valenční rámce sloves, která jsou v datech PCEDT_cz a nebyla v datech PDT 2.0.