[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Příprava anotace PCEDT_cz

Překlad textů z PennTreebanku

Všech 2312 souborů (cca 49 000 vět) bylo několika různými překladateli přeloženo do češtiny. Poslední přeložený soubor byl odevzdán 11. 1. 2007.

Textové verze anglických originálů:

/f/project/bh/data/pcedt/en/*.en.txt

Textové verze českých překladů (po kontrolních skriptech):

/f/project/bh/4057/section/*/*.cz.txt

Revize překladu

Ze všech přeložených souborů byly vybrány soubory, které obsahují z hlediska překladu problematická místa (označená překladateli speciálními znaky %%, $$, &&, §§, ??). Takových souborů bylo zjištěno 642. V současné době probíhá na těchto souborech revize překladu.

Korektura překladu

Do souborů se též zanášejí korektury, které na vytištěných papírových verzích prováděl prof. Kirschner. Takových souborů je 153.

Rozšíření PDT-Vallexu

Valenční slovník z PDT 2.0 byl doplněn o valenční rámce sloves, která jsou v datech PCEDT_cz a nebyla v datech PDT 2.0.


[ Back to the navigation ] [ Back to the content ]