[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
external:pcedt:done [2007/02/13 11:52]
mikulova
external:pcedt:done [2008/02/19 21:37]
mikulova
Line 1: Line 1:
-====== Příprava anotace PCEDT_cz ======+====== Překlad textů z PennTreebanku ======
  
 +Všech 2312 souborů (cca 49 000 vět) bylo několika různými překladateli přeloženo do češtiny. Poslední přeložený soubor byl odevzdán 11. 1. 2007.
  
  
Line 6: Line 7:
  
  
 +===== Korektura překladu =====
  
 +Do přeložených souborů se zanášejí korektury, které na vytištěných papírových verzích prováděl prof. Kirschner. Takových souborů je 153.
 +  * Seznam všech souborů určených ke korektuře {{external:pcedt:soubory_ke_korekture.txt|soubory_ke_korekture}} 
  
  
- +===== Revize překladu =====
-===== Překlad textů z PennTreebanku  ===== +
-Všech 2312 souborů (cca 49 000 vět) bylo několika různými překladateli přeloženo do češtiny. Poslední přeložený soubor byl odevzdán 11. 1. 2007. +
- +
-  * Pokyny k překladu {{:external:pcedt:pokyny.txt|txt}} +
-  * Glosář {{:external:pcedt:glosar.xls|xls}} +
-  * Ukázka {{:external:pcedt:wsj1915.cz.txt|wsj1915.cz.txt}} {{:external:pcedt:wsj1915.en.txt|wsj1915.en.txt}} +
- +
-Textové verze anglických originálů: +
-  /f/project/bh/data/pcedt/en/*.en.txt +
-Textové verze českých překladů (po kontrolních skriptech): +
-  /f/project/bh/4057/section/*/*.cz.txt +
- +
- +
- +
- +
- +
-==== Revize překladu ====+
 Ze všech přeložených souborů byly vybrány soubory, které obsahují z hlediska překladu problematická místa (označená překladateli speciálními znaky %%, $$, &&, §§, ??). Takových souborů bylo zjištěno 642. V současné době probíhá na těchto souborech revize překladu. Ze všech přeložených souborů byly vybrány soubory, které obsahují z hlediska překladu problematická místa (označená překladateli speciálními znaky %%, $$, &&, §§, ??). Takových souborů bylo zjištěno 642. V současné době probíhá na těchto souborech revize překladu.
-  * Seznam všech souborů určených k revizi {{:external:pcedt:soubory_k_revizi.txt|soubory_k_revizi.txt}} +  * Seznam problematických souborů určených k revizi {{:external:pcedt:soubory_k_revizi.txt|soubory_k_revizi}}
-  * Aktuální seznam nezrevidovaných souborů {{:external:pcedt:soubory_k_revizi_070210.txt|soubory_k_revizi_070210.txt}} +
- +
  
 +V létě 2007 bylo rozhodnuto (vzhledem k nedostatečné kvalitě překladů vůbec), že korektura (revize) bude provedena **na všech souborech PCEDT_cz** (ktere doposud nebyly oanotovány). 
 +K anotaci jsou proto přednostně udělovány soubory, které již prošly revizí.
  
 +Stav revizí a anotací je možné sledovat zde:
 +[[https://blackbird.ms.mff.cuni.cz/stepanek/wsj-cz-anot|Automaticky generovaný přehled anotovaných souborů]]
  
 +===== Dokumenty =====
 +  * **Pokyny pro překladatele, revizory a korektory**: {{external:pcedt:translation_guidelines_071119.pdf|translation_guidelines_071119}}
 +  * **Glosář**: {{external:pcedt:glosar_080114.xls|glosar_080114}}
  
-===== Rozšíření PDT-Vallexu ===== 
-Valenční slovník z PDT 2.0 byl doplněn o valenční rámce sloves, která jsou v datech PCEDT_cz a nebyla v datech PDT 2.0. 
  
 +----
 +Další informace jsou k dispozici na interních stránkách projektu - [[:pcedt:internal:start|Interní poznámky]].
  
  

[ Back to the navigation ] [ Back to the content ]