This is an old revision of the document!
Table of Contents
Analytická rovina PCEDT_cz
V projektu PCEDT_cz se manuálně anotuje až tektogramatická rovina, analytická rovina byla vytvořena pouze automatickými nástroji. Předpokládáme, že na základě dobře manuálně oanotované tektogramatické roviny budeme moci opět automaticky zatím nedostačně anotovanou analytickou rovinu zpětně doopravit. Pro testování těchto automatických nástrojů bude na analytické rovině manuálně oanotováno cca 2 000 vět.
Data
Manuální anotace bude provedena na cca 2 000 větách, které budou vybrány ze souborů wsj22* a výše.
Přednostně jsou vybírány soubory, které prošly revizí překladu a kterým již existuje manuální tektogramatická anotace.
PML-schéma anotovaných souborů je upraveno tak, aby bylo možné k uzlům vkládat antotátorské poznámky.
Do souborů, ke kterým již existuje tektogramatická anotace, jsou k odpovídajícím a-uzlům z t-roviny přeneseny následující anotátorské poznámky:
- M-lemma
- M-tag
- Typo
- Word segmentation
- Sentence segmentation
- Translation
- Re-generate
TrEd
Contex:
Style:
Při anotaci se používají stejná anotační makra jako při analytické anotaci korpusu ČAK.
Navíc jsou dvě makra pro anotaci anotátorských poznámek:
- Vytvoření poznámky: !
- Editace poznámky: ?
Pro kontrolu překladu je v TrEdu zobrazena vedle českého překladu také originální anglická věta.
Pravidla anotace
- Dodatky k manuálu:
- annotcomment_ar1 Anotátorská poznámka
- translation_ar1 Chyby v překladu
- segmentation_ar1 Segmentace vět do stromů a slov do uzlů