[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Tektogramatická anotace PCEDT_cz

Poslední aktualizace: 18. 3. 2008
Další informace jsou k dispozici na interních stránkách projektu.

Anotační postup

Vstup: automaticky předzpracované tektogramatické stromy (parser Vaška Klimeše).

Anotace je rozdělena do pěti po sobě následujících fází:

  1. Struktura, funktory a subfunktory, valence, odkazy do a-roviny
  2. Koreference (kontrola, kvazikontrola, reciprocita)
  3. Aktuální členění (tfa, pořadí, rematizátory)
  4. Nodetype, t-lema a gramatémy
  5. Uvozovky, name-entities, jiné

Podrobněji: pcedt_cz_postup

:-P 15. 1. 2007 byla zahájena první fáze anotace (kav, krc).
26. 3. 2007 se počet anotátorek zvýšil ze dvou na pět (kav, mao, anp, olh, alk).
Od 1. 7. 2007 anotujeme ve čtyřech (kav, mao, olh, alk).

Přednostně anotujeme data, která prošla revizí překladu (více zde).

Jak jsme daleko

Automaticky generovaný přehled anotovaných souborů

Pravidla anotace

TrEd: PML_Cz_T_Anot

Anotujeme v nastavení:
Contex: PML_Cz_T_Anot
Style: PML_T_Anot

Dokumenty:

Kontroly správnosti anotace

Postupně vznikají automatické kontroly správnosti anotace.
Opravu již oanotovaných dat provádějí anotátoři zpětně (když se sejde dostatečný objem dat) na základě automaticky vygenerovaných filelistů.

Přehled a popis kontrol: prehled_kontrol_080317


[ Back to the navigation ] [ Back to the content ]