[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Tektogramatická anotace PCEDT_cz

Další informace jsou k dispozici na interních stránkách projektu.

Anotační postup

Vstup: automaticky předzpracované tektogramatické stromy (parser Vaška Klimeše).

Anotace je rozdělena do pěti po sobě následujících fází:

  1. Struktura, funktory a subfunktory, valence, odkazy do a-roviny
  2. Koreference (kontrola, kvazikontrola, reciprocita)
  3. Aktuální členění (tfa, pořadí, rematizátory)
  4. Nodetype, t-lema a gramatémy
  5. Uvozovky, name-entities, jiné

Podrobněji: pcedt_cz_postup

:-P 15. 1. 2007 byla zahájena první fáze anotace (kav, krc).
26. 3. 2007 se počet anotátorek zvýšil ze dvou na pět (kav, mao, anp, olh, alk).
Od 1. 7. 2007 anotujeme ve čtyřech (kav, mao, olh, alk).
Od 1. 6. 2008 anotuje pět anotátorek (kav, mao,olh, alk, zub).
Od září 2008 anotuje osm anotátorek (kav, mao, olh, alk, mil, leh, jif, ivk).
V březnu 2010 byl první průchod daty dokončen!!! Hurá!

Přednostně anotujeme data, která prošla revizí překladu (více zde).

Jak jsme daleko

Automaticky generovaný přehled anotovaných souborů

Pravidla anotace

TrEd: PML_Cz_T_Anot

Anotujeme v nastavení:
Contex: PML_Cz_T_Anot
Style: PML_T_Anot

Dokumenty:

Kontroly správnosti anotace

Postupně vznikají automatické kontroly správnosti anotace.
Opravu již oanotovaných dat provádějí anotátoři zpětně (když se sejde dostatečný objem dat) na základě automaticky vygenerovaných filelistů.

Přehled a popis kontrol: verze 090903 doc xls

Aktualizace PDT-Vallexu

Dokumenty:


[ Back to the navigation ] [ Back to the content ]