This is an old revision of the document!
Table of Contents
PDT-C: Prague Dependency Treebank - Czech/Consolidated
PDT-C bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách.
Plán je vydat PDT, českou část PCEDT, PDTSC a PDT-Faust. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina je manuálně anotována jen v PDT. Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie a analytické roviny v české části PCEDT, v PDTSC a PDT-Faust. Pro automatickou předanotaci chceme maximálně využít všech dostupných nejlepších nástrojů (tagerů a parserů). Anotátoři budu kontrolovat automaticky předanotované stromy v “chytrém” anotačním schématu, které bude vědět, kde je určitě chyba a donutí ji anotátora opravit.
Předpokládaný postup řešení
1. zpracovat data všemi dostupnými nástroji
2. manuální analýza dat, jak to vypada
3. vyvinout anotačni nástroj na morfologii – co nejdříve
4. začít anotovat morfologii
5. anotační nástroj na analytickou rovinu
6. analytická anotace
7. PDT-vallex (sjednocení, zkrášlovací úpravy)
8. finalni kontroly, opravy, validace, CD, vydani, propagace…
9. sladké odměny pro všechny zúčastněné (i průběžne )