Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
external:pdtc [2016/09/08 18:36] ufal created |
external:pdtc [2016/09/08 18:54] ufal |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== PDT-C: Prague Dependency Treebank - Czech/ | ====== PDT-C: Prague Dependency Treebank - Czech/ | ||
+ | **PDT-C** bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách. | ||
+ | Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina je manuálně anotována jen v PDT. Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie a analytické roviny v české části PCEDT, v PDTSC a PDT-Faust. Pro automatickou předanotaci chceme maximálně využít všech dostupných nejlepších nástrojů (tagerů a parserů). Anotátoři budu kontrolovat automaticky předanotované stromy v " | ||
+ | |||
+ | ===== Předpokládaný postup řešení ===== | ||
+ | 1. zpracovat data všemi dostupnými nástroji | ||
+ | 2. manuální analýza dat, jak to vypada | ||
+ | 3. vyvinout anotačni nástroj na morfologii -- co nejdříve | ||
+ | 4. začít anotovat morfologii | ||
+ | 5. anotační nástroj na analytickou rovinu | ||
+ | 6. analytická anotace | ||
+ | 7. PDT-vallex (sjednocení, | ||
+ | 8. finalni kontroly, opravy, validace, CD, vydani, propagace... | ||
+ | 9. sladké odměny pro všechny zúčastněné (i průběžne :-P) | ||
+ | |||
+ | ===== DATA ===== | ||
+ | ===== NÁSTROJE ===== | ||
+ | ===== Kdo to bude dělat ===== |