Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
external:pdtc [2016/09/08 18:45] ufal |
external:pdtc [2016/09/08 18:54] ufal |
====== PDT-C: Prague Dependency Treebank - Czech/Consolidated ====== | ====== PDT-C: Prague Dependency Treebank - Czech/Consolidated ====== |
| |
**PDT-C** budou PDT-korpusy s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách. Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina je manuálně anotována jen v PDT. Nejdůležitější krok pro vydani PDT-C je tedy dodělat manuální anotaci morfologie a analytické roviny do české části PCEDT, do PDTSC a do PDT-Faust. Pro automatickou předanotaci chceme maximálně využít všech dostupných nejlepších nástrojů (tagerů a parserů). Anotátoři budu kontrolovat automaticky předanotované stromy v "chytrém" anotačním schématu, které bude vědět, kde je určitě chyba a donutí ji anotátora opravit. | **PDT-C** bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách. |
| Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina je manuálně anotována jen v PDT. Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie a analytické roviny v české části PCEDT, v PDTSC a PDT-Faust. Pro automatickou předanotaci chceme maximálně využít všech dostupných nejlepších nástrojů (tagerů a parserů). Anotátoři budu kontrolovat automaticky předanotované stromy v "chytrém" anotačním schématu, které bude vědět, kde je určitě chyba a donutí ji anotátora opravit. |
| |
| ===== Předpokládaný postup řešení ===== |
| 1. zpracovat data všemi dostupnými nástroji |
| 2. manuální analýza dat, jak to vypada |
| 3. vyvinout anotačni nástroj na morfologii -- co nejdříve |
| 4. začít anotovat morfologii |
| 5. anotační nástroj na analytickou rovinu |
| 6. analytická anotace |
| 7. PDT-vallex (sjednocení, zkrášlovací úpravy) |
| 8. finalni kontroly, opravy, validace, CD, vydani, propagace... |
| 9. sladké odměny pro všechny zúčastněné (i průběžne :-P) |
| |
| ===== DATA ===== |
| ===== NÁSTROJE ===== |
| ===== Kdo to bude dělat ===== |