[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
external:pdtc [2016/09/09 11:02]
ufal
external:pdtc [2022/05/06 11:48] (current)
ufal
Line 1: Line 1:
-====== PDT-C: Prague Dependency Treebank - Czech/Consolidated ======+====== Prague Dependency Treebank - Consolidated ====== 
  
 **PDT-C** bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách.  **PDT-C** bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách. 
-Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina je manuálně anotována jen v PDT. Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie a analytické roviny v české části PCEDT, v PDTSC a PDT-Faust. Pro automatickou předanotaci chceme maximálně využít všech dostupných nejlepších nástrojů (tagerů a parserů). Anotátoři budu kontrolovat automaticky předanotované stromy v "chytrém" anotačním schématu, které bude vědět, kde je určitě chyba a donutí ji anotátora opravit. +Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina byla manuálně anotována jen v PDT.  
- +Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie (hotove ve verzi PDT-C 1.0) a analytické roviny (verze 2.0) v české části PCEDT, v PDTSC a PDT-Faust. 
-===== Předpokládaný postup řešení ===== +
-1. zpracovat data všemi dostupnými nástroji  +
-2. manuální analýza dat, jak to vypada +
-3. vyvinout anotačni nástroj na morfologii -- co nejdříve +
-4. začít anotovat morfologii +
-5. anotační nástroj na analytickou rovinu +
-6. analytická anotace +
-7. PDT-vallex (sjednocení, zkrášlovací úpravy)  +
-8. finalni kontroly, opravy, validace, CD, vydani, propagace... +
-9. sladké odměny pro všechny zúčastněné (i průběžne :-P) +
- +
-===== DATA ===== +
-**PDT** +
--- vezmou se data PDT 3.0, respektive data PDiT 2.0 s novou anotací sekundárních diskurzních konektorů (vydání je v plánu letos, Jirka Mírovský) +
--- svn: +
-**PCEDT-cz** +
--- data PCEDT 2.0 s přidanou anotací nominální koreference, publikována byla jako pcedt-coref pro LREC 2016 (Michal Novák) +
--- svn: https://svn.ms.mff.cuni.cz/projects/pcedt-cz a https://svn.ms.mff.cuni.cz/svn/pcedt-coref/ +
-**PDTSC** +
--- ještě se anotuje nominální koreference, data se letos budou vydávat jako PDTSC 2.0 (Marie Mikulová, Jirka Mírovský) +
--- svn: https://svn.ms.mff.cuni.cz/svn/pdtsc-t +
-**PDT-Faust** +
--- nevíme kde data jsou LOL +
- +
- +
- +
-===== NÁSTROJE ===== +
-JH: vsechno ted ma "pod sebou" Milan. To posledni se jmenuje UDPipe, ale msylim si, ze bude lepsi, aby Milan jeste s ne snad velkou namahou udelal specialne pro cestinu lepsi verzi morfologie (mozna že samotna MorphoDiTa je na to uz dost dobra). Pokud jde o syntax, musi natrenovat modely na zaklade PDT, protoze UDPipe ma jinou syntax. Ale to opet rekne Milan, kolik by to bylo práce resp. kdy by to mel mit hotove. +
-MorphoDiTa (nebo jiny nastroj od MIlana) udela lematizaci a morfologii, parser udela strukturu a afuny. +
- +
-===== Kdo to bude dělat ===== +
-Předanotace: Milan Straka, Honza Štěpánek +
-Anotační schémata: Honza Štěpánek +
-Technická podpora anotací: ??Honza Štěpánek, ??Honza Kolář, ??Jirka Mírovský +
-Koordinace projektu, anotací, administrativa: Maruška Mikulová +
-Hlavní náčelník: Honza Hajič +
  
 +[[.pdtc:a-manual|A-rovina: dodatky k manuálu]]

[ Back to the navigation ] [ Back to the content ]