[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
external:pdtc [2016/09/08 18:36]
ufal created
external:pdtc [2016/09/09 11:13]
ufal removed
Line 1: Line 1:
 ====== PDT-C: Prague Dependency Treebank - Czech/Consolidated ====== ====== PDT-C: Prague Dependency Treebank - Czech/Consolidated ======
 +
 +**PDT-C** bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách. 
 +Plán je vydat **PDT**, českou část **PCEDT**, **PDTSC** a **PDT-Faust**. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina je manuálně anotována jen v PDT. Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie a analytické roviny v české části PCEDT, v PDTSC a PDT-Faust. Pro automatickou předanotaci chceme maximálně využít všech dostupných nejlepších nástrojů (tagerů a parserů). Anotátoři budu kontrolovat automaticky předanotované stromy v "chytrém" anotačním schématu, které bude vědět, kde je určitě chyba a donutí ji anotátora opravit.
 +
 +===== Předpokládaný postup řešení =====
 +1. zpracovat data všemi dostupnými nástroji 
 +2. manuální analýza dat, jak to vypada
 +3. vyvinout anotačni nástroj na morfologii -- co nejdříve
 +4. začít anotovat morfologii
 +5. anotační nástroj na analytickou rovinu
 +6. analytická anotace
 +7. PDT-vallex (sjednocení, zkrášlovací úpravy) 
 +8. finalni kontroly, opravy, validace, CD, vydani, propagace...
 +9. sladké odměny pro všechny zúčastněné (i průběžne :-P)
 +
 +===== DATA =====
 +**PDT**
 +-- vezmou se data PDT 3.0, respektive data PDiT 2.0 s novou anotací sekundárních diskurzních konektorů (vydání je v plánu letos, Jirka Mírovský)
 +-- svn:
 +**PCEDT-cz**
 +-- data PCEDT 2.0 s přidanou anotací nominální koreference, publikována byla jako pcedt-coref pro LREC 2016 (Michal Novák)
 +-- svn: https://svn.ms.mff.cuni.cz/projects/pcedt-cz a https://svn.ms.mff.cuni.cz/svn/pcedt-coref/
 +**PDTSC**
 +-- ještě se anotuje nominální koreference, data se letos budou vydávat jako PDTSC 2.0 (Marie Mikulová, Jirka Mírovský)
 +-- svn: https://svn.ms.mff.cuni.cz/svn/pdtsc-t
 +**PDT-Faust**
 +-- nevíme kde data jsou LOL
 +
 +
 +
 +===== NÁSTROJE =====
 +JH: vsechno ted ma "pod sebou" Milan. To posledni se jmenuje UDPipe, ale msylim si, ze bude lepsi, aby Milan jeste s ne snad velkou namahou udelal specialne pro cestinu lepsi verzi morfologie (mozna že samotna MorphoDiTa je na to uz dost dobra). Pokud jde o syntax, musi natrenovat modely na zaklade PDT, protoze UDPipe ma jinou syntax. Ale to opet rekne Milan, kolik by to bylo práce resp. kdy by to mel mit hotove.
 +MorphoDiTa (nebo jiny nastroj od MIlana) udela lematizaci a morfologii, parser udela strukturu a afuny.
 +
 +===== Kdo to bude dělat =====
 +Předanotace: Milan Straka, Honza Štěpánek
 +Anotační schémata: Honza Štěpánek
 +Technická podpora anotací: ??Honza Štěpánek, ??Honza Kolář, ??Jirka Mírovský
 +Koordinace projektu, anotací, administrativa: Maruška Mikulová
 +Hlavní náčelník: Honza Hajič
 +
  

[ Back to the navigation ] [ Back to the content ]