[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

PDT-C: Prague Dependency Treebank - Czech/Consolidated

PDT-C bude souborné vydaní dosavadních PDT-korpusů s manuální anotací na českých textech, a to s manuální anotací na všech třech PDT-rovinách.
Plán je vydat PDT, českou část PCEDT, PDTSC a PDT-Faust. Všechny čtyři korpusy již dnes mají manuálně anotovanou tektogramatickou rovinu (a v PDT je celá řada dalších přídavných anotací nad tektogramatickou rovinou). Morfologická a analytická rovina je manuálně anotována jen v PDT. Nejdůležitější krok pro vydani PDT-C je tedy manuální anotace morfologie a analytické roviny v české části PCEDT, v PDTSC a PDT-Faust. Pro automatickou předanotaci chceme maximálně využít všech dostupných nejlepších nástrojů (tagerů a parserů). Anotátoři budu kontrolovat automaticky předanotované stromy v “chytrém” anotačním schématu, které bude vědět, kde je určitě chyba a donutí ji anotátora opravit.

Předpokládaný postup řešení

1. zpracovat data všemi dostupnými nástroji
2. manuální analýza dat, jak to vypada
3. vyvinout anotačni nástroj na morfologii – co nejdříve
4. začít anotovat morfologii
5. anotační nástroj na analytickou rovinu
6. analytická anotace
7. PDT-vallex (sjednocení, zkrášlovací úpravy)
8. finalni kontroly, opravy, validace, CD, vydani, propagace…
9. sladké odměny pro všechny zúčastněné (i průběžne :-P)

DATA

PDT
– vezmou se data PDT 3.0, respektive data PDiT 2.0 s novou anotací sekundárních diskurzních konektorů (vydání je v plánu letos, Jirka Mírovský)
– svn:
PCEDT-cz
– data PCEDT 2.0 s přidanou anotací nominální koreference, publikována byla jako pcedt-coref pro LREC 2016 (Michal Novák)
– svn: https://svn.ms.mff.cuni.cz/projects/pcedt-cz a https://svn.ms.mff.cuni.cz/svn/pcedt-coref/
PDTSC
– ještě se anotuje nominální koreference, data se letos budou vydávat jako PDTSC 2.0 (Marie Mikulová, Jirka Mírovský)
– svn:
PDT-Faust
– nevíme kde data jsou LOL

NÁSTROJE

JH: vsechno ted ma “pod sebou” Milan. To posledni se jmenuje UDPipe, ale msylim si, ze bude lepsi, aby Milan jeste s ne snad velkou namahou udelal specialne pro cestinu lepsi verzi morfologie (mozna že samotna MorphoDiTa je na to uz dost dobra). Pokud jde o syntax, musi natrenovat modely na zaklade PDT, protoze UDPipe ma jinou syntax. Ale to opet rekne Milan, koik by to bylo prace resp. kdy by to mel mit hotove.
MorphoDiTa (nebo jiny nastroj od MIlana) udela lematizaci a morfologii, parser udela strukturu a afuny.

Kdo to bude dělat


[ Back to the navigation ] [ Back to the content ]