Workshop: Explicitní popis jazyka a anotovaná data se zřetelem na češtinu


Další plánované opravy dat PDT 2.0 a 2.5


Jan Štěpánek, Charles University in Prague, ÚFAL

Morfologická rovina

obyvatel
v datech často nom sg místo gen pl
li
někdy má tag TT, téměř vždy chyba.
cizí slova
např. čínská jména, slovenština předělaná na češtinu
chyby kódování
©, ®, Mladić
kuponová/kupónová
lemma občas neodpovídá formě

Morfologická rovina (2)

shlížet/zhlížet
nejméně 6 případů
negace
neschopnost občas lemmatizováno jako schopnost
chybějící čárky
některé případy sporné
grafické oddělovače
odrážky, značky na koncích článků — nekonzistentní segmentace i značky
segmentace
Na mnoha místech je třeba spojit či rozdělit věty (zatím registrujeme přes 120 vět).

Plus desítky nejrůznějších jednotlivostí.

Analytická rovina

Výstup z DECCA
Několik set chyb objevených v projektu Markuse Dickinsona
Společná rozvití u jednočlenných koordinací
téměř 500 chyb (většinou chybí is_member)
Pred jako společné rozvití
Opět chybějící is_member
ExD jako společné rozvití
Většina opět chybějící is_member
Resultativ
Má oběd uvařen: podle manuálu má být Atv, ale v datech též Atr

Analytická rovina (2)

Koordinace různých analytických funkcí
Podle manuálu není přípustná
Podřadicí spojka s více dětmi
Kromě pomocných uzlů nemůže mít podřadicí spojka víc než jedno dítě
Adverbia s objekty
v polovině případů chyby (možné jen u několika, např. blízko)
nesmyslná koordinace
is_member=1 musí mít efektivního rodiče Coord nebo Apos
koordinace složených slovesných tvarů
Pokud jsou spolu koordinovány infinitiv a určité sloveso, které má mezi dětmi infinitiv, jde často o chybné zachycení koordinace - určité sloveso má být společným rodičem obou infinitivů.

Analytická rovina (3)

Špatně umístěný Pred
Rodičem predikátu může být pouze technický kořen, popř. sloveso, pokud je predikát kořenem parenteze.
Rodiče Sb
Rodičem subjektu by mělo být sloveso.
Pád subjektu
Subjekt v jiném pádě než v nominativu je často chyba (v tagu nebo v analytické funkci).
Rekce předložek
Některé předložky mají pod sebou slova v jiném pádě, než vyžadují. U složených předložek se rekce nedá zjistit z tagu.
což
Věty s což (přičemž…) se měly anotovat jako koordinace, i když to často vedlo k „ošklivým“ strukturám.

Analytická rovina (3)

Je tomu nějak
Podle manuálu má být tomu subjekt.
Sb na tektogramatické rovině
Subjektu může odpovídat ACT, PAT, CPHR a možná ještě něco, ale asi ne TWHEN apod.
Parenteze
Předložky a podřadicí spojky nemohou být kořeny parenteze.

A další jednotlivosti.

Tektogramatická rovina

Kontroly dat z PCEDT a PDTSCT
Asi 100 jevů, ne všechno se dá použít.
quot
Seznamy identifikátorů obsahují duplicity
Modalita
Není správně rozlišena epistemická a deontická modalita (Zítra má pršet dostává hrt)
Přímá řeč
Pokud je synem is_dsp_root další kořen přímé řeči, v polovině případů nemá být otec kořenem přímé řeči.
Resultativ, hortativ
V PDT 2.0 zcela špatně.

Tektogramatická rovina (2)

Cyklus v koreferenci
Naštěstí jen jeden.
Doplněk
Doplňková šipka nemůže vést do jiné věty
Reciprocita
Uzly #Rcp bez gramatické koreference jsou podezřelé.
Modalita u kvazikomplexních uzlů
Asi nutno neschovávat modální sloveso (#EmpVerbMusel do hotelu).
Kontroly valence
Při kontrolách valence byly některé rámce označeny jako správné, přestože v nich byly chyby.

Plus stovky dalších problémů.

PDT Vallex

chyby ve struktuře
Uzly jsou občas zapsány jako sourozenci místo jako otec a syn (padni, komu padni).
Alternativní formy ve webové formě
jsou zapsány jako sourozenci (chyba v generujícím skriptu).

A další jednotlivosti.

Zdroj

Wiki: https://wiki.ufal.ms.mff.cuni.cz/internal:chyby-pdt20