This is an old revision of the document!
Table of Contents
Prague Dependency Treebank 2.0
Cesty
Kopie CD:
/net/projects/pdt/pdt20/
Manuály pro tektogramatickou rovinu
PDT 2.5
Zde by se měly shromažďovat poznámky k PDT 2.0: kde jsou v datech chyby, co je třeba změnit, rozmyslet apod.
w-rovina
Některé tokeny obsahují tvrdou mezeru
amw/train-3/mf920901_006.w.gz: <token>v pĹĂrodÄ/token> amw/train-4/mf920902_138.w.gz: <token> summit</token>
Za některou interpunkcí jsou špatně mezery
Mezera se píše za tečku, čárku, pravou závorku, ale před levou závorku. U pomlček a uvozovek se to asi nedá poznat
m-rovina
a-rovina
adverbia s objekty - nejméně z poloviny chyby
ntred -d iso-8859-2 -NTe ' if ($this->attr("m/tag") =~ /^D/ and my $ch = (first { $_->{afun} eq "Obj" } PML_A::GetEChildren($this))[0]){ writeln($this->attr("m/lemma"),".",$this->{afun} ,"\t",$ch->attr("m/form") ,"\t",PML_A::GetSentenceString($root)) } ' | grep -v 'Coord\|Apos\|ExD\|AuxC' | sort
"Zina bosa"
chybně Atv
chybně ''_Co''
a-ln94204-107-p15s2
a další: is_member
musí mít rodiče Coord
nebo Apos
(skrz Aux[CP]
)
t-rovina
Resultativ a hortativ
Gramatémy resultative=res1
a deontmod=hrt
jsou špatně vyplněné:
K prvnímu nepatří případy s infinitivem “být”, k druhému je naopak takový infinitiv potřeba.
Chyby v Rcp
ntred -t PML_T -NTe ' if($this->{t_lemma} eq "#Rcp"){ my @nodes = map { GetNodeByID($_) } ListV($this->{"coref_gram.rf"}); FPosition() if @nodes != 1; }'
Je možné, aby doplňková šipka vedla do jiné věty?
/net/projects/pdt/pdt20/data/binary/tamw/train-5/ln95048_066.t.pls.gz##30
nechybí tam spíš ACT
pod #EmpVerb?