[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Prague Dependency Treebank 2.0

Cesty

Kopie CD:

/net/projects/pdt/pdt20/

Manuály pro tektogramatickou rovinu

Malý manuál český

Malý manuál anglický

Velký manuál český
Velký manuál anglický

PDT 2.5

Zde by se měly shromažďovat poznámky k PDT 2.0: kde jsou v datech chyby, co je třeba změnit, rozmyslet apod.

w-rovina

Některé tokeny obsahují tvrdou mezeru

amw/train-3/mf920901_006.w.gz:    <token>v pĹĂ­rodÄ/token>
amw/train-4/mf920902_138.w.gz:    <token>Â summit</token>

Za některou interpunkcí jsou špatně mezery

Mezera se píše za tečku, čárku, pravou závorku, ale před levou závorku. U pomlček a uvozovek se to asi nedá poznat :-(

m-rovina

a-rovina

adverbia s objekty - nejméně z poloviny chyby

ntred -d iso-8859-2 -NTe '
if ($this->attr("m/tag") =~ /^D/
    and my $ch = (first { $_->{afun} eq "Obj" } PML_A::GetEChildren($this))[0]){
  writeln($this->attr("m/lemma"),".",$this->{afun}
    ,"\t",$ch->attr("m/form")
    ,"\t",PML_A::GetSentenceString($root))
}
'  | grep -v 'Coord\|Apos\|ExD\|AuxC' | sort

"Zina bosa"

chybně Atv

chybně ''_Co''

a-ln94204-107-p15s2 a další: is_member musí mít rodiče Coord nebo Apos (skrz Aux[CP])

t-rovina

Resultativ a hortativ

Gramatémy resultative=res1 a deontmod=hrt jsou špatně vyplněné:
K prvnímu nepatří případy s infinitivem “být”, k druhému je naopak takový infinitiv potřeba.

Chyby v Rcp

ntred -t PML_T -NTe '
  if($this->{t_lemma} eq "#Rcp"){
    my @nodes = map { GetNodeByID($_) } ListV($this->{"coref_gram.rf"});
    FPosition() if @nodes != 1;
  }'

Je možné, aby doplňková šipka vedla do jiné věty?

/net/projects/pdt/pdt20/data/binary/tamw/train-5/ln95048_066.t.pls.gz##30
nechybí tam spíš ACT pod #EmpVerb?


[ Back to the navigation ] [ Back to the content ]