This is an old revision of the document!
Table of Contents
Formát CSTS
CSTS je zkratka za Czech Sentence Tree Structure. Původně šlo o datový formát určený pro Český národní korpus a Pražský závislostní korpus (PDT 1.0). V PDT byl mezitím od verze 2.0 nahrazen novým formátem PML. Nadále se však hodí pro využití s některými nástroji, které ho požadují na vstupu, než je autoři upraví pro nový formát.
CSTS je aplikací SGML. Jeho úplné DTD (definici typu dokumentu) najdete např. na adrese http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/Doc/csts/DTD-HOME.html.
Nástroje pracující s CSTS
csts_tag_statistics.pl
Součást Danových nástrojů pro treebanky. Použití:
$PARSINGROOT/tools/csts_tag_statistics.pl [-e element] [-f 0] < input.csts
Na standardní výstup vypíše seznam všech značek nalezených ve vstupním CSTS, spolu s absolutními a relativními četnostmi. Seznam je uspořádaný sestupně podle četností; podle značek si ho snadno setřídíte, pokud výstup napojíte rourou na sort
.
Volitelný parametr element
říká, ze kterého prvku CSTS se má statistika sbírat. Výchozí hodnota je t
. Pokud chcete značky od taggeru X, zkuste -e 'MDt src=“X”'
. Nic nebrání ani tomu, abyste si udělali třeba statistiku slov, když do elementu dosadíte f
.
Volba -f 0
zařídí, že na výstupu bude pouze uspořádaný seznam značek, ale žádné frekvence.