Table of Contents

Formát CSTS

CSTS je zkratka za Czech Sentence Tree Structure. Původně šlo o datový formát určený pro Český národní korpus a Pražský závislostní korpus (PDT 1.0). V PDT byl mezitím od verze 2.0 nahrazen novým formátem PML. Nadále se však hodí pro využití s některými nástroji, které ho požadují na vstupu, než je autoři upraví pro nový formát.

CSTS je aplikací SGML. Jeho úplné DTD (definici typu dokumentu) najdete např. na adrese http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/Doc/csts/DTD-HOME.html.

Převody z a do jiných formátů

Nástroje pracující s CSTS

csts_tag_statistics.pl

Součást Danových nástrojů pro treebanky. Použití:

$PARSINGROOT/tools/csts_tag_statistics.pl [-e element] [-f 0] < input.csts

Na standardní výstup vypíše seznam všech značek nalezených ve vstupním CSTS, spolu s absolutními a relativními četnostmi. Seznam je uspořádaný sestupně podle četností; podle značek si ho snadno setřídíte, pokud výstup napojíte rourou na sort.

Volitelný parametr element říká, ze kterého prvku CSTS se má statistika sbírat. Výchozí hodnota je t. Pokud chcete značky od taggeru X, zkuste -e 'MDt src=“X”' . Nic nebrání ani tomu, abyste si udělali třeba statistiku slov, když do elementu dosadíte f.

Volba -f 0 zařídí, že na výstupu bude pouze uspořádaný seznam značek, ale žádné frekvence.