====== Formát CSTS ====== **CSTS** je zkratka za //Czech Sentence Tree Structure//. Původně šlo o [[Datové formáty|datový formát]] určený pro [[Český národní korpus]] a [[Pražský závislostní korpus]] (PDT 1.0). V PDT byl mezitím od verze 2.0 nahrazen novým formátem [[internal:PML|PML]]. Nadále se však hodí pro využití s některými nástroji, které ho požadují na vstupu, než je autoři upraví pro nový formát. CSTS je aplikací [[http://cs.wikipedia.org/wiki/SGML|SGML]]. Jeho úplné DTD (definici typu dokumentu) najdete např. na adrese http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/Doc/csts/DTD-HOME.html. ===== Převody z a do jiných formátů ===== * [[Převod mezi CoNLL a CSTS]] * [[Převod mezi CSTS a FS]] * [[Převod mezi CSTS a PML]] ===== Nástroje pracující s CSTS ===== ==== csts_tag_statistics.pl ==== Součást [[Parsery|Danových nástrojů pro treebanky]]. Použití: $PARSINGROOT/tools/csts_tag_statistics.pl [-e element] [-f 0] < input.csts Na standardní výstup vypíše seznam všech značek nalezených ve vstupním CSTS, spolu s absolutními a relativními četnostmi. Seznam je uspořádaný sestupně podle četností; podle značek si ho snadno setřídíte, pokud výstup napojíte rourou na ''sort''. Volitelný parametr ''element'' říká, ze kterého prvku CSTS se má statistika sbírat. Výchozí hodnota je ''t''. Pokud chcete značky od taggeru X, zkuste ''-e 'MDt src="X"' ''. Nic nebrání ani tomu, abyste si udělali třeba statistiku slov, když do elementu dosadíte ''f''. Volba ''-f 0'' zařídí, že na výstupu bude pouze uspořádaný seznam značek, ale žádné frekvence.