[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Převod mezi CSTS a FS

Převod z CSTS do FS

Převést formát CSTS do FS potřebujeme např. proto, že nástroje Petra Pajase (Tred) jsou při čtení CSTS příliš přísné a přijmou pouze soubor přesně odpovídající specifikaci. Součástí specifikace je i kódování ISO 8859-2, takže pokud se od specifikace odchylujete pouze kódováním UTF-8, máte stejně smůlu.

Pokud převádíte formát z výše uvedeného důvodu, tak vám moc nepomůže, že Petr napsal nástroj any2any (viz např. http://ufal.mff.cuni.cz/pdt/Utilities/cstsfs/index.html), s jehož pomocí lze formáty převádět: tento nástroj totiž rovněž na vstupu kontroluje správnost CSTS. Další související nevýhodou je to, že si musíte nejdříve nainstalovat program nsgmls, který je za tyto kontroly zodpovědný.

Alternativou je nástroj cstsfs.pl Dana Zemana. Jeho nevýhodou je naprostá nezdokumentovanost, ale milovníci dobrodružství si ho mohou zkopírovat z /home/zeman/bin a svá data si s ním po libosti zprznit:

cstsfs.pl < soubor.csts > soubor.fs

Tento program postaví stromovou strukturu podle hodnot CSTS prvku <g> (nikoli <MDg>). Názvy atributů uzlu ve FS volí většinou podle názvu příslušného CSTS prvku. Nepřekládá je podle zvyklostí v Pražském závislostním korpusu (např. nepřepisuje <l> jako “lemma”, ale jako “l”). Nevadí mu, pokud slovo má v CSTS další hodnoty, se kterými definice CSTS nepočítá. Pokud se na řádku slova (řádek začínající <f[ >] nebo <d[ >]) objeví neznámý prvek SGML, program z něj ve FS udělá další atribut.


[ Back to the navigation ] [ Back to the content ]