Pro převod formátu CoNLL do CSTS slouží nástroj conll2csts.pl
, který je součástí Danových nástrojů pro parsing:
$PARSINGROOT/tools/conll2csts.pl -l da < danish-train.conll > danish-train.csts
Povinným parametrem je dvoupísmenný kód jazyka podle normy ISO 639-1. Mějte na paměti, že pravověrné CSTS předpokládá kódování ISO 8859-2, ale tento nástroj (úmyslně!) ponechává i na výstupu kódování UTF-8.
Pozor. Novější verze conll2csts.pl
počítá s případnou konverzí morfologických značek, kvůli čemuž potřebuje další Danovy knihovny, které nejsou součástí parsovacího repozitáře. Buď si ještě nainstalujte DZ Interset, nebo nasměrujte svůj PERLLIB
(resp. PERL5LIB
) do /home/zeman/projekty/interset/lib
.
Analogicky existuje i skript pro převod opačným směrem:
$PARSINGROOT/tools/csts2conll.pl -y 2006 < soubor.csts > soubor.conll