This is an old revision of the document!
Převod mezi CoNLL a CSTS
Převod z CoNLL do CSTS
Pro převod formátu CoNLL do CSTS slouží nástroj conll2csts.pl
, který je součástí Danových nástrojů pro parsing:
$PARSINGROOT/tools/conll2csts.pl -l da < danish-train.conll > danish-train.csts
Povinným parametrem je dvoupísmenný kód jazyka podle normy ISO 639-1. Mějte na paměti, že pravověrné CSTS předpokládá kódování ISO 8859-2, ale tento nástroj (úmyslně!) ponechává i na výstupu kódování UTF-8.
Pozor. Novější verze conll2csts.pl
počítá s případnou konverzí morfologických značek, kvůli čemuž potřebuje další Danovy knihovny, které nejsou součástí parsovacího repozitáře. Buď si ještě nainstalujte DZ Interset, nebo nasměrujte svůj PERLLIB
(resp. PERL5LIB
) do /home/zeman/projekty/interset/lib
.