Table of Contents

Převod mezi CoNLL a CSTS

Převod z CoNLL do CSTS

Pro převod formátu CoNLL do CSTS slouží nástroj conll2csts.pl, který je součástí Danových nástrojů pro parsing:

$PARSINGROOT/tools/conll2csts.pl -l da < danish-train.conll > danish-train.csts

Povinným parametrem je dvoupísmenný kód jazyka podle normy ISO 639-1. Mějte na paměti, že pravověrné CSTS předpokládá kódování ISO 8859-2, ale tento nástroj (úmyslně!) ponechává i na výstupu kódování UTF-8.

Pozor. Novější verze conll2csts.pl počítá s případnou konverzí morfologických značek, kvůli čemuž potřebuje další Danovy knihovny, které nejsou součástí parsovacího repozitáře. Buď si ještě nainstalujte DZ Interset, nebo nasměrujte svůj PERLLIB (resp. PERL5LIB) do /home/zeman/projekty/interset/lib.

Převod z CSTS do CoNLL

Analogicky existuje i skript pro převod opačným směrem:

$PARSINGROOT/tools/csts2conll.pl -y 2006 < soubor.csts > soubor.conll