[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Table of Contents

Formát CoNLL

Jednoduchý sloupcový formát použitý pro uložení treebanků pro účely soutěže CoNLL v závislostním parsingu. Seznam treebanků, které máme v tomto formátu, najdete na stránce Data.

Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat.

Převod do CSTS

Pro převod formátu CoNLL do CSTS slouží nástroj conll2csts.pl, který je součástí Danových nástrojů pro parsing:

$PARSINGROOT/tools/conll2csts.pl -l da < danish-train.conll > danish-train.csts

Povinným parametrem je dvoupísmenný kód jazyka podle normy ISO 639-1. Mějte na paměti, že pravověrné CSTS předpokládá kódování ISO 8859-2, ale tento nástroj (úmyslně!) ponechává i na výstupu kódování UTF-8.

Převod do PML

Pro převod formátu CoNLL do PML slouží nástroj conll2pml (musíte si ho stáhnout z webu a nainstalovat do některé své složky):

conll2pml --help

Při převodu do PML jsou zachovány původní značky.


[ Back to the navigation ] [ Back to the content ]