[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
format-conll [2007/02/14 14:45]
zeman
format-conll [2007/05/16 08:52]
zeman Převody formátů přestěhovány do samostatných článků.
Line 1: Line 1:
 ====== Formát CoNLL ====== ====== Formát CoNLL ======
  
-Jednoduchý sloupcový formát použitý pro uložení treebanků pro účely soutěže [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|CoNLL]] v závislostním parsingu. Seznam treebanků, které máme v tomto formátu, najdete na stránce [[internal:Data#CoNLL|Data]].+Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|CoNLL]] v závislostním parsingu. Seznam treebanků, které máme v tomto formátu, najdete na stránce [[internal:Data#CoNLL|Data]].
  
 Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat. Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat.
  
-===== Převod do CSTS =====+===== Převody z a do jiných formátů =====
  
-Pro převod formátu CoNLL do [[Formát CSTS|CSTS]] slouží nástroj ''conll2csts.pl'', který je součástí [[Parsery|Danových nástrojů pro parsing]]:+  * [[Převod mezi CoNLL CSTS]] 
 +  * [[Převod mezi CoNLL a PML]]
  
-<code>$PARSINGROOT/tools/conll2csts.pl -l da < danish-train.conll > danish-train.csts</code> 
- 
-Povinným parametrem je dvoupísmenný kód jazyka podle normy [[http://cs.wikipedia.org/wiki/Seznam_jazyk%C5%AF|ISO 639-1]]. Mějte na paměti, že pravověrné CSTS předpokládá kódování ISO 8859-2, ale tento nástroj (úmyslně!) ponechává i na výstupu kódování UTF-8. 

[ Back to the navigation ] [ Back to the content ]