Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
format-conll [2007/02/14 14:45] zeman |
format-conll [2009/02/26 15:20] zeman Srovnání formátů 2006 a 2009. |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Formát CoNLL ====== | ====== Formát CoNLL ====== | ||
- | Jednoduchý sloupcový formát použitý pro uložení treebanků pro účely soutěže [[http:// | + | Jednoduchý sloupcový |
Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http:// | Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http:// | ||
- | ===== Převod do CSTS ===== | + | ===== Formát CoNLL 2009 ===== |
- | Pro převod formátu CoNLL do [[Formát CSTS|CSTS]] slouží nástroj '' | + | Pozor! Kromě toho, že pro rozšířenou úlohu (označování sémantických rolí) potřebujeme nové sloupce, došlo oproti letům 2006 a 2007 i ke změně ve starých sloupcích! Nový formát je popsán na http:// |
- | < | + | | **Field number** | **Field name 2006** | **Field name 2009** | |
+ | | 1 | ID | ID | | ||
+ | | 2 | FORM | FORM | | ||
+ | | 3 | LEMMA | LEMMA | | ||
+ | | 4 | CPOSTAG | PLEMMA | | ||
+ | | 5 | POSTAG | POS | | ||
+ | | 6 | FEATS | PPOS | | ||
+ | | 7 | HEAD | FEAT | | ||
+ | | 8 | DEPREL | PFEAT | | ||
+ | | 9 | PHEAD | HEAD | | ||
+ | | 10 | PDEPREL | PHEAD | | ||
+ | | 11 | | DEPREL | | ||
+ | | 12 | | PDEPREL | | ||
+ | | 13 | | FILLPRED | | ||
+ | | 14 | | PRED | | ||
+ | | 15 | | APREDs | | ||
+ | |||
+ | Následující tabulka vysvětluje, | ||
+ | |||
+ | | **Field name** | **Description** | | ||
+ | | ID | Token counter, starting at 1 for each new sentence. | | ||
+ | | FORM | Word form or punctuation symbol. | | ||
+ | | LEMMA | Lemma or stem (depending on particular data set) of word form, or an underscore if not available. | | ||
+ | | CPOSTAG | Coarse-grained part-of-speech tag, where tagset depends on the language. | | ||
+ | | POSTAG, POS | Fine-grained part-of-speech tag, where the tagset depends on the language, or identical to the coarse-grained part-of-speech tag if not available. | | ||
+ | | FEATS, FEAT | Unordered set of syntactic and/or morphological features (depending on the particular language), separated by a vertical bar (< | ||
+ | | HEAD | Head of the current token, which is either a value of ID or zero (' | ||
+ | | DEPREL | Dependency relation to the HEAD. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply ' | ||
+ | | PLEMMA, PPOS, PFEAT | 2009: automatically predicted values of LEMMA, POS, FEAT | | ||
+ | | PHEAD | 2006: Projective head of current token, which is either a value of ID or zero (' | ||
+ | | PDEPREL | 2006: Dependency relation to the PHEAD, or an underscore if not available. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply ' | ||
+ | |||
+ | ===== Převody z a do jiných formátů ===== | ||
+ | |||
+ | * [[Převod mezi CoNLL a CSTS]] | ||
+ | * [[Převod mezi CoNLL a PML]] | ||
- | Povinným parametrem je dvoupísmenný kód jazyka podle normy [[http:// |