Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Last revision Both sides next revision | ||
format-conll [2007/05/16 08:10] zeman Odkaz na přehled datových formátů. |
format-conll [2009/02/26 17:41] zeman Poznámka k PRED a APREDs. |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Formát CoNLL ====== | ====== Formát CoNLL ====== | ||
- | Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http:// | + | Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http:// |
Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http:// | Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http:// | ||
- | ===== Převod do CSTS ===== | + | ===== Formát CoNLL 2009 ===== |
- | Pro převod formátu CoNLL do [[Formát CSTS|CSTS]] slouží nástroj '' | + | Pozor! Kromě toho, že pro rozšířenou úlohu (označování sémantických rolí) potřebujeme nové sloupce, došlo oproti letům 2006 a 2007 i ke změně ve starých sloupcích! Nový formát je popsán na http:// |
- | < | + | | **Field number** | **Field name 2006** | **Field name 2009** | |
+ | | 1 | ID | ID | | ||
+ | | 2 | FORM | FORM | | ||
+ | | 3 | LEMMA | LEMMA | | ||
+ | | 4 | CPOSTAG | PLEMMA | | ||
+ | | 5 | POSTAG | POS | | ||
+ | | 6 | FEATS | PPOS | | ||
+ | | 7 | HEAD | FEAT | | ||
+ | | 8 | DEPREL | PFEAT | | ||
+ | | 9 | PHEAD | HEAD | | ||
+ | | 10 | PDEPREL | PHEAD | | ||
+ | | 11 | | DEPREL | | ||
+ | | 12 | | PDEPREL | | ||
+ | | 13 | | FILLPRED | | ||
+ | | 14 | | PRED | | ||
+ | | 15+ | | APREDs | | ||
- | Povinným parametrem je dvoupísmenný kód jazyka podle normy [[http:// | + | Následující tabulka vysvětluje, co jednotlivá pole znamenají. |
- | ===== Převod do PML ===== | + | | **Field name** | **Description** | |
+ | | ID | Token counter, starting at 1 for each new sentence. | | ||
+ | | FORM | Word form or punctuation symbol. | | ||
+ | | LEMMA | Lemma or stem (depending on particular data set) of word form, or an underscore if not available. | | ||
+ | | CPOSTAG | Coarse-grained part-of-speech tag, where tagset depends on the language. | | ||
+ | | POSTAG, POS | Fine-grained part-of-speech tag, where the tagset depends on the language, or identical to the coarse-grained part-of-speech tag if not available. | | ||
+ | | FEATS, FEAT | Unordered set of syntactic and/or morphological features (depending on the particular language), separated by a vertical bar (< | ||
+ | | HEAD | Head of the current token, which is either a value of ID or zero (' | ||
+ | | DEPREL | Dependency relation to the HEAD. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply ' | ||
+ | | PLEMMA, PPOS, PFEAT | 2009: automatically predicted values of LEMMA, POS, FEAT | | ||
+ | | PHEAD | 2006: Projective head of current token, which is either a value of ID or zero (' | ||
+ | | PDEPREL | 2006: Dependency relation to the PHEAD, or an underscore if not available. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply ' | ||
+ | | FILLPRED | Contains Y for lines where PRED is/should be filled. | | ||
+ | | PRED | Rolesets of the semantic predicates in this sentence. This includes both nominal and verbal predicates. The split-form tokens that are not semantic predicates must be marked with “_”. We use the same roleset names as the PropBank and NomBank frames. | | ||
+ | | APREDs | Columns with argument labels for the each semantic predicate following textual order, i.e., the first column corresponds to the first predicate in PRED, the second column to the second predicate, etc. Note that, because this algorithm uniquely identifies the ID of the corresponding predicate, it is sufficient to store the label of the argument here. The argument labels for verbal predicates follow the PropBank conventions. Labels of arguments to nominal predicates use NomBank conventions. The differences between PropBank and NomBank labels are discussed here. | | ||
- | Pro převod formátu CoNLL do [[Formát PML|PML]] slouží nástroj [[http://ufal.mff.cuni.cz/jazz/PML/ | + | Poznámka Dan: Z toho vysvětlení polí PRED a APREDs nejsem ani trochu moudrý a podezírám organizátory, |
- | < | + | ===== Převody z a do jiných formátů ===== |
- | Při převodu do PML jsou zachovány původní značky. Program vytvoří v& | + | * [[Převod mezi CoNLL a CSTS]] |
- | + | * [[Převod mezi CoNLL a PML]] | |
- | Volba --technical-root je rovněž nezbytná pro uživatele zvyklé na prostředí pražských korpusů. Bez ní program považuje za kořen každý uzel, který uvádí závislost na uzlu 0. Většina stromů se tak rozpadne na lesy. S& | + | |
- | + | ||
- | Další podrobnosti: | + | |
- | + | ||
- | < | + | |