Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
format-conll [2009/02/26 15:50] zeman Predicate columns. |
format-conll [2009/03/01 18:54] (current) stepanek PRED,APREDS |
||
---|---|---|---|
Line 1: | Line 1: | ||
====== Formát CoNLL ====== | ====== Formát CoNLL ====== | ||
- | Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http:// | + | Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http:// |
Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http:// | Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http:// | ||
+ | |||
===== Formát CoNLL 2009 ===== | ===== Formát CoNLL 2009 ===== | ||
Line 43: | Line 44: | ||
| PRED | Rolesets of the semantic predicates in this sentence. This includes both nominal and verbal predicates. The split-form tokens that are not semantic predicates must be marked with “_”. We use the same roleset names as the PropBank and NomBank frames. | | | PRED | Rolesets of the semantic predicates in this sentence. This includes both nominal and verbal predicates. The split-form tokens that are not semantic predicates must be marked with “_”. We use the same roleset names as the PropBank and NomBank frames. | | ||
| APREDs | Columns with argument labels for the each semantic predicate following textual order, i.e., the first column corresponds to the first predicate in PRED, the second column to the second predicate, etc. Note that, because this algorithm uniquely identifies the ID of the corresponding predicate, it is sufficient to store the label of the argument here. The argument labels for verbal predicates follow the PropBank conventions. Labels of arguments to nominal predicates use NomBank conventions. The differences between PropBank and NomBank labels are discussed here. | | | APREDs | Columns with argument labels for the each semantic predicate following textual order, i.e., the first column corresponds to the first predicate in PRED, the second column to the second predicate, etc. Note that, because this algorithm uniquely identifies the ID of the corresponding predicate, it is sufficient to store the label of the argument here. The argument labels for verbal predicates follow the PropBank conventions. Labels of arguments to nominal predicates use NomBank conventions. The differences between PropBank and NomBank labels are discussed here. | | ||
+ | |||
+ | Poznámka Dan: Z toho vysvětlení polí PRED a APREDs nejsem ani trochu moudrý a podezírám organizátory, | ||
+ | |||
+ | Neupsali, podívej se na ten jejich příklad. Je to šíleně složité a vede to k tomu, že některé české věty mají přes sto sloupců. Námi navrhovaná reforma formátu ale neprošla. Sloupce opravdu odpovídají jednotlivým predikátům ve sloupci PRED, ale **v& | ||
+ | --- // | ||
===== Převody z a do jiných formátů ===== | ===== Převody z a do jiných formátů ===== |