[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
format-conll [2009/02/26 15:20]
zeman Srovnání formátů 2006 a 2009.
format-conll [2009/02/26 15:57]
zeman Odkazy na jednotlivé ročníky CoNLL Shared Task.
Line 1: Line 1:
 ====== Formát CoNLL ====== ====== Formát CoNLL ======
  
-Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|CoNLL]] v závislostním parsingu. Seznam treebanků, které máme v tomto formátu, najdete na stránce [[internal:Data#CoNLL|Data]].+Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|CoNLL]] ([[http://nextens.uvt.nl/~conll/|2006]], [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|2007]], [[http://barcelona.research.yahoo.net/conll2008/|2008]], [[http://ufal.mff.cuni.cz/conll2009-st/|2009]]) v závislostním parsingu. Seznam treebanků, které máme v tomto formátu, najdete na stránce [[internal:Data#CoNLL|Data]].
  
 Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat. Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat.
Line 7: Line 7:
 ===== Formát CoNLL 2009 ===== ===== Formát CoNLL 2009 =====
  
-Pozor! Kromě toho, že pro rozšířenou úlohu (označování sémantických rolí) potřebujeme nové sloupce, došlo oproti letům 2006 a 2007 i ke změně ve starých sloupcích! Nový formát je popsán na http://ufal.mff.cuni.cz/conll2009-st/task-description.html#Dataformat. Následující tabulka porovnává oba formáty. Vlevo jsou sloupce z CoNLL 2006, vpravo z CoNLL 2009.+Pozor! Kromě toho, že pro rozšířenou úlohu (označování sémantických rolí) potřebujeme nové sloupce, došlo oproti letům 2006 a 2007 i ke změně ve starých sloupcích! Nový formát je popsán na http://ufal.mff.cuni.cz/conll2009-st/task-description.html#Dataformat. (A podobný projekt pro angličtinu z roku 2008 na http://barcelona.research.yahoo.net/conll2008/.) Následující tabulka porovnává oba formáty. Vlevo jsou sloupce z CoNLL 2006, vpravo z CoNLL 2009.
  
 | **Field number** | **Field name 2006** | **Field name 2009** | | **Field number** | **Field name 2006** | **Field name 2009** |
Line 24: Line 24:
 | 13 | | FILLPRED | | 13 | | FILLPRED |
 | 14 | | PRED | | 14 | | PRED |
-| 15 | | APREDs |+| 15| | APREDs |
  
 Následující tabulka vysvětluje, co jednotlivá pole znamenají. Následující tabulka vysvětluje, co jednotlivá pole znamenají.
Line 40: Line 40:
 | PHEAD | 2006: Projective head of current token, which is either a value of ID or zero ('0'), or an underscore if not available. Note that depending on the original treebank annotation, there may be multiple tokens an with ID of zero. The dependency structure resulting from the PHEAD column is guaranteed to be projective (but is not available for all languages), whereas the structures resulting from the HEAD column will be non-projective for some sentences of some languages (but is always available). 2009: PHEAD contains automatically predicted value of HEAD! | | PHEAD | 2006: Projective head of current token, which is either a value of ID or zero ('0'), or an underscore if not available. Note that depending on the original treebank annotation, there may be multiple tokens an with ID of zero. The dependency structure resulting from the PHEAD column is guaranteed to be projective (but is not available for all languages), whereas the structures resulting from the HEAD column will be non-projective for some sentences of some languages (but is always available). 2009: PHEAD contains automatically predicted value of HEAD! |
 | PDEPREL | 2006: Dependency relation to the PHEAD, or an underscore if not available. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply 'ROOT'. 2009: PDEPREL contains automatically predicted value of DEPREL! | | PDEPREL | 2006: Dependency relation to the PHEAD, or an underscore if not available. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply 'ROOT'. 2009: PDEPREL contains automatically predicted value of DEPREL! |
 +| FILLPRED | Contains Y for lines where PRED is/should be filled. |
 +| PRED | Rolesets of the semantic predicates in this sentence. This includes both nominal and verbal predicates. The split-form tokens that are not semantic predicates must be marked with “_”. We use the same roleset names as the PropBank and NomBank frames. |
 +| APREDs | Columns with argument labels for the each semantic predicate following textual order, i.e., the first column corresponds to the first predicate in PRED, the second column to the second predicate, etc. Note that, because this algorithm uniquely identifies the ID of the corresponding predicate, it is sufficient to store the label of the argument here. The argument labels for verbal predicates follow the PropBank conventions. Labels of arguments to nominal predicates use NomBank conventions. The differences between PropBank and NomBank labels are discussed here. |
  
 ===== Převody z a do jiných formátů ===== ===== Převody z a do jiných formátů =====

[ Back to the navigation ] [ Back to the content ]