Differences

This shows you the differences between two versions of the page.

--- format-conll [2007/05/16 08:10]
zeman Odkaz na přehled datových formátů.
+++ format-conll [2009/03/01 18:54] (current)
stepanek PRED,APREDS
@@ Line 1: / Line 1: @@
 ====== Formát CoNLL ======
-Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|CoNLL]] v&nbsp;závislostním parsingu. Seznam treebanků, které máme v&nbsp;tomto formátu, najdete na stránce [[internal:Data#CoNLL|Data]].
+Jednoduchý sloupcový [[Datové formáty|formát]] použitý pro uložení treebanků pro účely soutěže [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|CoNLL]] ([[http://nextens.uvt.nl/~conll/|2006]], [[http://depparse.uvt.nl/depparse-wiki/SharedTaskWebsite|2007]], [[http://barcelona.research.yahoo.net/conll2008/|2008]], [[http://ufal.mff.cuni.cz/conll2009-st/|2009]]) v&nbsp;závislostním parsingu. Seznam treebanků, které máme v&nbsp;tomto formátu, najdete na stránce [[internal:Data#CoNLL|Data]].
 Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat.
-===== Převod do CSTS =====
-Pro převod formátu CoNLL do [[Formát CSTS|CSTS]] slouží nástroj ''conll2csts.pl'', který je součástí [[Parsery|Danových nástrojů pro parsing]]:
+===== Formát CoNLL 2009 =====
-<code>$PARSINGROOT/tools/conll2csts.pl -l da < danish-train.conll > danish-train.csts</code>
+Pozor! Kromě toho, že pro rozšířenou úlohu (označování sémantických rolí) potřebujeme nové sloupce, došlo oproti letům 2006 a 2007 i ke změně ve starých sloupcích! Nový formát je popsán na http://ufal.mff.cuni.cz/conll2009-st/task-description.html#Dataformat. (A podobný projekt pro angličtinu z roku 2008 na http://barcelona.research.yahoo.net/conll2008/.) Následující tabulka porovnává oba formáty. Vlevo jsou sloupce z CoNLL 2006, vpravo z CoNLL 2009.
-Povinným parametrem je dvoupísmenný kód jazyka podle normy [[http://cs.wikipedia.org/wiki/Seznam_jazyk%C5%AF|ISO 639-1]]. Mějte na paměti, že pravověrné CSTS předpokládá kódování ISO 8859-2, ale tento nástroj (úmyslně!) ponechává i na výstupu kódování UTF-8.
+| **Field number** | **Field name 2006** | **Field name 2009** |
+| 1 | ID | ID |
+| 2 | FORM | FORM |
+| 3 | LEMMA | LEMMA |
+| 4 | CPOSTAG | PLEMMA |
+| 5 | POSTAG | POS |
+| 6 | FEATS | PPOS |
+| 7 | HEAD | FEAT |
+| 8 | DEPREL | PFEAT |
+| 9 | PHEAD | HEAD |
+| 10 | PDEPREL | PHEAD |
+| 11 | | DEPREL |
+| 12 | | PDEPREL |
+| 13 | | FILLPRED |
+| 14 | | PRED |
+| 15+ | | APREDs |
-===== Převod do PML =====
+Následující tabulka vysvětluje, co jednotlivá pole znamenají.
-Pro převod formátu CoNLL do [[Formát PML|PML]] slouží nástroj [[http://ufal.mff.cuni.cz/jazz/PML/tools/conll2pml|conll2pml]], který napsal Petr Pajas, ale nyní je také součástí [[Parsery|Danových nástrojů pro parsing]]:
+| **Field name** | **Description** |
+| ID | Token counter, starting at 1 for each new sentence. |
+| FORM | Word form or punctuation symbol. |
+| LEMMA | Lemma or stem (depending on particular data set) of word form, or an underscore if not available. |
+| CPOSTAG | Coarse-grained part-of-speech tag, where tagset depends on the language. |
+| POSTAG, POS | Fine-grained part-of-speech tag, where the tagset depends on the language, or identical to the coarse-grained part-of-speech tag if not available. |
+| FEATS, FEAT | Unordered set of syntactic and/or morphological features (depending on the particular language), separated by a vertical bar (<nowiki>|</nowiki>), or an underscore if not available. |
+| HEAD | Head of the current token, which is either a value of ID or zero ('0'). Note that depending on the original treebank annotation, there may be multiple tokens with an ID of zero. |
+| DEPREL | Dependency relation to the HEAD. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply 'ROOT'. |
+| PLEMMA, PPOS, PFEAT | 2009: automatically predicted values of LEMMA, POS, FEAT |
+| PHEAD | 2006: Projective head of current token, which is either a value of ID or zero ('0'), or an underscore if not available. Note that depending on the original treebank annotation, there may be multiple tokens an with ID of zero. The dependency structure resulting from the PHEAD column is guaranteed to be projective (but is not available for all languages), whereas the structures resulting from the HEAD column will be non-projective for some sentences of some languages (but is always available). 2009: PHEAD contains automatically predicted value of HEAD! |
+| PDEPREL | 2006: Dependency relation to the PHEAD, or an underscore if not available. The set of dependency relations depends on the particular language. Note that depending on the original treebank annotation, the dependency relation may be meaningful or simply 'ROOT'. 2009: PDEPREL contains automatically predicted value of DEPREL! |
+| FILLPRED | Contains Y for lines where PRED is/should be filled. |
+| PRED | Rolesets of the semantic predicates in this sentence. This includes both nominal and verbal predicates. The split-form tokens that are not semantic predicates must be marked with “_”. We use the same roleset names as the PropBank and NomBank frames. |
+| APREDs | Columns with argument labels for the each semantic predicate following textual order, i.e., the first column corresponds to the first predicate in PRED, the second column to the second predicate, etc. Note that, because this algorithm uniquely identifies the ID of the corresponding predicate, it is sufficient to store the label of the argument here. The argument labels for verbal predicates follow the PropBank conventions. Labels of arguments to nominal predicates use NomBank conventions. The differences between PropBank and NomBank labels are discussed here. |
-<code>$PARSINGROOT/tools/conll2pml.pl --technical-root --max-sentences 1000000 danish-train.conll</code>
+Poznámka Dan: Z toho vysvětlení polí PRED a APREDs nejsem ani trochu moudrý a podezírám organizátory, že se tam možná upsali. Česká data obsahují v poli PRED často totéž co v poli LEMMA, ale občas je tam jakýsi identifikátor (např. "v-w3075f2"), který možná odkazuje do Vallexu. Sloupce APREDs zřejmě neodpovídají "to the first/second/etc. predicate in PRED", protože v PREDu je vždy nejvýše jeden predikát. Spíše odpovídají prvnímu/druhému/atd. argumentu predikátu v PRED. Pořadí argumentů zřejmě odpovídá povrchovému slovosledu, i když pak nechápu, jak je možné, se před vyplněnými poli mohou objevit nějaká nevyplněná (resp. vyplněná podtržítkem). Hodnotou pole jsou "labels" argumentů, v případě českých dat funktory. Zatím mi není vůbec jasné, proč se to dělá takhle složitě, proč nejsou hodnoty uložené přímo u uzlů (řádků) odpovídajících argumentům.
-Při převodu do PML jsou zachovány původní značky. Program vytvoří v&nbsp;aktuální složce soubor ''out_schema.xml'' a jeden nebo více souborů ve tvaru ''out_NNNN.pml'', kde NNNN jsou číslice. Pokud nepoužijete volbu --max-sentences, použije se výchozí hodnota 100, tj. program vytvoří nový soubor pro každých zhruba 100 vět. Výše uvedené nastavení zařídí, že pro běžné korpusy (milión vět už je opravdu hodně) dostanete jen jeden výstupní PML soubor a jedno schéma. Ovšem pozor, takový PML soubor může být nepříjemně veliký (např. pro necelých 1500 arabských vět je to přes 17 MB).
+Neupsali, podívej se na ten jejich příklad. Je to šíleně složité a vede to k tomu, že některé české věty mají přes sto sloupců. Námi navrhovaná reforma formátu ale neprošla. Sloupce opravdu odpovídají jednotlivým predikátům ve sloupci PRED, ale **v&nbsp;rámci celé věty**.
+ --- //[[stepanek@ufal.mff.cuni.cz|stepanek]] 01.3.2009 18:51//
-Volba --technical-root je rovněž nezbytná pro uživatele zvyklé na prostředí pražských korpusů. Bez ní program považuje za kořen každý uzel, který uvádí závislost na uzlu 0. Většina stromů se tak rozpadne na lesy. S&nbsp;volbou --technical-root dostaneme jeden strom, ve kterém jsou tyto pseudokořeny spojeny pod jeden umělý uzel, kořen stromu.
+===== Převody z a do jiných formátů =====
-Další podrobnosti:
+  * [[Převod mezi CoNLL a CSTS]]
+  * [[Převod mezi CoNLL a PML]]
-<code>$PARSINGROOT/tools/conll2pml.pl --help</code>

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences