[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
format-conll [2009/02/26 17:41]
zeman Poznámka k PRED a APREDs.
format-conll [2009/03/01 18:54] (current)
stepanek PRED,APREDS
Line 4: Line 4:
  
 Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat. Každý řádek odpovídá jednomu slovu původního textu, věty jsou oddělené prázdným řádkem. Na řádku je předem známý počet hodnot (sloupců), oddělených tabulátory. To jsou hodnoty jednotlivých atributů daného slova. Podrobnější popis formátu najdete např. na http://depparse.uvt.nl/depparse-wiki/DataFormat.
 +
  
 ===== Formát CoNLL 2009 ===== ===== Formát CoNLL 2009 =====
Line 45: Line 46:
  
 Poznámka Dan: Z toho vysvětlení polí PRED a APREDs nejsem ani trochu moudrý a podezírám organizátory, že se tam možná upsali. Česká data obsahují v poli PRED často totéž co v poli LEMMA, ale občas je tam jakýsi identifikátor (např. "v-w3075f2"), který možná odkazuje do Vallexu. Sloupce APREDs zřejmě neodpovídají "to the first/second/etc. predicate in PRED", protože v PREDu je vždy nejvýše jeden predikát. Spíše odpovídají prvnímu/druhému/atd. argumentu predikátu v PRED. Pořadí argumentů zřejmě odpovídá povrchovému slovosledu, i když pak nechápu, jak je možné, se před vyplněnými poli mohou objevit nějaká nevyplněná (resp. vyplněná podtržítkem). Hodnotou pole jsou "labels" argumentů, v případě českých dat funktory. Zatím mi není vůbec jasné, proč se to dělá takhle složitě, proč nejsou hodnoty uložené přímo u uzlů (řádků) odpovídajících argumentům. Poznámka Dan: Z toho vysvětlení polí PRED a APREDs nejsem ani trochu moudrý a podezírám organizátory, že se tam možná upsali. Česká data obsahují v poli PRED často totéž co v poli LEMMA, ale občas je tam jakýsi identifikátor (např. "v-w3075f2"), který možná odkazuje do Vallexu. Sloupce APREDs zřejmě neodpovídají "to the first/second/etc. predicate in PRED", protože v PREDu je vždy nejvýše jeden predikát. Spíše odpovídají prvnímu/druhému/atd. argumentu predikátu v PRED. Pořadí argumentů zřejmě odpovídá povrchovému slovosledu, i když pak nechápu, jak je možné, se před vyplněnými poli mohou objevit nějaká nevyplněná (resp. vyplněná podtržítkem). Hodnotou pole jsou "labels" argumentů, v případě českých dat funktory. Zatím mi není vůbec jasné, proč se to dělá takhle složitě, proč nejsou hodnoty uložené přímo u uzlů (řádků) odpovídajících argumentům.
 +
 +Neupsali, podívej se na ten jejich příklad. Je to šíleně složité a vede to k tomu, že některé české věty mají přes sto sloupců. Námi navrhovaná reforma formátu ale neprošla. Sloupce opravdu odpovídají jednotlivým predikátům ve sloupci PRED, ale **v rámci celé věty**.
 + --- //[[stepanek@ufal.mff.cuni.cz|stepanek]] 01.3.2009 18:51//
  
 ===== Převody z a do jiných formátů ===== ===== Převody z a do jiných formátů =====

[ Back to the navigation ] [ Back to the content ]