[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:interset:drivers [2008/03/25 13:22]
zeman PDT CoNLL.
user:zeman:interset:drivers [2008/03/25 14:13]
zeman References.
Line 26: Line 26:
  
 České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, když jsem začal ovladače testovat a musel jsem tenhle opravovat. Opět platí, že část času zabralo ladění testovacího skriptu, který v té době teprve vznikal. České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, když jsem začal ovladače testovat a musel jsem tenhle opravovat. Opět platí, že část času zabralo ladění testovacího skriptu, který v té době teprve vznikal.
 +
 +
  
 ==== CoNLL (derived from PDT) ==== ==== CoNLL (derived from PDT) ====
  
 The CoNLL 2006 and 2007 Czech treebanks are data from PDT converted to the CoNLL format. The PDT morphological tags have been decomposed into coarse-grained part of speech, detailed part of speech, and a set of feature values. There should be a one-to-one mapping between the original PDT and the CoNLL tagsets, however, the driver cannot be a simple envelope around the driver of the original tagset (as is the case for e.g. Penn Treebank tags) because of the features. The CoNLL 2006 and 2007 Czech treebanks are data from PDT converted to the CoNLL format. The PDT morphological tags have been decomposed into coarse-grained part of speech, detailed part of speech, and a set of feature values. There should be a one-to-one mapping between the original PDT and the CoNLL tagsets, however, the driver cannot be a simple envelope around the driver of the original tagset (as is the case for e.g. Penn Treebank tags) because of the features.
 +
 +Update: the mapping to the original PDT tags is not one-to-one. Some information, encoded in lemmas in the PDT, has been encoded as features in CoNLL data. README refers the following documentation: [[http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/References/mman.html#pos-tag|part of speech and most features]] | [[http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/References/mman.html#sem-info|lemma features]]
  
 Work started: 25.3.2008 Work started: 25.3.2008

[ Back to the navigation ] [ Back to the content ]