[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:interset:drivers [2008/03/25 14:13]
zeman References.
user:zeman:interset:drivers [2008/04/03 14:16]
zeman Restructuralization.
Line 26: Line 26:
  
 České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, když jsem začal ovladače testovat a musel jsem tenhle opravovat. Opět platí, že část času zabralo ladění testovacího skriptu, který v té době teprve vznikal. České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, když jsem začal ovladače testovat a musel jsem tenhle opravovat. Opět platí, že část času zabralo ladění testovacího skriptu, který v té době teprve vznikal.
- 
- 
  
 ==== CoNLL (derived from PDT) ==== ==== CoNLL (derived from PDT) ====
  
-The CoNLL 2006 and 2007 Czech treebanks are data from PDT converted to the CoNLL format. The PDT morphological tags have been decomposed into coarse-grained part of speech, detailed part of speech, and a set of feature values. There should be a one-to-one mapping between the original PDT and the CoNLL tagsetshowever, the driver cannot be simple envelope around the driver of the original tagset (as is the case for e.gPenn Treebank tags) because of the features.+The CoNLL 2006 and 2007 Czech treebanks are data from PDT converted to the CoNLL format. The PDT morphological tags have been decomposed into coarse-grained part of speech, detailed part of speech, and a set of feature values. All PDT tags have unique equivalents in CoNLL. However, the mapping to the original PDT tags is not one-to-one. Some information, encoded in lemmas in the PDT, has been encoded as new feature called ''Sem'' in CoNLL data. README refers the following documentation: [[http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/References/mman.html#pos-tag|part of speech and most features]] | [[http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/References/mman.html#sem-info|lemma features]]
  
-Update: the mapping to the original PDT tags is not one-to-oneSome informationencoded in lemmas in the PDThas been encoded as features in CoNLL data. README refers the following documentation: [[http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/References/mman.html#pos-tag|part of speech and most features]] [[http://ufal.mff.cuni.cz/pdt/Corpora/PDT_1.0/References/mman.html#sem-info|lemma features]]+The list of tags of this tagset contains equivalents of all original PDT tags. In additionit contains those tags with the ''Sem'' feature setthat occur in CoNLL data, and a few moreThe ''Sem'' values are currently stored in the ''other'' feature of IntersetAt the same time, ''subpos = "prop"'' is set if ''Sem'' is set and ''subpos'' would otherwise be empty(The original PDT tags cannot distinguish proper from common nouns.) If the encoder encounters ''subpos = "prop"'', it uses the default value "Sem=m"The "few more" tags were added to the list whenever there was a tag ''Foo=bar|Sem=something'' and there was not the default ''Foo=bar|Sem=m''.
  
 Work started: 25.3.2008 Work started: 25.3.2008
 +Work finished: 25.3.2008
 +Total work time: 6:02 h
 +
 +More than half of the time was consumed during testing for tuning tags containing the Sem feature.
 +
 +===== Danish (da) =====
 +
 +Tags of the Danish Dependency Treebank converted to CoNLL format. 144 tags with complex documentation in Danish.
 +
 +Total work time: about 7 hours
 +
 +===== English (en) =====
 +
 +==== Penn Treebank Tagset ====
 +
 +Penn Treebank (45 atomic tags). Detailed classification of punctuation.
 +
 +Total work time: about 3 hours
 +
 +==== CoNLL Tagset (derived from Penn tags) ====
 +
 +The driver is just an envelope around the ''en::penn'' driver.
 +
 +Total work time: 48 minutes
 +
 +===== German (de) =====
 +
 +==== Stuttgart-Tübingen Tagset (STTS) ====
 +
 +This is the tagset used in the Tiger treebank. It is quite syntax-oriented, often the same word can be tagged in couple different ways according to its function in a particular sentence. Pronouns are systematically categorized as substitutive (occur instead of an NP), attributive (occur inside an NP) and adverbial.
 +
 +The tags omit inflectional information (number and case of pronouns and articles, degree of comparison of adjectives, tense (Präteritum, Konjunktiv), person and number of verbs).
 +
 +Work started: 29.3.2008
 +Work finished: 29.3.2008
 +Total work time: 4:00 h
 +
 +==== CoNLL (derived from STTS) ====
 +
 +Only simple envelope around the STTS driver needed.
 +
 +Work started: 31.3.2008
 +Work finished: 31.3.2008
 +Total work time: 10 min
 +
 +===== Swedish (sv) =====
 +
 +Mamba tagset of Talbanken05. 48 tags, no morphosyntactic categories but detailed classification of auxiliary and modal verbs and punctuation.
 +
 +Total work time: about 3 hours
  
 ===== Time needed for tag set conversion ===== ===== Time needed for tag set conversion =====
Line 46: Line 94:
 Arabské značky (Otovy i Buckwalterovy, ještě bez Intersetu, 22.3.2006): Arabské značky (Otovy i Buckwalterovy, ještě bez Intersetu, 22.3.2006):
 4:45+1+1:40 = 7:25 4:45+1+1:40 = 7:25
- 
-Dánské značky DDT/Parole (144 značek s košatým popisem) 
-asi 7 hodin 
- 
-Švédské značky Mamba (48 značek) 
-asi 3 hodiny 
- 
-Penn Treebank (36 značek) 
-asi 3 hodiny, ale tady jsem to ještě neměřil, takže to je jen hrubý zpětný odhad 
  
 Hajičovy švédské značky Hajičovy švédské značky
Line 65: Line 104:
 0:20+1:00+0:26+5:44+2:00+6:15+1:20+0:46+1:26+2:30+0:48+12:44 = 35:19 0:20+1:00+0:26+5:44+2:00+6:15+1:20+0:46+1:26+2:30+0:48+12:44 = 35:19
 (ale u bulharštiny jsem se dost natrápil s jevy, které do té doby nebyly v intersetu podchycené) (ale u bulharštiny jsem se dost natrápil s jevy, které do té doby nebyly v intersetu podchycené)
- 
-Anglické značky CoNLL 
-0:48 - možná tady chybí statistika, ale možná taky ne, protože stačilo upravit existující ovladač Penn Treebanku, ne? 
  
 Žádné z výše uvedených převodů (tedy vše napsané před říjnem 2007) ještě neměly k dispozici chytré funkce pro nahrazování nepovolených hodnot. Žádné z výše uvedených převodů (tedy vše napsané před říjnem 2007) ještě neměly k dispozici chytré funkce pro nahrazování nepovolených hodnot.
  

[ Back to the navigation ] [ Back to the content ]