[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:interset:drivers [2008/03/26 08:56]
zeman cs::conll finished.
user:zeman:interset:drivers [2008/04/03 11:49]
zeman Restructuralization.
Line 26: Line 26:
  
 České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, když jsem začal ovladače testovat a musel jsem tenhle opravovat. Opět platí, že část času zabralo ladění testovacího skriptu, který v té době teprve vznikal. České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, když jsem začal ovladače testovat a musel jsem tenhle opravovat. Opět platí, že část času zabralo ladění testovacího skriptu, který v té době teprve vznikal.
- 
- 
  
 ==== CoNLL (derived from PDT) ==== ==== CoNLL (derived from PDT) ====
Line 40: Line 38:
  
 More than half of the time was consumed during testing for tuning tags containing the Sem feature. More than half of the time was consumed during testing for tuning tags containing the Sem feature.
 +
 +===== Danish (da) =====
 +
 +Tags of the Danish Dependency Treebank converted to CoNLL format. 144 tags with complex documentation in Danish.
 +
 +Total work time: about 7 hours
 +
 +===== English (en) =====
 +
 +Penn Treebank (45 atomic tags). Detailed classification of punctuation.
 +
 +Total work time: about 3 hours
 +
 +===== German (de) =====
 +
 +==== Stuttgart-Tübingen Tagset (STTS) ====
 +
 +This is the tagset used in the Tiger treebank. It is quite syntax-oriented, often the same word can be tagged in couple different ways according to its function in a particular sentence. Pronouns are systematically categorized as substitutive (occur instead of an NP), attributive (occur inside an NP) and adverbial.
 +
 +The tags omit inflectional information (number and case of pronouns and articles, degree of comparison of adjectives, tense (Präteritum, Konjunktiv), person and number of verbs).
 +
 +Work started: 29.3.2008
 +Work finished: 29.3.2008
 +Total work time: 4:00 h
 +
 +==== CoNLL (derived from STTS) ====
 +
 +Only simple envelope around the STTS driver needed.
 +
 +Work started: 31.3.2008
 +Work finished: 31.3.2008
 +Total work time: 10 min
 +
 +===== Swedish (sv) =====
 +
 +Mamba tagset of Talbanken05. 48 tags, no morphosyntactic categories but detailed classification of auxiliary and modal verbs and punctuation.
 +
 +Total work time: about 3 hours
  
 ===== Time needed for tag set conversion ===== ===== Time needed for tag set conversion =====
Line 50: Line 86:
 Arabské značky (Otovy i Buckwalterovy, ještě bez Intersetu, 22.3.2006): Arabské značky (Otovy i Buckwalterovy, ještě bez Intersetu, 22.3.2006):
 4:45+1+1:40 = 7:25 4:45+1+1:40 = 7:25
- 
-Dánské značky DDT/Parole (144 značek s košatým popisem) 
-asi 7 hodin 
- 
-Švédské značky Mamba (48 značek) 
-asi 3 hodiny 
- 
-Penn Treebank (36 značek) 
-asi 3 hodiny, ale tady jsem to ještě neměřil, takže to je jen hrubý zpětný odhad 
  
 Hajičovy švédské značky Hajičovy švédské značky

[ Back to the navigation ] [ Back to the content ]