Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:interset:drivers [2008/03/26 08:56] zeman cs::conll finished. |
user:zeman:interset:drivers [2008/04/03 14:16] zeman Restructuralization. |
||
---|---|---|---|
Line 26: | Line 26: | ||
České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, | České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) asi 2 dny, tedy dejme tomu 18 hodin. Dalších 11:09 hodin jsem spotřeboval, | ||
- | |||
- | |||
==== CoNLL (derived from PDT) ==== | ==== CoNLL (derived from PDT) ==== | ||
Line 40: | Line 38: | ||
More than half of the time was consumed during testing for tuning tags containing the Sem feature. | More than half of the time was consumed during testing for tuning tags containing the Sem feature. | ||
+ | |||
+ | ===== Danish (da) ===== | ||
+ | |||
+ | Tags of the Danish Dependency Treebank converted to CoNLL format. 144 tags with complex documentation in Danish. | ||
+ | |||
+ | Total work time: about 7 hours | ||
+ | |||
+ | ===== English (en) ===== | ||
+ | |||
+ | ==== Penn Treebank Tagset ==== | ||
+ | |||
+ | Penn Treebank (45 atomic tags). Detailed classification of punctuation. | ||
+ | |||
+ | Total work time: about 3 hours | ||
+ | |||
+ | ==== CoNLL Tagset (derived from Penn tags) ==== | ||
+ | |||
+ | The driver is just an envelope around the '' | ||
+ | |||
+ | Total work time: 48 minutes | ||
+ | |||
+ | ===== German (de) ===== | ||
+ | |||
+ | ==== Stuttgart-Tübingen Tagset (STTS) ==== | ||
+ | |||
+ | This is the tagset used in the Tiger treebank. It is quite syntax-oriented, | ||
+ | |||
+ | The tags omit inflectional information (number and case of pronouns and articles, degree of comparison of adjectives, tense (Präteritum, | ||
+ | |||
+ | Work started: 29.3.2008 | ||
+ | Work finished: 29.3.2008 | ||
+ | Total work time: 4:00 h | ||
+ | |||
+ | ==== CoNLL (derived from STTS) ==== | ||
+ | |||
+ | Only simple envelope around the STTS driver needed. | ||
+ | |||
+ | Work started: 31.3.2008 | ||
+ | Work finished: 31.3.2008 | ||
+ | Total work time: 10 min | ||
+ | |||
+ | ===== Swedish (sv) ===== | ||
+ | |||
+ | Mamba tagset of Talbanken05. 48 tags, no morphosyntactic categories but detailed classification of auxiliary and modal verbs and punctuation. | ||
+ | |||
+ | Total work time: about 3 hours | ||
===== Time needed for tag set conversion ===== | ===== Time needed for tag set conversion ===== | ||
Line 50: | Line 94: | ||
Arabské značky (Otovy i Buckwalterovy, | Arabské značky (Otovy i Buckwalterovy, | ||
4:45+1+1:40 = 7:25 | 4:45+1+1:40 = 7:25 | ||
- | |||
- | Dánské značky DDT/Parole (144 značek s košatým popisem) | ||
- | asi 7 hodin | ||
- | |||
- | Švédské značky Mamba (48 značek) | ||
- | asi 3 hodiny | ||
- | |||
- | Penn Treebank (36 značek) | ||
- | asi 3 hodiny, ale tady jsem to ještě neměřil, takže to je jen hrubý zpětný odhad | ||
Hajičovy švédské značky | Hajičovy švédské značky | ||
Line 69: | Line 104: | ||
0: | 0: | ||
(ale u bulharštiny jsem se dost natrápil s jevy, které do té doby nebyly v intersetu podchycené) | (ale u bulharštiny jsem se dost natrápil s jevy, které do té doby nebyly v intersetu podchycené) | ||
- | |||
- | Anglické značky CoNLL | ||
- | 0:48 - možná tady chybí statistika, ale možná taky ne, protože stačilo upravit existující ovladač Penn Treebanku, ne? | ||
Žádné z výše uvedených převodů (tedy vše napsané před říjnem 2007) ještě neměly k dispozici chytré funkce pro nahrazování nepovolených hodnot. | Žádné z výše uvedených převodů (tedy vše napsané před říjnem 2007) ještě neměly k dispozici chytré funkce pro nahrazování nepovolených hodnot. | ||