[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision Both sides next revision
user:zeman:interset:drivers [2008/03/06 15:47]
zeman vytvořeno
user:zeman:interset:drivers [2008/03/06 15:51]
zeman Time requirements moved to Drivers.
Line 16: Line 16:
  
 Most of the time was dedicated to extracting, transcribing and translating examples in an effort to understand the tag classes. Most of the time was dedicated to extracting, transcribing and translating examples in an effort to understand the tag classes.
 +
 +===== Time needed for tag set conversion =====
 +
 +Poznamenávám si, kolik času mi zabral který ovladač, abych to mohl publikovat. Srovnání potřebného času s časem potřebným na obyčejný převod je zajímavé, i když vím, že ve skutečnosti ušetřím až při opakovaném využití ovladače.
 +
 +Ruský treebank (nejen značky, ale vůbec převod formátu):
 +12:36
 +
 +Arabské značky (Otovy i Buckwalterovy, ještě bez Intersetu, 22.3.2006):
 +4:45+1+1:40 = 7:25
 +
 +České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle)
 +asi 2 dny, tedy dejme tomu 18 hodin
 +
 +Dánské značky DDT/Parole (144 značek s košatým popisem)
 +asi 7 hodin
 +
 +Švédské značky Mamba (48 značek)
 +asi 3 hodiny
 +
 +Penn Treebank (36 značek)
 +asi 3 hodiny, ale tady jsem to ještě neměřil, takže to je jen hrubý zpětný odhad
 +
 +Hajičovy švédské značky
 +0:32 - tady zjevně chybí úplná statistika
 +
 +Arabské značky CoNLL
 +4:33+5:19+3:16 = 13:08
 +
 +České značky PDT (CoNLL verze? Nebo to jsou jen opravy, když jsem začal ovladače testovat?)
 +1:44+3:20+6:05 = 11:09
 +
 +Bulharské značky CoNLL
 +0:20+1:00+0:26+5:44+2:00+6:15+1:20+0:46+1:26+2:30+0:48+12:44 = 35:19
 +(ale u bulharštiny jsem se dost natrápil s jevy, které do té doby nebyly v intersetu podchycené)
 +
 +Anglické značky CoNLL
 +0:48 - možná tady chybí statistika, ale možná taky ne, protože stačilo upravit existující ovladač Penn Treebanku, ne?
 +
 +Žádné z výše uvedených převodů (tedy vše napsané před říjnem 2007) ještě neměly k dispozici chytré funkce pro nahrazování nepovolených hodnot.
  

[ Back to the navigation ] [ Back to the content ]