Differences
This shows you the differences between two versions of the page.
Next revision Both sides next revision | |||
user:zeman:interset:drivers [2008/03/06 15:47] zeman vytvořeno |
user:zeman:interset:drivers [2008/03/06 15:51] zeman Time requirements moved to Drivers. |
||
---|---|---|---|
Line 16: | Line 16: | ||
Most of the time was dedicated to extracting, transcribing and translating examples in an effort to understand the tag classes. | Most of the time was dedicated to extracting, transcribing and translating examples in an effort to understand the tag classes. | ||
+ | |||
+ | ===== Time needed for tag set conversion ===== | ||
+ | |||
+ | Poznamenávám si, kolik času mi zabral který ovladač, abych to mohl publikovat. Srovnání potřebného času s časem potřebným na obyčejný převod je zajímavé, i když vím, že ve skutečnosti ušetřím až při opakovaném využití ovladače. | ||
+ | |||
+ | Ruský treebank (nejen značky, ale vůbec převod formátu): | ||
+ | 12:36 | ||
+ | |||
+ | Arabské značky (Otovy i Buckwalterovy, | ||
+ | 4:45+1+1:40 = 7:25 | ||
+ | |||
+ | České značky PDT (přes 4000 značek; jádro Intersetu vzniklo jako vedlejší produkt, když jsem dělal tohle) | ||
+ | asi 2 dny, tedy dejme tomu 18 hodin | ||
+ | |||
+ | Dánské značky DDT/Parole (144 značek s košatým popisem) | ||
+ | asi 7 hodin | ||
+ | |||
+ | Švédské značky Mamba (48 značek) | ||
+ | asi 3 hodiny | ||
+ | |||
+ | Penn Treebank (36 značek) | ||
+ | asi 3 hodiny, ale tady jsem to ještě neměřil, takže to je jen hrubý zpětný odhad | ||
+ | |||
+ | Hajičovy švédské značky | ||
+ | 0:32 - tady zjevně chybí úplná statistika | ||
+ | |||
+ | Arabské značky CoNLL | ||
+ | 4: | ||
+ | |||
+ | České značky PDT (CoNLL verze? Nebo to jsou jen opravy, když jsem začal ovladače testovat?) | ||
+ | 1: | ||
+ | |||
+ | Bulharské značky CoNLL | ||
+ | 0: | ||
+ | (ale u bulharštiny jsem se dost natrápil s jevy, které do té doby nebyly v intersetu podchycené) | ||
+ | |||
+ | Anglické značky CoNLL | ||
+ | 0:48 - možná tady chybí statistika, ale možná taky ne, protože stačilo upravit existující ovladač Penn Treebanku, ne? | ||
+ | |||
+ | Žádné z výše uvedených převodů (tedy vše napsané před říjnem 2007) ještě neměly k dispozici chytré funkce pro nahrazování nepovolených hodnot. | ||