Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:dz-parser:icon [2009/10/28 11:05] zeman Statistiky značek slovních druhů. |
user:zeman:dz-parser:icon [2009/10/28 17:36] zeman Vizualizace chyb. |
||
---|---|---|---|
Line 29: | Line 29: | ||
| bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 | | | bengálština | 6449 | 2997 | 2336 | 14 | 30 | 398 | 367 | | ||
| telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 | | | telugština | 5494 | 2462 | 1403 | 12 | 31 | 409 | 453 | | ||
+ | |||
+ | Statistiky v& | ||
+ | |||
+ | <code bash> | ||
+ | |||
+ | ==== Naivní telugu ==== | ||
+ | |||
+ | V& | ||
+ | |||
+ | | Jazyk | dtrain | dtest | | ||
+ | | hi | 35.71 | 34.64 | | ||
+ | | bn | 39.52 | 44.14 | | ||
+ | | te | 73.75 | 76.89 | | ||
+ | |||
+ | |||
+ | |||
+ | ===== Analýza chyb ===== | ||
Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: | Takhle se z morfologických indických dat vyrobí soubor pro Tred, který obsahuje indické písmo místo WX: | ||
< | < | ||
+ | |||
+ | Důležitou součástí výše uvedeného příkazu je perlový kód, který maže tabulátory ze značek, jinak se na výsledek nedá v& | ||
+ | |||
+ | < | ||
+ | |||
+ | A takhle spojíme vzorovou anotaci s& | ||
+ | |||
+ | < | ||
+ | |||
+ | ===== Výsledky ===== | ||
První výsledky DZ Parseru na vývojových datech: | První výsledky DZ Parseru na vývojových datech: |