Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2010/04/01 15:45] zeman Aktualizace Co dál? |
user:zeman:malt-parser [2010/04/02 15:00] zeman Komentář k pětitisícovým úsekům. |
||
---|---|---|---|
Line 105: | Line 105: | ||
Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
+ | |||
+ | |||
==== Javová implementace libsvm ==== | ==== Javová implementace libsvm ==== | ||
Line 115: | Line 117: | ||
| 5000 | 1011452 | 17:45 min | 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | | | | 5000 | 1011452 | 17:45 min | 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | | | ||
| 10000 | 1011453 | | | | | Nerozeběhlo se. | | | 10000 | 1011453 | | | | | Nerozeběhlo se. | | ||
- | | 20000 | 1011454 | | | | | | | + | | 20000 | 1011454 | 6:23 h | 5602 s = 1:33 h | 1 věta / 0,60 s | 79,90 % | | |
- | | 25000 | 1011455 | | | | | | | + | | 25000 | 1011455 | 10:59 h | 6964 s = 1:56 h | 1 věta / 0,75 s | 80,32 % | | |
| 30000 | 1011456 | | | | | Nerozeběhlo se. | | | 30000 | 1011456 | | | | | Nerozeběhlo se. | | ||
| 35000 | 1011457 | | | | | | | | 35000 | 1011457 | | | | | | | ||
Line 126: | Line 128: | ||
| 65000 | 1011463 | | | | | | | | 65000 | 1011463 | | | | | | | ||
+ | |||
+ | |||
+ | ==== Trénovací data rozsekaná na pětitisícové úseky ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
+ | | 00000-04999 | 1021425 | | | | 76,65 % | | | ||
+ | | 05000-09999 | 1021426 | | | | 76,99 % | | | ||
+ | | 10000-14999 | 1021427 | | | | 76,47 % | | | ||
+ | | 15000-19999 | 1021428 | | | | 76,72 % | | | ||
+ | | 20000-24999 | 1021429 | | | | 76,72 % | | | ||
+ | | 25000-29999 | 1021430 | | | | 76,80 % | | | ||
+ | | 30000-34999 | 1021431 | | | | 76,87 % | | | ||
+ | | 35000-39999 | 1021432 | | | | 76,94 % | | | ||
+ | | 40000-44999 | 1021433 | | | | 76,72 % | | | ||
+ | | 45000-49999 | 1021434 | | | | 76,98 % | | | ||
+ | | 50000-54999 | 1021435 | | | | 76,69 % | | | ||
+ | | 55000-59999 | 1021436 | | | | 76,96 % | | | ||
+ | | 60000-64999 | 1021437 | | | | 76,81 % | | | ||
+ | | 65000-68562 | 1021438 | | | | 75,86 % | | | ||
+ | |||
+ | Všechny díly se nakonec podařilo použít, čímž jsme definitivně vyvrátili, že by v& | ||
+ | |||
+ | Zarážející je ale úspěšnost. Přinejmenším pro první pětitisícový úsek měla být s& | ||
==== Co dál? ==== | ==== Co dál? ==== |