Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2010/04/01 22:54] zeman Trénovací data rozsekaná na pětitisícové úseky. |
user:zeman:malt-parser [2010/04/28 16:19] zeman Doběhla další jlibsvm, zbývající clibsvm už všechna popadala. |
||
---|---|---|---|
Line 105: | Line 105: | ||
Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
- | |||
==== Javová implementace libsvm ==== | ==== Javová implementace libsvm ==== | ||
- | Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k& | + | Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k& |
- | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | + | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | |
- | | 1000 | 1011450 | + | | 1000 | 1032117 |
- | | 2000 | 1011451 | + | | 2000 | 1032118 |
- | | 5000 | 1011452 | + | | 5000 | 1040063 |
- | | 10000 | 1011453 | + | | 10000 | 1032120 |
- | | 20000 | 1011454 | + | | 20000 | 1032121 |
- | | 25000 | 1011455 | + | | 25000 | 1032122 |
- | | 30000 | 1011456 | + | | 30000 | 1032123 |
- | | 35000 | 1011457 | + | | 35000 | 1035249 |
- | | 40000 | 1011458 | + | | 40000 | 1035250 |
- | | 45000 | 1011459 | + | | 45000 | 1035251 |
- | | 50000 | 1011460 | + | | 50000 | 1035252 |
- | | 55000 | 1011461 | + | | 55000 | 1035258 |
- | | 60000 | 1011462 | + | | 60000 | 1035254 |
- | | 65000 | 1011463 | + | | 65000 | 1035255 |
+ | | full | 1177906 | | | | | 27.4.2010 | ||
==== Trénovací data rozsekaná na pětitisícové úseky ==== | ==== Trénovací data rozsekaná na pětitisícové úseky ==== | ||
| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
- | | 00000-04999 | 1021425 | | | | | | | + | | 00000-04999 | 1021425 | | | | 76,65 % | | |
- | | 05000-09999 | 1021426 | | | | | | | + | | 05000-09999 | 1021426 | | | | 76,99 % | | |
- | | 10000-14999 | 1021427 | | | | | | | + | | 10000-14999 | 1021427 | | | | 76,47 % | | |
- | | 15000-19999 | 1021428 | | | | | | | + | | 15000-19999 | 1021428 | | | | 76,72 % | | |
- | | 20000-24999 | 1021429 | | | | | | | + | | 20000-24999 | 1021429 | | | | 76,72 % | | |
- | | 25000-29999 | 1021430 | | | | | | | + | | 25000-29999 | 1021430 | | | | 76,80 % | | |
- | | 30000-34999 | 1021431 | | | | | | | + | | 30000-34999 | 1021431 | | | | 76,87 % | | |
- | | 35000-39999 | 1021432 | | | | | | | + | | 35000-39999 | 1021432 | | | | 76,94 % | | |
- | | 40000-44999 | 1021433 | | | | | | | + | | 40000-44999 | 1021433 | | | | 76,72 % | | |
- | | 45000-49999 | 1021434 | | | | | | | + | | 45000-49999 | 1021434 | | | | 76,98 % | | |
- | | 50000-54999 | 1021435 | | | | | | | + | | 50000-54999 | 1021435 | | | | 76,69 % | | |
- | | 55000-59999 | 1021436 | | | | | | | + | | 55000-59999 | 1021436 | | | | 76,96 % | | |
- | | 60000-64999 | 1021437 | | | | | | | + | | 60000-64999 | 1021437 | | | | 76,81 % | | |
- | | 65000-68562 | 1021438 | | | | | | | + | | 65000-68562 | 1021438 | | | | 75,86 % | | |
+ | |||
+ | Všechny díly se nakonec podařilo použít, čímž jsme definitivně vyvrátili, že by v& | ||
+ | |||
+ | Zarážející je ale úspěšnost. Přinejmenším pro první pětitisícový úsek měla být s& | ||
+ | |||
+ | === Oprava 6.4.2010 === | ||
+ | |||
+ | Předcházející pokusy s& | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
+ | | 00000-04999 | 1032102 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 05000-09999 | 1032103 | 24:24 min | | | 80,59 % | | | ||
+ | | 10000-14999 | 1032104 | 31:56 min | | | 80,23 % | | | ||
+ | | 15000-19999 | 1032116 | 30:27 min | | | 80,52 % | | | ||
+ | | 20000-24999 | 1032106 | 21:35 min | | | 80,45 % | | | ||
+ | | 25000-29999 | 1032107 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 30000-34999 | 1032108 | 28:30 min | | | 80,48 % | | | ||
+ | | 35000-39999 | 1032109 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 40000-44999 | 1032110 | 19:17 min | | | 80,51 % | | | ||
+ | | 45000-49999 | 1032111 | 22:54 min | | | 80,62 % | | | ||
+ | | 50000-54999 | 1032112 | 22:31 min | | | 80,58 % | | | ||
+ | | 55000-59999 | 1032113 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 60000-64999 | 1032114 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | | ||
+ | |||
+ | ==== Splitting trick podle slovního poddruhu, jlibsvm ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | ||
+ | | 1000 | 1177862 | 3:00 min | 1304 s = 21:43 min | 1 věta / 0,14 s | 73,81 % | 27.4.2010 | | ||
+ | | 2000 | 1177863 | 7:32 min | 1715 s = 28:35 min | 1 věta / 0,19 s | 76,98 % | 27.4.2010 | | ||
+ | | 5000 | 1177864 | 42:28 min | 3282 s = 54:42 min | 1 věta / 0,35 s | 79,86 % | 27.4.2010 | | ||
+ | | 10000 | 1177866 | 2:50 h | 5863 s = 1:38 h | 1 věta / 0,63 s | 81,63 % | 27.4.2010 | | ||
+ | | 20000 | 1177867 | 15:52 h | 13877 s = 3:51 h | 1 věta / 1,50 s | 83,28 % | 27.-28.4.2010 | | ||
+ | | 25000 | 1177868 | 21:02 h | 13345 s = 3:42 h | 1 věta / 1,44 s | 83,97 % | 27.-28.4.2010 | | ||
+ | | 30000 | 1177870 | | | | | 27.4.2010 | | ||
+ | | 35000 | 1177871 | | | | | 27.4.2010 | | ||
+ | | 40000 | 1177872 | | | | | 27.4.2010 | | ||
+ | | 45000 | 1177873 | | | | | 27.4.2010 | | ||
+ | | 50000 | 1177875 | | | | | 27.4.2010 | | ||
+ | | 55000 | 1177876 | | | | | 27.4.2010 | | ||
+ | | 60000 | 1177877 | | | | | 27.4.2010 | | ||
+ | | 65000 | 1177878 | | | | | 27.4.2010 | | ||
+ | | full | 1177879 | | | | | 27.4.2010 | | ||
+ | |||
+ | ==== Splitting trick podle slovního poddruhu, clibsvm ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | ||
+ | | 1000 | 1177881 | 42 s | 939 s = 15:38 min | 1 věta / 0,10 s | 73,81 % | 27.4.2010 | | | ||
+ | | 2000 | 1177882 | 2:31 min | 1659 s = 27:39 min | 1 věta / 0,18 s | 76,98 % | 27.4.2010 | | | ||
+ | | 5000 | 1177883 | 17:52 min | 3324 s = 55:23 min | 1 věta / 0,36 s | 79,86 % | 27.4.2010 | | | ||
+ | | 10000 | 1177884 | 1:15 h | 5966 s = 1:39 h | 1 věta / 0,64 s | 81,63 % | 27.4.2010 | | | ||
+ | | 20000 | 1177901 | 5:32 h | 10843 s = 3:01 h | 1 věta / 1,17 s | 83,28 % | 27.4.2010 | První pokus 1177885 selhal, ale druhý doběhl. | | ||
+ | | 25000 | 1177886 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 30000 | 1177887 | 17:21 h | 19860 s = 5:31 h | 1 věta / 2,14 s | 84,23 % | 27.-28.4.2010 | | ||
+ | | 35000 | 1177888 | 16:31 h | | | | 27.-28.4.2010 | Selhal parsing. | | ||
+ | | 40000 | 1177902 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 45000 | 1177890 | | | | | 27.-28.4.2010 | Náhlá smrt. | | ||
+ | | 50000 | 1177904 | | | | | 27.4.2010 | Dva pokusy (1177891 a 904), zahynuly oba. | | ||
+ | | 55000 | 1177892 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 60000 | 1177893 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 65000 | 1177894 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | full | 1177895 | | | | | 27.4.2010 | Náhlá smrt. | | ||
==== Co dál? ==== | ==== Co dál? ==== | ||
- | * Pokusy, na kterých céčková verze '' | + | * Ještě pustit javovské |
* Navrhnout jemnější dělení modelů '' | * Navrhnout jemnější dělení modelů '' | ||
* Rozsekat trénovací data na 14 pětitisícových kusů a s& | * Rozsekat trénovací data na 14 pětitisícových kusů a s& |