Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2010/04/06 17:42] zeman |
user:zeman:malt-parser [2010/06/07 10:33] zeman Doběhla řada výpočtů stackeager. |
||
---|---|---|---|
Line 105: | Line 105: | ||
Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
- | |||
==== Javová implementace libsvm ==== | ==== Javová implementace libsvm ==== | ||
- | Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k& | + | Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k& |
- | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | + | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | |
- | | 1000 | 1011450 | 37 s | | | | Spadlo, kód -1 není v& | + | |
- | | 2000 | 1011451 | 2:46 min | 661 s = 11 min | 1 věta / 0,07 s | 74,10 % | | | + | |
- | | 5000 | 1011452 | 17:45 min | 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | | | + | |
- | | 10000 | 1011453 | | | | | Nerozeběhlo se. | | + | |
- | | 20000 | 1011454 | 6:23 h | 5602 s = 1:33 h | 1 věta / 0,60 s | 79,90 % | | | + | |
- | | 25000 | 1011455 | 10:59 h | 6964 s = 1:56 h | 1 věta / 0,75 s | 80,32 % | | | + | |
- | | 30000 | 1011456 | | | | | Nerozeběhlo se. | | + | |
- | | 35000 | 1011457 | 22:33 h | 9230 s = 2:34 h | 1 věta / 1,00 s | 81,03 % | | | + | |
- | | 40000 | 1011458 | 36:36 h | 12484 s = 3:28 h | 1 věta / 1,35 s | 81,17 % | | | + | |
- | | 45000 | 1011459 | 46:26 h | 13889 s = 3:51 h | 1 věta / 1,50 s | 81,51 % | | | + | |
- | | 50000 | 1011460 | 58:13 h | 15711 s = 4:22 h | 1 věta / 1,69 s | 81,72 % | | | + | |
- | | 55000 | 1011461 | 65:48 h | 17031 s = 4:44 h | 1 věta / 1,84 s | 81,83 % | | | + | |
- | | 60000 | 1011462 | 90:10 h | 18145 s = 5:02 h | 1 věta / 1,96 s | 82,11 % | | | + | |
- | | 65000 | 1011463 | 89:29 h | 15808 s = 4:23 h | 1 věta / 1,71 s | 82,31 % | | | + | |
- | + | ||
- | === Oprava 6.4.2010 === | + | |
- | + | ||
- | Předcházející pokusy s& | + | |
- | + | ||
- | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | + | |
| 1000 | 1032117 | 2:38 min | 1252 s = 20:52 min | 1 věta / 0,14 s | 74,63 % | 6.4.2010 | | | 1000 | 1032117 | 2:38 min | 1252 s = 20:52 min | 1 věta / 0,14 s | 74,63 % | 6.4.2010 | | ||
| 2000 | 1032118 | 8:44 min | 2344 s = 39:03 min | 1 věta / 0,25 s | 77,73 % | 6.4.2010 | | | 2000 | 1032118 | 8:44 min | 2344 s = 39:03 min | 1 věta / 0,25 s | 77,73 % | 6.4.2010 | | ||
- | | 5000 | 1032131, 1032132 | + | | 5000 | 1040063 |
- | | 10000 | 1032120 | | | | | 6.4.2010 | | + | | 10000 | 1032120 | 3:57 h | 7235 s = 2:01 h | 1 věta / 0,78 s | 82,11 % | 6.4.2010 | |
- | | 20000 | 1032121 | | | | | 6.4.2010 | | + | | 20000 | 1032121 | 16:45 h | 12979 s = 3:36 h | 1 věta / 1,40 s | 83,65 % | 6.-7.4.2010 | |
- | | 25000 | 1032122 | | | | | 6.4.2010 | | + | | 25000 | 1032122 | 27:43 h | 16500 s = 4:35 h | 1 věta / 1,78 s | 84,24 % | 6.-8.4.2010 | |
- | | 30000 | 1032123 | | | | | 6.4.2010 | | + | | 30000 | 1032123 | 47:21 h | 24255 s = 6:44 h | 1 věta / 2,62 s | 84,54 % | 6.-8.4.2010 | |
- | | 35000 | 1032124 | + | | 35000 | 1035249 |
- | | 40000 | 1032125 | + | | 40000 | 1035250 |
- | | 45000 | 1032126 | + | | 45000 | 1035251 |
- | | 50000 | 1032127 | + | | 50000 | 1035252 |
- | | 55000 | 1032128 | + | | 55000 | 1035258 |
- | | 60000 | 1032129 | + | | 60000 | 1035254 |
- | | 65000 | 1032130 | + | | 65000 | 1035255 |
+ | | full | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | 86,08 % | 27.4.-14.5.2010 | | ||
==== Trénovací data rozsekaná na pětitisícové úseky ==== | ==== Trénovací data rozsekaná na pětitisícové úseky ==== | ||
Line 176: | Line 155: | ||
| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
| 00000-04999 | 1032102 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | | 00000-04999 | 1032102 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
- | | 05000-09999 | 1032103 | 24:24 min | | | | | | + | | 05000-09999 | 1032103 | 24:24 min | | | 80,59 % | | |
- | | 10000-14999 | 1032104 | 31:56 min | | | | | | + | | 10000-14999 | 1032104 | 31:56 min | | | 80,23 % | | |
- | | 15000-19999 | 1032116 | 30:27 min | | | | | | + | | 15000-19999 | 1032116 | 30:27 min | | | 80,52 % | | |
- | | 20000-24999 | 1032106 | 21:35 min | | | | 80,45 % | | + | | 20000-24999 | 1032106 | 21:35 min | | | 80,45 % | | |
| 25000-29999 | 1032107 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | | 25000-29999 | 1032107 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
- | | 30000-34999 | 1032108 | 28:30 min | | | | | | + | | 30000-34999 | 1032108 | 28:30 min | | | 80,48 % | | |
| 35000-39999 | 1032109 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | | 35000-39999 | 1032109 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
- | | 40000-44999 | 1032110 | 19:17 min | | | | 80,51 % | | + | | 40000-44999 | 1032110 | 19:17 min | | | 80,51 % | | |
- | | 45000-49999 | 1032111 | 22:54 min | | | | 80,62 % | | + | | 45000-49999 | 1032111 | 22:54 min | | | 80,62 % | | |
- | | 50000-54999 | 1032112 | 22:31 min | | | | 80,58 % | | + | | 50000-54999 | 1032112 | 22:31 min | | | 80,58 % | | |
| 55000-59999 | 1032113 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | | 55000-59999 | 1032113 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
| 60000-64999 | 1032114 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | | 60000-64999 | 1032114 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
- | | 65000-68562 | 1032115 | 12:43 min | | | | 79,69 % | | + | | 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | |
+ | |||
+ | ==== Splitting trick podle slovního poddruhu, jlibsvm ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | ||
+ | | 1000 | 1177862 | 3:00 min | 1304 s = 21:43 min | 1 věta / 0,14 s | 73,81 % | 27.4.2010 | | ||
+ | | 2000 | 1177863 | 7:32 min | 1715 s = 28:35 min | 1 věta / 0,19 s | 76,98 % | 27.4.2010 | | ||
+ | | 5000 | 1177864 | 42:28 min | 3282 s = 54:42 min | 1 věta / 0,35 s | 79,86 % | 27.4.2010 | | ||
+ | | 10000 | 1177866 | 2:50 h | 5863 s = 1:38 h | 1 věta / 0,63 s | 81,63 % | 27.4.2010 | | ||
+ | | 20000 | 1177867 | 15:52 h | 13877 s = 3:51 h | 1 věta / 1,50 s | 83,28 % | 27.-28.4.2010 | | ||
+ | | 25000 | 1177868 | 21:02 h | 13345 s = 3:42 h | 1 věta / 1,44 s | 83,97 % | 27.-28.4.2010 | | ||
+ | | 30000 | 1177870 | 30:36 h | 15689 s = 4:21 h | 1 věta / 1,69 s | 84,23 % | 27.-28.4.2010 | | ||
+ | | 35000 | 1177871 | 39:04 h | | | | 27.4.2010 | Parsing selhal. | | ||
+ | | 40000 | 1177872 | 2 dny 8 h | 19298 s = 5:22 h | 1 věta / 2,08 s | 84,92 % | 27.-30.4.2010 | | ||
+ | | 45000 | 1177873 | 2 dny 20 h | 21907 s = 6:05 h | 1 věta / 2,36 s | 85,18 % | 27.-30.4.2010 | | ||
+ | | 50000 | 1177875 | 3 dny 14 h | 22805 s = 6:20 h | 1 věta / 2,46 s | 85,37 % | 27.4.-1.5.2010 | | ||
+ | | 55000 | 1177876 | 5 dní | 32512 s = 9:02 h | 1 věta / 3,51 s | 85,57 % | 27.4.-2.5.2010 | | ||
+ | | 60000 | 1177877 | 5 dní 20 h | 27429 s = 7:37 h | 1 věta / 2,96 s | 85,70 % | 27.4.-3.5.2010 | | ||
+ | | 65000 | 1177878 | 6 dní 4 h | 28112 s = 7:48 h | 1 věta / 3,03 s | 85,91 % | 27.4.-3.5.2010 | | ||
+ | | full | 1177879 | 8 dní 7 h | 38957 s = 10:49 h | 1 věta / 4,20 s | 86,02 % | 27.4.-6.5.2010 | | ||
+ | |||
+ | ==== Splitting trick podle slovního poddruhu, clibsvm ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | ||
+ | | 1000 | 1177881 | 42 s | 939 s = 15:38 min | 1 věta / 0,10 s | 73,81 % | 27.4.2010 | | | ||
+ | | 2000 | 1177882 | 2:31 min | 1659 s = 27:39 min | 1 věta / 0,18 s | 76,98 % | 27.4.2010 | | | ||
+ | | 5000 | 1177883 | 17:52 min | 3324 s = 55:23 min | 1 věta / 0,36 s | 79,86 % | 27.4.2010 | | | ||
+ | | 10000 | 1177884 | 1:15 h | 5966 s = 1:39 h | 1 věta / 0,64 s | 81,63 % | 27.4.2010 | | | ||
+ | | 20000 | 1177901 | 5:32 h | 10843 s = 3:01 h | 1 věta / 1,17 s | 83,28 % | 27.4.2010 | První pokus 1177885 selhal, ale druhý doběhl. | | ||
+ | | 25000 | 1177886 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 30000 | 1177887 | 17:21 h | 19860 s = 5:31 h | 1 věta / 2,14 s | 84,23 % | 27.-28.4.2010 | | ||
+ | | 35000 | 1177888 | 16:31 h | | | | 27.-28.4.2010 | Selhal parsing. | | ||
+ | | 40000 | 1177902 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 45000 | 1177890 | | | | | 27.-28.4.2010 | Náhlá smrt. | | ||
+ | | 50000 | 1177904 | | | | | 27.4.2010 | Dva pokusy (1177891 a 904), zahynuly oba. | | ||
+ | | 55000 | 1177892 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 60000 | 1177893 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | 65000 | 1177894 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | | full | 1177895 | | | | | 27.4.2010 | Náhlá smrt. | | ||
+ | |||
+ | ==== Java liblinear ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | ||
+ | | 1000 | 1305892 | 46 s | 58808 s = 16:20 h | 1 věta / 6,34 s | 69,82 % | 13.-14.5.2010 | | | ||
+ | | 2000 | 1305893 | 1:40 min | 60656 s = 16:51 h | 1 věta / 6,54 s | 72,01 % | 13.-14.5.2010 | | | ||
+ | | 5000 | 1306055 | 6:36 min | 112707 s = 31:18 h | 1 věta / 12,16 s | 73,71 % | 13.-14.5.2010 | | | ||
+ | | 10000 | 1306056 | 10:07 min | 64658 s = 17:57 h | 1 věta / 6,97 s | 74,49 % | 13.-14.5.2010 | | | ||
+ | | 20000 | 1306057 | 25:26 min | 68167 s = 18:56 h | 1 věta / 7,35 s | 75,00 % | 13.-14.5.2010 | | | ||
+ | | 25000 | 1306219 | 40:47 min | 117823 s = 32:44 h | 1 věta / 12,71 s | 75,11 % | 13.-14.5.2010 | | | ||
+ | | 30000 | 1306220 | 34:13 min | 66785 s = 18:33 h | 1 věta / 7,21 s | 75,41 % | 13.-14.5.2010 | | | ||
+ | | 35000 | 1306221 | 37:50 min | 66877 s = 18:35 h | 1 věta / 7,21 s | 75,66 % | 13.-14.5.2010 | | | ||
+ | | 40000 | 1306222 | 46:26 min | 65917 s = 18:19 h | 1 věta / 7,11 s | 75,88 % | 13.-14.5.2010 | | | ||
+ | | 45000 | 1306223 | 1:01 h | 69289 s = 19:15 h | 1 věta / 7,47 s | 76,11 % | 13.-14.5.2010 | | | ||
+ | | 50000 | 1306224 | 55:21 min | 66392 s = 18:27 h | 1 věta / 7,16 s | 76,28 % | 13.-14.5.2010 | | | ||
+ | | 55000 | 1306225 | 1:02 h | 67181 s = 18:40 h | 1 věta / 7,25 s | 76,40 % | 13.-14.5.2010 | | | ||
+ | | 60000 | 1306226 | 1:20 h | 69428 s = 19:17 h | 1 věta / 7,49 s | 76,59 % | 13.-14.5.2010 | | | ||
+ | | 65000 | 1306388 | 1:25 h | 70273 s = 19:31 h | 1 věta / 7,58 s | 76,58 % | 13.-14.5.2010 | | | ||
+ | | full | 1306389 | 1:07 h | 66396 s = 18:27 h | 1 věta / 7,16 s | 76,78 % | 13.-14.5.2010 | | | ||
+ | |||
+ | ==== Stackeager, java libsvm, švédské rysy ==== | ||
+ | |||
+ | < | ||
+ | ----------------------------------------------------------------------------------------------------------------- | ||
+ | 1473932 0.55500 malt02000. zeman r | ||
+ | 1473933 0.55500 malt05000. zeman r | ||
+ | 1473934 0.55500 malt10000. zeman r | ||
+ | 1473935 0.55500 mert.31733 zeman r | ||
+ | 1473956 0.55500 malt20000. zeman r | ||
+ | 1473957 0.55500 malt25000. zeman r | ||
+ | 1473958 0.55500 malt30000. zeman r | ||
+ | 1473982 0.55500 malt35000. zeman r | ||
+ | 1473983 0.55500 malt40000. zeman r | ||
+ | 1473984 0.55500 malt45000. zeman r | ||
+ | 1474005 0.55500 malt50000. zeman r | ||
+ | 1474009 0.55500 malt55000. zeman r | ||
+ | 1474010 0.55500 malt60000. zeman r | ||
+ | 1474011 0.55500 malt65000. zeman r | ||
+ | 1474032 0.55500 malt-full. zeman r | ||
+ | 1474041 0.45734 pardec.03. zeman r | ||
+ | 10:42 lrc-two:/ | ||
+ | </ | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | ||
+ | | 1000 | 1473892 | 2:38 min | 1283 s = 21 min | 1 věta / 0,14 s | 74,50 % | 2.6.2010 | | | ||
+ | | 2000 | 1473932 | 7:45 min | 1891 s = 32 min | 1 věta / 0,20 s | 77,47 % | 2.6.2010 | | | ||
+ | | 5000 | 1473933 | 49:08 min | 4178 s = 1:10 h | 1 věta / 0,45 s | 79,98 % | 2.6.2010 | | | ||
+ | | 10000 | 1473934 | 3:33 h | 7534 s = 2:06 h | 1 věta / 0,81 s | 81,93 % | 2.6.2010 | | | ||
+ | | 20000 | 1473956 | 18:09 h | 14095 s = 3:55 h | 1 věta / 1,52 s | 83,47 % | 2.-3.6.2010 | | | ||
+ | | 25000 | 1473957 | 26:12 h | 17299 s = 4:48 h | 1 věta / 1,87 s | 84,01 % | 2.-3.6.2010 | | | ||
+ | | 30000 | 1473958 | 2 dny | 25161 s = 6:59 h | 1 věta / 2,71 s | 84,43 % | 2.-4.6.2010 | | | ||
+ | | 35000 | 1473982 | 42:40 h | 18856 s = 5:14 h | 1 věta / 2,03 s | 84,74 % | 2.-4.6.2010 | | | ||
+ | | 40000 | 1473983 | 3 dny 18 h | 32172 s = 8:56 h | 1 věta / 3,47 s | 85,08 % | 2.-6.6.2010 | | | ||
==== Co dál? ==== | ==== Co dál? ==== | ||
- | * Pokusy, na kterých céčková verze '' | + | * Zatím jsme se švédskou definicí rysů otestovali pouze algoritmus |
- | * Navrhnout jemnější dělení modelů | + | |
- | * Rozsekat trénovací data na 14 pětitisícových kusů a s& | + | |
- | * Zkusit | + | |
* Odladit '' | * Odladit '' | ||
* Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | ||
* Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | ||
+ | * Zkusit hlasování pětitisícových kusů. | ||
+ |