Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2010/03/28 21:26] zeman Doběhl švédský test 10000. |
user:zeman:malt-parser [2010/04/27 12:46] zeman Znova nezvěstné split-postag clibsvm 50000. |
||
---|---|---|---|
Line 46: | Line 46: | ||
procesor 64bit dual core AMD Opteron 2 GHz | procesor 64bit dual core AMD Opteron 2 GHz | ||
paměť 16 GB, ale proces zabírá jen 4,1 GB | paměť 16 GB, ale proces zabírá jen 4,1 GB | ||
- | |||
- | |||
==== Nastavení od Švédů ==== | ==== Nastavení od Švédů ==== | ||
Line 60: | Line 58: | ||
foreach i (dtrain dtest) | foreach i (dtrain dtest) | ||
$PARSINGROOT/ | $PARSINGROOT/ | ||
+ | end | ||
+ | foreach i (25000 30000 35000 40000 45000 55000 60000 65000) | ||
+ | split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll /dev/null | ||
end</ | end</ | ||
Line 76: | Line 77: | ||
Trénování na části trénovacích dat (prvních N vět). Testování je vždy na celém dtestu, tedy 9270 vět. | Trénování na části trénovacích dat (prvních N vět). Testování je vždy na celém dtestu, tedy 9270 vět. | ||
- | | N | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | | + | | N | TÚloha |
- | | 1000 | 1 minuta | 1248 s = 20:48 min | 1 věta / 0,13 s | 74,63 % | | + | | 1000 | | 1 minuta |
- | | 2000 | 4 minuty | 1885 s = 31:25 min | 1 věta / 0,20 s | 77,73 % | | + | | 2000 | | 4 minuty |
- | | 5000 | 30 minut | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % | | + | | 5000 | | 30 minut | | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % | |
- | | 10000 | 1:30 hod | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % | | + | | 10000 | | 1:30 hod | | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % | |
- | | 20000 | | | | | | + | | 20000 | | 10:09 hod | | 17139 s = 4:45 hod | 1 věta / 1,85 s | 83,65 % | |
- | | 50000 | | | | | | + | | 25000 | 984089 | 12:12 hod | 984241 | 16031 s = 4:27 hod | 1 věta / 1,73 s | 84,24 % | |
- | | 68563 | | | | | | + | | 30000 | 984090 | 21:54 hod | 984266 | 19280 s = 5:21 hod | 1 věta / 2,08 s | 84,54 % | |
+ | | 35000 | 984091 | 21:09 hod | 984242 | 22018 s = 6:07 hod | 1 věta / 2,38 s | 84,89 % | | ||
+ | | 40000 | 984092 | spadlo na '' | ||
+ | | 45000 | 984093 | 38:18 hod | 1008955 | 26853 s = 7:28 hod | 1 věta / 2,90 s | 85,35 % | | ||
+ | | 50000 | 984030 | 49:55 hod | 984336 | 37224 s = 10:20 hod | 1 věta / 4,02 s | 85,47 % | | ||
+ | | 55000 | 984094 | spadlo na '' | ||
+ | | 60000 | 984095 | spadlo na '' | ||
+ | | 65000 | 984096 | spadlo na '' | ||
+ | | 68563 | | spadlo na '' | ||
+ | |||
+ | ==== Proč trénování větších modelů padá? ==== | ||
+ | |||
+ | '' | ||
+ | |||
+ | < | ||
+ | cd model | ||
+ | less symboltables.sym</ | ||
+ | |||
+ | Až na jednu výjimku trénování spadlo vždy při budování '' | ||
+ | |||
+ | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
+ | |||
+ | ==== Javová implementace libsvm ==== | ||
+ | |||
+ | Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k& | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | ||
+ | | 1000 | 1032117 | 2:38 min | 1252 s = 20:52 min | 1 věta / 0,14 s | 74,63 % | 6.4.2010 | | ||
+ | | 2000 | 1032118 | 8:44 min | 2344 s = 39:03 min | 1 věta / 0,25 s | 77,73 % | 6.4.2010 | | ||
+ | | 5000 | 1040063 | 48:07 min | 3956 s = 1:06 h | 1 věta / 0,43 s | 80,18 % | 12.4.2010 | | ||
+ | | 10000 | 1032120 | 3:57 h | 7235 s = 2:01 h | 1 věta / 0,78 s | 82,11 % | 6.4.2010 | | ||
+ | | 20000 | 1032121 | 16:45 h | 12979 s = 3:36 h | 1 věta / 1,40 s | 83,65 % | 6.-7.4.2010 | | ||
+ | | 25000 | 1032122 | 27:43 h | 16500 s = 4:35 h | 1 věta / 1,78 s | 84,24 % | 6.-8.4.2010 | | ||
+ | | 30000 | 1032123 | 47:21 h | 24255 s = 6:44 h | 1 věta / 2,62 s | 84,54 % | 6.-8.4.2010 | | ||
+ | | 35000 | 1035249 | 2 dny 11:08 h | 21468 s = 5:58 h | 1 věta / 2,32 s | 84,89 % | 9.-12.4.2010 | | ||
+ | | 40000 | 1035250 | 3 dny 10 min | 24582 s = 6:50 h | 1 věta / 2,65 s | 85,08 % | 9.-12.4.2010 | | ||
+ | | 45000 | 1035251 | 4 dny 10:53 h | 33744 s = 9:22 h | 1 věta / 3,64 s | 85,35 % | 9.-14.4.2010 | | ||
+ | | 50000 | 1035252 | 5 dní 19:32 h | 37140 s = 10:19 h | 1 věta / 4,01 s | 85,47 % | 9.-15.4.2010 | | ||
+ | | 55000 | 1035258 | 7 dní 8:37 h | 40518 s = 11:15 h | 1 věta / 4,37 s | 85,65 % | 9.-17.4.2010 | | ||
+ | | 60000 | 1035254 | 7 dní 4:55 h | 34374 s = 9:33 h | 1 věta / 3,71 s | 85,80 % | 9.-17.4.2010 | | ||
+ | | 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | ||
+ | | full | 1177906 | | | | | 27.4.2010 | | ||
+ | |||
+ | ==== Trénovací data rozsekaná na pětitisícové úseky ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
+ | | 00000-04999 | 1021425 | | | | 76,65 % | | | ||
+ | | 05000-09999 | 1021426 | | | | 76,99 % | | | ||
+ | | 10000-14999 | 1021427 | | | | 76,47 % | | | ||
+ | | 15000-19999 | 1021428 | | | | 76,72 % | | | ||
+ | | 20000-24999 | 1021429 | | | | 76,72 % | | | ||
+ | | 25000-29999 | 1021430 | | | | 76,80 % | | | ||
+ | | 30000-34999 | 1021431 | | | | 76,87 % | | | ||
+ | | 35000-39999 | 1021432 | | | | 76,94 % | | | ||
+ | | 40000-44999 | 1021433 | | | | 76,72 % | | | ||
+ | | 45000-49999 | 1021434 | | | | 76,98 % | | | ||
+ | | 50000-54999 | 1021435 | | | | 76,69 % | | | ||
+ | | 55000-59999 | 1021436 | | | | 76,96 % | | | ||
+ | | 60000-64999 | 1021437 | | | | 76,81 % | | | ||
+ | | 65000-68562 | 1021438 | | | | 75,86 % | | | ||
+ | |||
+ | Všechny díly se nakonec podařilo použít, čímž jsme definitivně vyvrátili, že by v& | ||
+ | |||
+ | Zarážející je ale úspěšnost. Přinejmenším pro první pětitisícový úsek měla být s& | ||
+ | |||
+ | === Oprava 6.4.2010 === | ||
+ | |||
+ | Předcházející pokusy s& | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
+ | | 00000-04999 | 1032102 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 05000-09999 | 1032103 | 24:24 min | | | 80,59 % | | | ||
+ | | 10000-14999 | 1032104 | 31:56 min | | | 80,23 % | | | ||
+ | | 15000-19999 | 1032116 | 30:27 min | | | 80,52 % | | | ||
+ | | 20000-24999 | 1032106 | 21:35 min | | | 80,45 % | | | ||
+ | | 25000-29999 | 1032107 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 30000-34999 | 1032108 | 28:30 min | | | 80,48 % | | | ||
+ | | 35000-39999 | 1032109 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 40000-44999 | 1032110 | 19:17 min | | | 80,51 % | | | ||
+ | | 45000-49999 | 1032111 | 22:54 min | | | 80,62 % | | | ||
+ | | 50000-54999 | 1032112 | 22:31 min | | | 80,58 % | | | ||
+ | | 55000-59999 | 1032113 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 60000-64999 | 1032114 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
+ | | 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | | ||
+ | |||
+ | ==== Splitting trick podle slovního poddruhu, jlibsvm ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | ||
+ | | 1000 | 1177862 | 3:00 min | 1304 s = 21:43 min | 1 věta / 0,14 s | 73,81 % | 27.4.2010 | | ||
+ | | 2000 | 1177863 | 7:32 min | 1715 s = 28:35 min | 1 věta / 0,19 s | 76,98 % | 27.4.2010 | | ||
+ | | 5000 | 1177864 | 42:28 min | 3282 s = 54:42 min | 1 věta / 0,35 s | 79,86 % | 27.4.2010 | | ||
+ | | 10000 | 1177866 | | | | | 27.4.2010 | | ||
+ | | 20000 | 1177867 | | | | | 27.4.2010 | | ||
+ | | 25000 | 1177868 | | | | | 27.4.2010 | | ||
+ | | 30000 | 1177870 | | | | | 27.4.2010 | | ||
+ | | 35000 | 1177871 | | | | | 27.4.2010 | | ||
+ | | 40000 | 1177872 | | | | | 27.4.2010 | | ||
+ | | 45000 | 1177873 | | | | | 27.4.2010 | | ||
+ | | 50000 | 1177875 | | | | | 27.4.2010 | | ||
+ | | 55000 | 1177876 | | | | | 27.4.2010 | | ||
+ | | 60000 | 1177877 | | | | | 27.4.2010 | | ||
+ | | 65000 | 1177878 | | | | | 27.4.2010 | | ||
+ | | full | 1177879 | | | | | 27.4.2010 | | ||
+ | |||
+ | ==== Splitting trick podle slovního poddruhu, clibsvm ==== | ||
+ | |||
+ | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | ||
+ | | 1000 | 1177881 | 42 s | 939 s = 15:38 min | 1 věta / 0,10 s | 73,81 % | 27.4.2010 | | ||
+ | | 2000 | 1177882 | 2:31 min | 1659 s = 27:39 min | 1 věta / 0,18 s | 76,98 % | 27.4.2010 | | ||
+ | | 5000 | 1177883 | | | | | 27.4.2010 | | ||
+ | | 10000 | 1177884 | | | | | 27.4.2010 | | ||
+ | | 20000 | 1177901 | náhlá smrt 1177885 | | | | 27.4.2010 | | ||
+ | | 25000 | 1177886 | | | | | 27.4.2010 | | ||
+ | | 30000 | 1177887 | | | | | 27.4.2010 | | ||
+ | | 35000 | 1177888 | | | | | 27.4.2010 | | ||
+ | | 40000 | 1177902 | náhlá smrt 1177889 | | | | 27.4.2010 | | ||
+ | | 45000 | 1177890 | | | | | 27.4.2010 | | ||
+ | | 50000 | 1177904 | náhlá smrt 1177891 i 1177904, vzdávám | | | | 27.4.2010 | | ||
+ | | 55000 | 1177892 | | | | | 27.4.2010 | | ||
+ | | 60000 | 1177893 | | | | | 27.4.2010 | | ||
+ | | 65000 | 1177894 | | | | | 27.4.2010 | | ||
+ | | full | 1177895 | | | | | 27.4.2010 | ||
==== Co dál? ==== | ==== Co dál? ==== | ||
- | * Stáhnout céčkovou verzi '' | + | * Ještě pustit javovské |
+ | * Navrhnout jemnější dělení modelů '' | ||
+ | * Rozsekat trénovací data na 14 pětitisícových kusů a s& | ||
* Zkusit '' | * Zkusit '' | ||
+ | * Odladit '' | ||
* Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | ||
+ | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. |