Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2010/03/29 10:47] zeman Švédské trénování 68563 spadlo podruhé. |
user:zeman:malt-parser [2010/03/31 10:50] zeman Aktualizace Co dál? |
||
---|---|---|---|
Line 46: | Line 46: | ||
procesor 64bit dual core AMD Opteron 2 GHz | procesor 64bit dual core AMD Opteron 2 GHz | ||
paměť 16 GB, ale proces zabírá jen 4,1 GB | paměť 16 GB, ale proces zabírá jen 4,1 GB | ||
+ | |||
+ | |||
+ | |||
Line 64: | Line 67: | ||
foreach i (dtrain dtest) | foreach i (dtrain dtest) | ||
$PARSINGROOT/ | $PARSINGROOT/ | ||
+ | end | ||
+ | foreach i (25000 30000 35000 40000 45000 55000 60000 65000) | ||
+ | split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll /dev/null | ||
end</ | end</ | ||
Line 80: | Line 86: | ||
Trénování na části trénovacích dat (prvních N vět). Testování je vždy na celém dtestu, tedy 9270 vět. | Trénování na části trénovacích dat (prvních N vět). Testování je vždy na celém dtestu, tedy 9270 vět. | ||
- | | N | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | | + | | N | TÚloha |
- | | 1000 | 1 minuta | 1248 s = 20:48 min | 1 věta / 0,13 s | 74,63 % | | + | | 1000 | | 1 minuta |
- | | 2000 | 4 minuty | 1885 s = 31:25 min | 1 věta / 0,20 s | 77,73 % | | + | | 2000 | | 4 minuty |
- | | 5000 | 30 minut | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % | | + | | 5000 | | 30 minut | | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % | |
- | | 10000 | 1:30 hod | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % | | + | | 10000 | | 1:30 hod | | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % | |
- | | 20000 | 10:09 hod | 17139 s = 4:45 hod | 1 věta / 1,85 s | 83,65 % | | + | | 20000 | | 10:09 hod | | 17139 s = 4:45 hod | 1 věta / 1,85 s | 83,65 % | |
- | | 50000 | | | | | | + | | 25000 | 984089 |
- | | 68563 | Dva pokusy, oba spadly při vytváření | + | | 30000 | 984090 | 21:54 hod | 984266 | 19280 s = 5:21 hod | 1 věta / 2,08 s | 84,54 % | |
+ | | 35000 | 984091 | 21:09 hod | 984242 | 22018 s = 6:07 hod | 1 věta / 2,38 s | 84,89 % | | ||
+ | | 40000 | 984092 | spadlo na '' | ||
+ | | 45000 | 984093 | 38:18 hod | 1008955 | | | | | ||
+ | | 50000 | 984030 | 49:55 hod | 984336 | 37224 s = 10:20 hod | 1 věta / 4,02 s | 85,47 % | | ||
+ | | 55000 | 984094 | spadlo na '' | ||
+ | | 60000 | 984095 | spadlo na '' | ||
+ | | 65000 | 984096 | spadlo na '' | ||
+ | | 68563 | | spadlo na '' | ||
==== Co dál? ==== | ==== Co dál? ==== | ||
- | * Stáhnout | + | * Pokusy, na kterých |
+ | * Rozsekat trénovací data na 14 pětitisícových kusů a s& | ||
* Zkusit '' | * Zkusit '' | ||
* Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ |