Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2010/03/28 10:36] zeman Úklid. |
user:zeman:malt-parser [2010/03/29 15:53] zeman Evidence nových procesů, jejichž cílem je zjistit, proč trénování libsvm padá. |
||
---|---|---|---|
Line 50: | Line 50: | ||
26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. Zpočátku trénink pouze na 1000 větách. Na cosmosu běží paralelně dvě úlohy, které se liší pouze přidělenou pamětí. První úloha dostala 30 GB (na clusteru rezervováno 50) a využila je. Druhá úloha dostala 180 GB, využila zatím 69, ale už dlouho se na nich drží. | 26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. Zpočátku trénink pouze na 1000 větách. Na cosmosu běží paralelně dvě úlohy, které se liší pouze přidělenou pamětí. První úloha dostala 30 GB (na clusteru rezervováno 50) a využila je. Druhá úloha dostala 180 GB, využila zatím 69, ale už dlouho se na nich drží. | ||
+ | |||
+ | 28.3.2010: Zjistil jsem, že při převodu dat do formátu, který měl být shodný s Marcovým, jsem omylem vypustil všechna zalomení vět, tj. soubor obsahoval jednu větu o 16001 slovech, navíc nejednoznačně číslovaných. Tak to už se ani nedivím, že to parseru nedělalo dobře. | ||
+ | |||
+ | < | ||
+ | $PARSINGROOT/ | ||
+ | end | ||
+ | foreach i (dtrain dtest) | ||
+ | $PARSINGROOT/ | ||
+ | end | ||
+ | foreach i (25000 30000 35000 40000 45000 55000 60000 65000) | ||
+ | split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll /dev/null | ||
+ | end</ | ||
+ | |||
+ | Učení: | ||
+ | |||
+ | < | ||
+ | |||
+ | Rozbor: | ||
+ | |||
+ | < | ||
+ | |||
+ | Vyhodnocení: | ||
+ | |||
+ | < | ||
+ | |||
+ | Trénování na části trénovacích dat (prvních N vět). Testování je vždy na celém dtestu, tedy 9270 vět. | ||
+ | |||
+ | | N | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | | ||
+ | | 1000 | 1 minuta | 1248 s = 20:48 min | 1 věta / 0,13 s | 74,63 % | | ||
+ | | 2000 | 4 minuty | 1885 s = 31:25 min | 1 věta / 0,20 s | 77,73 % | | ||
+ | | 5000 | 30 minut | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % | | ||
+ | | 10000 | 1:30 hod | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % | | ||
+ | | 20000 | 10:09 hod | 17139 s = 4:45 hod | 1 věta / 1,85 s | 83,65 % | | ||
+ | | 25000 | (984089) | | | | | ||
+ | | 30000 | (984090) | | | | | ||
+ | | 35000 | (984091) | | | | | ||
+ | | 40000 | 984092 spadlo na sdm0.003.libsvm.mod | | | | | ||
+ | | 45000 | (984093) | | | | | ||
+ | | 50000 | (984030) | | | | | ||
+ | | 55000 | (984094) | | | | | ||
+ | | 60000 | 984095 spadlo na sdm0.004.libsvm.mod | | | | | ||
+ | | 65000 | (984096) | | | | | ||
+ | | 68563 | Dva pokusy, oba spadly při vytváření '' | ||
==== Co dál? ==== | ==== Co dál? ==== |