Differences

This shows you the differences between two versions of the page.

--- user:zeman:malt-parser [2010/03/29 10:54]
zeman Podrobnější dělení trénovacích dat od 25000 vět do celého treebanku.
+++ user:zeman:malt-parser [2010/03/31 16:01]
zeman Doběhl švédský test 45000.
@@ Line 46: / Line 46: @@
 procesor 64bit dual core AMD Opteron 2 GHz
 paměť 16 GB, ale proces zabírá jen 4,1 GB
@@ Line 67: / Line 70: @@
 end
 foreach i (25000 30000 35000 40000 45000 55000 60000 65000)
-  split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll /dev/null
+  split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll /dev/null
 end</code>
@@ Line 84: / Line 87: @@
 Trénování na části trénovacích dat (prvních N vět). Testování je vždy na celém dtestu, tedy 9270 vět.
-| N | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost |
+| N | TÚloha | Délka trénování | PÚloha | Délka parsingu | Rychlost parsingu | Úspěšnost |
-| 1000 | 1 minuta | 1248 s = 20:48 min | 1 věta / 0,13 s | 74,63 % |
+| 1000 | | 1 minuta | | 1248 s = 20:48 min | 1 věta / 0,13 s | 74,63 % |
-| 2000 | 4 minuty | 1885 s = 31:25 min | 1 věta / 0,20 s | 77,73 % |
+| 2000 | | 4 minuty | | 1885 s = 31:25 min | 1 věta / 0,20 s | 77,73 % |
-| 5000 | 30 minut | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % |
+| 5000 | | 30 minut | | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % |
-| 10000 | 1:30 hod | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % |
+| 10000 | | 1:30 hod | | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % |
-| 20000 | 10:09 hod | 17139 s = 4:45 hod | 1 věta / 1,85 s | 83,65 % |
+| 20000 | | 10:09 hod | | 17139 s = 4:45 hod | 1 věta / 1,85 s | 83,65 % |
-| 50000 | | | | |
+| 25000 | 984089 | 12:12 hod | 984241 | 16031 s = 4:27 hod | 1 věta / 1,73 s | 84,24 % |
-| 68563 | Dva pokusy, oba spadly při vytváření ''sdm0.004.libsvm.mod''. Zanechaly core, jinak nic. | | | |
+| 30000 | 984090 | 21:54 hod | 984266 | 19280 s = 5:21 hod | 1 věta / 2,08 s | 84,54 % |
+| 35000 | 984091 | 21:09 hod | 984242 | 22018 s = 6:07 hod | 1 věta / 2,38 s | 84,89 % |
+| 40000 | 984092 | spadlo na ''sdm0.003.libsvm.mod'' | | | | |
+| 45000 | 984093 | 38:18 hod | 1008955 | 26853 s = 7:28 hod | 1 věta / 2,90 s | 85,35 % |
+| 50000 | 984030 | 49:55 hod | 984336 | 37224 s = 10:20 hod | 1 věta / 4,02 s | 85,47 % |
+| 55000 | 984094 | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
+| 60000 | 984095 | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
+| 65000 | 984096 | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
+| 68563 | | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
 ==== Co dál? ====
-  * Stáhnout céčkovou verzi ''libsvm'' a zkusit, o kolik bude rychlejší.
+  * Pokusy, na kterých céčková verze ''libsvm'' havarovala, zkusit ještě s&nbsp;javovou verzí.
+  * Rozsekat trénovací data na 14 pětitisícových kusů a s&nbsp;každým z&nbsp;nich pustit trénink a parsing zvlášť. Spadnou některé? A mimochodem, jakou úspěšnost by dalo hlasování takto natrénovaných kusů?
   * Zkusit ''liblinear'' místo ''libsvm''.
   * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd.
+  * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences