Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:zeman:malt-parser [2010/04/26 16:49] zeman Puštěno jlibsvm na celém korpusu, příprava splitting tricku na subposu. |
user:zeman:malt-parser [2010/05/13 11:28] zeman Aktualizace Co dál? |
| 60000 | 1035254 | 7 dní 4:55 h | 34374 s = 9:33 h | 1 věta / 3,71 s | 85,80 % | 9.-17.4.2010 | | | 60000 | 1035254 | 7 dní 4:55 h | 34374 s = 9:33 h | 1 věta / 3,71 s | 85,80 % | 9.-17.4.2010 | |
| 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | | 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | |
| full | 1177802 | | | | | 26.4.2010 | | | full | 1177906, 1305554 | 10 dní 4:40 h | | | | 27.4.-7.5.2010 | |
| |
==== Trénovací data rozsekaná na pětitisícové úseky ==== | ==== Trénovací data rozsekaná na pětitisícové úseky ==== |
| |
| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | |
| 1000 | 1177818 | 8:00 min | 1252 s = 20:52 min | 1 věta / 0,14 s | 74,63 % | 26.4.2010 | | | 1000 | 1177862 | 3:00 min | 1304 s = 21:43 min | 1 věta / 0,14 s | 73,81 % | 27.4.2010 | |
| 2000 | 1177819 | | | | | 26.4.2010 | | | 2000 | 1177863 | 7:32 min | 1715 s = 28:35 min | 1 věta / 0,19 s | 76,98 % | 27.4.2010 | |
| 5000 | 1177820 | | | | | 26.4.2010 | | | 5000 | 1177864 | 42:28 min | 3282 s = 54:42 min | 1 věta / 0,35 s | 79,86 % | 27.4.2010 | |
| 10000 | 1177821 | | | | | 26.4.2010 | | | 10000 | 1177866 | 2:50 h | 5863 s = 1:38 h | 1 věta / 0,63 s | 81,63 % | 27.4.2010 | |
| 20000 | 1177822 | | | | | 26.4.2010 | | | 20000 | 1177867 | 15:52 h | 13877 s = 3:51 h | 1 věta / 1,50 s | 83,28 % | 27.-28.4.2010 | |
| 25000 | 1177823 | | | | | 26.4.2010 | | | 25000 | 1177868 | 21:02 h | 13345 s = 3:42 h | 1 věta / 1,44 s | 83,97 % | 27.-28.4.2010 | |
| 30000 | 1177824 | | | | | 26.4.2010 | | | 30000 | 1177870 | 30:36 h | 15689 s = 4:21 h | 1 věta / 1,69 s | 84,23 % | 27.-28.4.2010 | |
| 35000 | 1177825 | | | | | 26.4.2010 | | | 35000 | 1177871 | 39:04 h | | | | 27.4.2010 | Parsing selhal. | |
| 40000 | 1177826 | | | | | 26.4.2010 | | | 40000 | 1177872 | 2 dny 8 h | 19298 s = 5:22 h | 1 věta / 2,08 s | 84,92 % | 27.-30.4.2010 | |
| 45000 | 1177827 | | | | | 26.4.2010 | | | 45000 | 1177873 | 2 dny 20 h | 21907 s = 6:05 h | 1 věta / 2,36 s | 85,18 % | 27.-30.4.2010 | |
| 50000 | 1177828 | | | | | 26.4.2010 | | | 50000 | 1177875 | 3 dny 14 h | 22805 s = 6:20 h | 1 věta / 2,46 s | 85,37 % | 27.4.-1.5.2010 | |
| 55000 | 1177829 | | | | | 26.4.2010 | | | 55000 | 1177876 | 5 dní | 32512 s = 9:02 h | 1 věta / 3,51 s | 85,57 % | 27.4.-2.5.2010 | |
| 60000 | 1177830 | | | | | 26.4.2010 | | | 60000 | 1177877 | 5 dní 20 h | 27429 s = 7:37 h | 1 věta / 2,96 s | 85,70 % | 27.4.-3.5.2010 | |
| 65000 | 1177831 | | | | | 26.4.2010 | | | 65000 | 1177878 | 6 dní 4 h | 28112 s = 7:48 h | 1 věta / 3,03 s | 85,91 % | 27.4.-3.5.2010 | |
| full | 1177832 | | | | | 26.4.2010 | | | full | 1177879 | 8 dní 7 h | 38957 s = 10:49 h | 1 věta / 4,20 s | 86,02 % | 27.4.-6.5.2010 | |
| |
==== Splitting trick podle slovního poddruhu, clibsvm ==== | ==== Splitting trick podle slovního poddruhu, clibsvm ==== |
| |
| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | |
| 1000 | 1177818 | 8:00 min | 1252 s = 20:52 min | 1 věta / 0,14 s | 74,63 % | 26.4.2010 | | | 1000 | 1177881 | 42 s | 939 s = 15:38 min | 1 věta / 0,10 s | 73,81 % | 27.4.2010 | | |
| 2000 | 1177819 | | | | | 26.4.2010 | | | 2000 | 1177882 | 2:31 min | 1659 s = 27:39 min | 1 věta / 0,18 s | 76,98 % | 27.4.2010 | | |
| 5000 | 1177820 | | | | | 26.4.2010 | | | 5000 | 1177883 | 17:52 min | 3324 s = 55:23 min | 1 věta / 0,36 s | 79,86 % | 27.4.2010 | | |
| 10000 | 1177821 | | | | | 26.4.2010 | | | 10000 | 1177884 | 1:15 h | 5966 s = 1:39 h | 1 věta / 0,64 s | 81,63 % | 27.4.2010 | | |
| 20000 | 1177822 | | | | | 26.4.2010 | | | 20000 | 1177901 | 5:32 h | 10843 s = 3:01 h | 1 věta / 1,17 s | 83,28 % | 27.4.2010 | První pokus 1177885 selhal, ale druhý doběhl. | |
| 25000 | 1177823 | | | | | 26.4.2010 | | | 25000 | 1177886 | | | | | 27.4.2010 | Náhlá smrt. | |
| 30000 | 1177824 | | | | | 26.4.2010 | | | 30000 | 1177887 | 17:21 h | 19860 s = 5:31 h | 1 věta / 2,14 s | 84,23 % | 27.-28.4.2010 | |
| 35000 | 1177825 | | | | | 26.4.2010 | | | 35000 | 1177888 | 16:31 h | | | | 27.-28.4.2010 | Selhal parsing. | |
| 40000 | 1177826 | | | | | 26.4.2010 | | | 40000 | 1177902 | | | | | 27.4.2010 | Náhlá smrt. | |
| 45000 | 1177827 | | | | | 26.4.2010 | | | 45000 | 1177890 | | | | | 27.-28.4.2010 | Náhlá smrt. | |
| 50000 | 1177828 | | | | | 26.4.2010 | | | 50000 | 1177904 | | | | | 27.4.2010 | Dva pokusy (1177891 a 904), zahynuly oba. | |
| 55000 | 1177829 | | | | | 26.4.2010 | | | 55000 | 1177892 | | | | | 27.4.2010 | Náhlá smrt. | |
| 60000 | 1177830 | | | | | 26.4.2010 | | | 60000 | 1177893 | | | | | 27.4.2010 | Náhlá smrt. | |
| 65000 | 1177831 | | | | | 26.4.2010 | | | 65000 | 1177894 | | | | | 27.4.2010 | Náhlá smrt. | |
| full | 1177832 | | | | | 26.4.2010 | | | full | 1177895 | | | | | 27.4.2010 | Náhlá smrt. | |
| |
==== Co dál? ==== | ==== Co dál? ==== |
| |
* Ještě pustit javovské ''libsvm'' a uppsalské dělení (CPOSTAG) na celý treebank. Zatím jsem to udělal nejvýše pro prvních 65000 vět, ale treebank jich má přes 68000. | * Ještě pustit javovské ''libsvm'' a uppsalské dělení (CPOSTAG) na celý treebank. Zatím jsem to udělal nejvýše pro prvních 65000 vět, ale treebank jich má přes 68000. |
* Navrhnout jemnější dělení modelů ''libsvm'', aby modely 003 a 004 nebyly tak velké. Např. přidat slovní poddruh a pád. | |
* Rozsekat trénovací data na 14 pětitisícových kusů a s každým z nich pustit trénink a parsing zvlášť. Spadnou některé? A mimochodem, jakou úspěšnost by dalo hlasování takto natrénovaných kusů? | |
* Zkusit ''liblinear'' místo ''libsvm''. | * Zkusit ''liblinear'' místo ''libsvm''. |
* Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''. | * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''. |
* Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd. | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd. |
* Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. |
| * Zkusit hlasování pětitisícových kusů. |
| |