[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:malt-parser [2010/04/01 15:34]
zeman Javová implementace libsvm.
user:zeman:malt-parser [2010/04/26 12:51]
zeman Aktualizace Co dál?
Line 108: Line 108:
 ==== Javová implementace libsvm ==== ==== Javová implementace libsvm ====
  
-Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k drobným odchylkám v úspěšnosti způsobeným odlišným zpracováním racionálních čísel. Mně se zatím zdá, že odchylky budou spíše značné, a to v neprospěch javové implementace.+Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k drobným odchylkám v úspěšnosti způsobeným odlišným zpracováním racionálních čísel.
  
 | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
-| 1000 | 1011450 37 s | | | | Spadlokód -není v tabulce symbolů. | +| 1000 | 1032117 2:38 min | 1252 = 20:52 min 1 věta / 0,14 s 74,63 % 6.4.2010 | 
-2000 1011451 | 2:46 min 661 s = 11 min | 1 věta / 0,07 s | 74,10 % | | +| 2000 | 1032118 | 8:44 min | 2344 s = 39:03 min | 1 věta / 0,25 s | 77,73 % | 6.4.2010 | 
-5000 1011452 | 17:45 min 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | | +| 5000 | 1040063 | 48:07 min | 3956 s = 1:06 h | 1 věta / 0,43 s | 80,18 % | 12.4.2010 
-| 10000 | 1011453 | | | | | Nerozeběhlo se. +10000 1032120 3:57 h | 7235 s = 2:01 h 1 věta / 0,78 s | 82,11 % | 6.4.2010 | 
-| 20000 | 1011454 | | | | | | +| 20000 | 1032121 | 16:45 h | 12979 s = 3:36 h | 1 věta / 1,40 s | 83,65 % | 6.-7.4.2010 | 
-| 25000 | 1011455 | | | | | | +| 25000 | 1032122 | 27:43 h | 16500 s = 4:35 h | 1 věta / 1,78 s | 84,24 % | 6.-8.4.2010 | 
-| 30000 | 1011456 | | | | | Nerozeběhlo se. | +| 30000 | 1032123 | 47:21 h | 24255 s = 6:44 h | 1 věta / 2,62 s | 84,54 % | 6.-8.4.2010 | 
-| 35000 | 1011457 | | | | | | +| 35000 | 1035249 | 2 dny 11:08 h | 21468 s = 5:58 h | 1 věta / 2,32 s | 84,89 % | 9.-12.4.2010 | 
-| 40000 | 1011458 | | | | | | +| 40000 | 1035250 | 3 dny 10 min | 24582 s = 6:50 h | 1 věta / 2,65 s | 85,08 % | 9.-12.4.2010 | 
-| 45000 | 1011459 | | | | | | +| 45000 | 1035251 | 4 dny 10:53 h | 33744 s = 9:22 h | 1 věta / 3,64 s | 85,35 % | 9.-14.4.2010 
-| 50000 | 1011460 | | | | | | +50000 1035252 5 dní 19:32 h | 37140 s = 10:19 h | 1 věta / 4,01 s | 85,47 % | 9.-15.4.2010 | 
-| 55000 | 1011461 | | | | | | +| 55000 | 1035258 | 7 dní 8:37 h | 40518 s = 11:15 h | 1 věta / 4,37 s | 85,65 % | 9.-17.4.2010 | 
-| 60000 | 1011462 | | | | | | +| 60000 | 1035254 | 7 dní 4:55 h 34374 s = 9:33 h | 1 věta / 3,71 | 85,80 % | 9.-17.4.2010 | 
-| 65000 | 1011463 | | | | | |+| 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | 
 + 
 +==== Trénovací data rozsekaná na pětitisícové úseky ==== 
 + 
 +| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | 
 +| 00000-04999 | 1021425 | | | | 76,65 % | | 
 +| 05000-09999 | 1021426 | | | | 76,99 % | | 
 +| 10000-14999 1021427 | | | | 76,47 % | | 
 +| 15000-19999 | 1021428 | | | | 76,72 % | | 
 +| 20000-24999 1021429 | | | | 76,72 % | | 
 +| 25000-29999 1021430 | | | | 76,80 % | | 
 +| 30000-34999 1021431 | | | | 76,87 % 
 +| 35000-39999 | 1021432 | | | | 76,94 % | | 
 +| 40000-44999 | 1021433 | | | | 76,72 % | | 
 +| 45000-49999 | 1021434 | | | | 76,98 % | | 
 +| 50000-54999 | 1021435 | | | | 76,69 % | | 
 +| 55000-59999 | 1021436 | | | | 76,96 % | | 
 +| 60000-64999 | 1021437 | | | | 76,81 % | | 
 +| 65000-68562 | 1021438 | | | | 75,86 % | | 
 + 
 +Všechny díly se nakonec podařilo použít, čímž jsme definitivně vyvrátili, že by v trénovacích datech byla jedna nebo více vět, na kterých parser padáPadání bylo asi opravdu způsobeno velikostí dílčích modelů v konkrétních případech. 
 + 
 +Zarážející je ale úspěšnost. Přinejmenším pro první pětitisícový úsek měla být s céčkovým libsvm 80 %, tak jaktože jsme teď vždy naměřili pod 77 %? 
 + 
 +=== Oprava 6.4.2010 === 
 + 
 +Předcházející pokusy s javovou implementací byly omylem spuštěny s výchozí, nikoli s Marcovou definicí rysů, což by mohlo vysvětlovat tu nižší úspěšnost. Nyní tedy druhý pokus: 
 + 
 +| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | 
 +| 00000-04999 | 1032102 | | | | | Nevysvětlitelná náhlá smrt během trénování. | 
 +| 05000-09999 | 1032103 | 24:24 min | | | 80,59 % | | 
 +| 10000-14999 | 1032104 | 31:56 min | | | 80,23 % | | 
 +| 15000-19999 | 1032116 | 30:27 min | | | 80,52 % | | 
 +| 20000-24999 | 1032106 | 21:35 min | | | 80,45 % | | 
 +| 25000-29999 | 1032107 | | | | | Nevysvětlitelná náhlá smrt během trénování. | 
 +| 30000-34999 | 1032108 | 28:30 min | | | 80,48 % | 
 +| 35000-39999 1032109 | | | | | Nevysvětlitelná náhlá smrt během trénování. 
 +| 40000-44999 1032110 19:17 min | | | 80,51 % | | 
 +| 45000-49999 1032111 22:54 min | | | 80,62 % | | 
 +| 50000-54999 1032112 22:31 min | | | 80,58 % | | 
 +| 55000-59999 1032113 | | | | | Nevysvětlitelná náhlá smrt během trénování. 
 +| 60000-64999 1032114 | | | | | Nevysvětlitelná náhlá smrt během trénování. 
 +| 65000-68562 1032115 12:43 min | | | 79,69 % | |
  
 ==== Co dál? ==== ==== Co dál? ====
  
-  * Pokusy, na kterých céčková verze ''libsvm'' havarovalazkusit ještě s javovou verzí.+  * Navrhnout jemnější dělení modelů ''libsvm'', aby modely 003 a 004 nebyly tak velké. Např. přidat slovní poddruh a pád.
   * Rozsekat trénovací data na 14 pětitisícových kusů a s každým z nich pustit trénink a parsing zvlášť. Spadnou některé? A mimochodem, jakou úspěšnost by dalo hlasování takto natrénovaných kusů?   * Rozsekat trénovací data na 14 pětitisícových kusů a s každým z nich pustit trénink a parsing zvlášť. Spadnou některé? A mimochodem, jakou úspěšnost by dalo hlasování takto natrénovaných kusů?
   * Zkusit ''liblinear'' místo ''libsvm''.   * Zkusit ''liblinear'' místo ''libsvm''.
 +  * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''.
   * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd.   * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd.
   * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.   * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.

[ Back to the navigation ] [ Back to the content ]