[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:zeman:malt-parser [2010/04/01 15:45]
zeman Aktualizace Co dál?
user:zeman:malt-parser [2010/04/26 12:49]
zeman Doběhly zbývající testy javových modelů.
Line 108: Line 108:
 ==== Javová implementace libsvm ==== ==== Javová implementace libsvm ====
  
-Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k drobným odchylkám v úspěšnosti způsobeným odlišným zpracováním racionálních čísel. Mně se zatím zdá, že odchylky budou spíše značné, a to v neprospěch javové implementace.+Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k drobným odchylkám v úspěšnosti způsobeným odlišným zpracováním racionálních čísel.
  
 | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
-| 1000 | 1011450 37 s | | | | Spadlo, kód -není v tabulce symbolů. | +| 1000 | 1032117 2:38 min | 1252 = 20:52 min | 1 věta / 0,14 s | 74,63 % | 6.4.2010 
-| 2000 | 1011451 2:46 min | 661 s = 11 min | 1 věta / 0,07 s | 74,10 % | | +| 2000 | 1032118 8:44 min | 2344 s = 39:03 min | 1 věta / 0,25 s | 77,73 % | 6.4.2010 
-| 5000 | 1011452 17:45 min | 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | | +| 5000 | 1040063 48:07 min | 3956 s = 1:06 h | 1 věta / 0,43 s | 80,18 % | 12.4.2010 
-| 10000 | 1011453 | | | | | Nerozeběhlo se. | +| 10000 | 1032120 3:57 h 7235 s = 2:01 h 1 věta / 0,78 s 82,11 % 6.4.2010 
-| 20000 | 1011454 | | | | | | +| 20000 | 1032121 16:45 h 12979 s = 3:36 h 1 věta / 1,40 s 83,65 % 6.-7.4.2010 
-| 25000 | 1011455 | | | | | | +| 25000 | 1032122 27:43 h 16500 s = 4:35 h 1 věta / 1,78 s 84,24 % 6.-8.4.2010 
-| 30000 | 1011456 | | | | | Nerozeběhlo se. | +| 30000 | 1032123 47:21 h 24255 s = 6:44 h 1 věta / 2,62 s 84,54 % 6.-8.4.2010 
-| 35000 | 1011457 | | | | | | +| 35000 | 1035249 2 dny 11:08 h 21468 s = 5:58 h 1 věta / 2,32 s 84,89 % 9.-12.4.2010 
-| 40000 | 1011458 | | | | | | +| 40000 | 1035250 3 dny 10 min 24582 s = 6:50 h 1 věta / 2,65 s 85,08 % 9.-12.4.2010 
-| 45000 | 1011459 | | | | | | +| 45000 | 1035251 4 dny 10:53 h 33744 s = 9:22 h 1 věta / 3,64 s 85,35 % 9.-14.4.2010 
-| 50000 | 1011460 | | | | | | +| 50000 | 1035252 5 dní 19:32 h 37140 s = 10:19 h 1 věta / 4,01 s 85,47 % 9.-15.4.2010 
-| 55000 | 1011461 | | | | | | +| 55000 | 1035258 7 dní 8:37 h 40518 s = 11:15 h 1 věta / 4,37 s 85,65 % 9.-17.4.2010 
-| 60000 | 1011462 | | | | | | +| 60000 | 1035254 7 dní 4:55 h 34374 s = 9:33 h 1 věta / 3,71 s 85,80 % 9.-17.4.2010 
-| 65000 | 1011463 | | | | | |+| 65000 | 1035255 5 dní 21:01 h 31378 s = 8:43 h 1 věta / 3,38 s 85,96 % 9.-15.4.2010 |
  
 +==== Trénovací data rozsekaná na pětitisícové úseky ====
 +
 +| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
 +| 00000-04999 | 1021425 | | | | 76,65 % | |
 +| 05000-09999 | 1021426 | | | | 76,99 % | |
 +| 10000-14999 | 1021427 | | | | 76,47 % | |
 +| 15000-19999 | 1021428 | | | | 76,72 % | |
 +| 20000-24999 | 1021429 | | | | 76,72 % | |
 +| 25000-29999 | 1021430 | | | | 76,80 % | |
 +| 30000-34999 | 1021431 | | | | 76,87 % | |
 +| 35000-39999 | 1021432 | | | | 76,94 % | |
 +| 40000-44999 | 1021433 | | | | 76,72 % | |
 +| 45000-49999 | 1021434 | | | | 76,98 % | |
 +| 50000-54999 | 1021435 | | | | 76,69 % | |
 +| 55000-59999 | 1021436 | | | | 76,96 % | |
 +| 60000-64999 | 1021437 | | | | 76,81 % | |
 +| 65000-68562 | 1021438 | | | | 75,86 % | |
 +
 +Všechny díly se nakonec podařilo použít, čímž jsme definitivně vyvrátili, že by v trénovacích datech byla jedna nebo více vět, na kterých parser padá. Padání bylo asi opravdu způsobeno velikostí dílčích modelů v konkrétních případech.
 +
 +Zarážející je ale úspěšnost. Přinejmenším pro první pětitisícový úsek měla být s céčkovým libsvm 80 %, tak jaktože jsme teď vždy naměřili pod 77 %?
 +
 +=== Oprava 6.4.2010 ===
 +
 +Předcházející pokusy s javovou implementací byly omylem spuštěny s výchozí, nikoli s Marcovou definicí rysů, což by mohlo vysvětlovat tu nižší úspěšnost. Nyní tedy druhý pokus:
 +
 +| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
 +| 00000-04999 | 1032102 | | | | | Nevysvětlitelná náhlá smrt během trénování. |
 +| 05000-09999 | 1032103 | 24:24 min | | | 80,59 % | |
 +| 10000-14999 | 1032104 | 31:56 min | | | 80,23 % | |
 +| 15000-19999 | 1032116 | 30:27 min | | | 80,52 % | |
 +| 20000-24999 | 1032106 | 21:35 min | | | 80,45 % | |
 +| 25000-29999 | 1032107 | | | | | Nevysvětlitelná náhlá smrt během trénování. |
 +| 30000-34999 | 1032108 | 28:30 min | | | 80,48 % | |
 +| 35000-39999 | 1032109 | | | | | Nevysvětlitelná náhlá smrt během trénování. |
 +| 40000-44999 | 1032110 | 19:17 min | | | 80,51 % | |
 +| 45000-49999 | 1032111 | 22:54 min | | | 80,62 % | |
 +| 50000-54999 | 1032112 | 22:31 min | | | 80,58 % | |
 +| 55000-59999 | 1032113 | | | | | Nevysvětlitelná náhlá smrt během trénování. |
 +| 60000-64999 | 1032114 | | | | | Nevysvětlitelná náhlá smrt během trénování. |
 +| 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | |
  
 ==== Co dál? ==== ==== Co dál? ====

[ Back to the navigation ] [ Back to the content ]