Differences

This shows you the differences between two versions of the page.

--- user:zeman:malt-parser [2010/04/01 22:54]
zeman Trénovací data rozsekaná na pětitisícové úseky.
+++ user:zeman:malt-parser [2010/04/02 15:00]
zeman Komentář k pětitisícovým úsekům.
@@ Line 105: / Line 105: @@
 Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády.
@@ Line 117: / Line 118: @@
 | 10000 | 1011453 | | | | | Nerozeběhlo se. |
 | 20000 | 1011454 | 6:23 h | 5602 s = 1:33 h | 1 věta / 0,60 s | 79,90 % | |
-| 25000 | 1011455 | | | | | |
+| 25000 | 1011455 | 10:59 h | 6964 s = 1:56 h | 1 věta / 0,75 s | 80,32 % | |
 | 30000 | 1011456 | | | | | Nerozeběhlo se. |
 | 35000 | 1011457 | | | | | |
@@ Line 126: / Line 127: @@
 | 60000 | 1011462 | | | | | |
 | 65000 | 1011463 | | | | | |
 ==== Trénovací data rozsekaná na pětitisícové úseky ====
 | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
-| 00000-04999 | 1021425 | | | | | |
+| 00000-04999 | 1021425 | | | | 76,65 % | |
-| 05000-09999 | 1021426 | | | | | |
+| 05000-09999 | 1021426 | | | | 76,99 % | |
-| 10000-14999 | 1021427 | | | | | |
+| 10000-14999 | 1021427 | | | | 76,47 % | |
-| 15000-19999 | 1021428 | | | | | |
+| 15000-19999 | 1021428 | | | | 76,72 % | |
-| 20000-24999 | 1021429 | | | | | |
+| 20000-24999 | 1021429 | | | | 76,72 % | |
-| 25000-29999 | 1021430 | | | | | |
+| 25000-29999 | 1021430 | | | | 76,80 % | |
-| 30000-34999 | 1021431 | | | | | |
+| 30000-34999 | 1021431 | | | | 76,87 % | |
-| 35000-39999 | 1021432 | | | | | |
+| 35000-39999 | 1021432 | | | | 76,94 % | |
-| 40000-44999 | 1021433 | | | | | |
+| 40000-44999 | 1021433 | | | | 76,72 % | |
-| 45000-49999 | 1021434 | | | | | |
+| 45000-49999 | 1021434 | | | | 76,98 % | |
-| 50000-54999 | 1021435 | | | | | |
+| 50000-54999 | 1021435 | | | | 76,69 % | |
-| 55000-59999 | 1021436 | | | | | |
+| 55000-59999 | 1021436 | | | | 76,96 % | |
-| 60000-64999 | 1021437 | | | | | |
+| 60000-64999 | 1021437 | | | | 76,81 % | |
-| 65000-68562 | 1021438 | | | | | |
+| 65000-68562 | 1021438 | | | | 75,86 % | |
+Všechny díly se nakonec podařilo použít, čímž jsme definitivně vyvrátili, že by v&nbsp;trénovacích datech byla jedna nebo více vět, na kterých parser padá. Padání bylo asi opravdu způsobeno velikostí dílčích modelů v&nbsp;konkrétních případech.
+Zarážející je ale úspěšnost. Přinejmenším pro první pětitisícový úsek měla být s&nbsp;céčkovým libsvm 80&nbsp;%, tak jaktože jsme teď vždy naměřili pod 77&nbsp;%?
 ==== Co dál? ====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences