Differences

This shows you the differences between two versions of the page.

--- user:zeman:malt-parser [2010/04/01 22:44]
zeman 20000
+++ user:zeman:malt-parser [2010/04/06 16:51]
zeman Opravné pokusy alljava.pl a chunks5000.pl.
@@ Line 105: / Line 105: @@
 Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády.
 ==== Javová implementace libsvm ====
@@ Line 117: / Line 116: @@
 | 10000 | 1011453 | | | | | Nerozeběhlo se. |
 | 20000 | 1011454 | 6:23 h | 5602 s = 1:33 h | 1 věta / 0,60 s | 79,90 % | |
-| 25000 | 1011455 | | | | | |
+| 25000 | 1011455 | 10:59 h | 6964 s = 1:56 h | 1 věta / 0,75 s | 80,32 % | |
 | 30000 | 1011456 | | | | | Nerozeběhlo se. |
-| 35000 | 1011457 | | | | | |
+| 35000 | 1011457 | 22:33 h | 9230 s = 2:34 h | 1 věta / 1,00 s | 81,03 % | |
-| 40000 | 1011458 | | | | | |
+| 40000 | 1011458 | 36:36 h | 12484 s = 3:28 h | 1 věta / 1,35 s | 81,17 % | |
-| 45000 | 1011459 | | | | | |
+| 45000 | 1011459 | 46:26 h | 13889 s = 3:51 h | 1 věta / 1,50 s | 81,51 % | |
-| 50000 | 1011460 | | | | | |
+| 50000 | 1011460 | 58:13 h | 15711 s = 4:22 h | 1 věta / 1,69 s | 81,72 % | |
-| 55000 | 1011461 | | | | | |
+| 55000 | 1011461 | 65:48 h | 17031 s = 4:44 h | 1 věta / 1,84 s | 81,83 % | |
-| 60000 | 1011462 | | | | | |
+| 60000 | 1011462 | 90:10 h | 18145 s = 5:02 h | 1 věta / 1,96 s | 82,11 % | |
-| 65000 | 1011463 | | | | | |
+| 65000 | 1011463 | 89:29 h | 15808 s = 4:23 h | 1 věta / 1,71 s | 82,31 % | |
+=== Oprava 6.4.2010 ===
+Předcházející pokusy s&nbsp;javovou implementací byly omylem spuštěny s&nbsp;výchozí, nikoli s&nbsp;Marcovou definicí rysů, což by mohlo vysvětlovat tu nižší úspěšnost. Nyní tedy druhý pokus:
+| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
+| 1000 | 1032117 | 2:38 min | | | | 6.4.2010 |
+| 2000 | 1032118 | 8:44 min | | | | 6.4.2010 |
+| 5000 | 1032131, 1032132 | | | | | 6.4.2010. Nějak se pustilo dvakrát přes sebe, takže trénink bohužel nemohl zapisovat do souboru s&nbsp;modelem. Nevím, co se stalo. |
+| 10000 | 1032120 | | | | | 6.4.2010 |
+| 20000 | 1032121 | | | | | 6.4.2010 |
+| 25000 | 1032122 | | | | | 6.4.2010 |
+| 30000 | 1032123 | | | | | 6.4.2010 |
+| 35000 | 1032124 | | | | | 6.4.2010 |
+| 40000 | 1032125 | | | | | 6.4.2010 |
+| 45000 | 1032126 | | | | | 6.4.2010 |
+| 50000 | 1032127 | | | | | 6.4.2010 |
+| 55000 | 1032128 | | | | | 6.4.2010 |
+| 60000 | 1032129 | | | | | 6.4.2010 |
+| 65000 | 1032130 | | | | | 6.4.2010 |
+==== Trénovací data rozsekaná na pětitisícové úseky ====
+| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
+| 00000-04999 | 1021425 | | | | 76,65 % | |
+| 05000-09999 | 1021426 | | | | 76,99 % | |
+| 10000-14999 | 1021427 | | | | 76,47 % | |
+| 15000-19999 | 1021428 | | | | 76,72 % | |
+| 20000-24999 | 1021429 | | | | 76,72 % | |
+| 25000-29999 | 1021430 | | | | 76,80 % | |
+| 30000-34999 | 1021431 | | | | 76,87 % | |
+| 35000-39999 | 1021432 | | | | 76,94 % | |
+| 40000-44999 | 1021433 | | | | 76,72 % | |
+| 45000-49999 | 1021434 | | | | 76,98 % | |
+| 50000-54999 | 1021435 | | | | 76,69 % | |
+| 55000-59999 | 1021436 | | | | 76,96 % | |
+| 60000-64999 | 1021437 | | | | 76,81 % | |
+| 65000-68562 | 1021438 | | | | 75,86 % | |
+Všechny díly se nakonec podařilo použít, čímž jsme definitivně vyvrátili, že by v&nbsp;trénovacích datech byla jedna nebo více vět, na kterých parser padá. Padání bylo asi opravdu způsobeno velikostí dílčích modelů v&nbsp;konkrétních případech.
+Zarážející je ale úspěšnost. Přinejmenším pro první pětitisícový úsek měla být s&nbsp;céčkovým libsvm 80&nbsp;%, tak jaktože jsme teď vždy naměřili pod 77&nbsp;%?
+=== Oprava 6.4.2010 ===
+Předcházející pokusy s&nbsp;javovou implementací byly omylem spuštěny s&nbsp;výchozí, nikoli s&nbsp;Marcovou definicí rysů, což by mohlo vysvětlovat tu nižší úspěšnost. Nyní tedy druhý pokus:
+| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
+| 00000-04999 | 1032102 | | | | | 6.4.2010 |
+| 05000-09999 | 1032103 | 24:24 min | | | | |
+| 10000-14999 | 1032104 | 31:56 min | | | | |
+| 15000-19999 | 1032116 | 30:27 min | | | | |
+| 20000-24999 | 1032106 | 21:35 min | | | | |
+| 25000-29999 | 1032107 | | | | | |
+| 30000-34999 | 1032108 | 28:30 min | | | | |
+| 35000-39999 | 1032109 | | | | | |
+| 40000-44999 | 1032110 | 19:17 min | | | | |
+| 45000-49999 | 1032111 | 22:54 min | | | | |
+| 50000-54999 | 1032112 | 22:31 min | | | | |
+| 55000-59999 | 1032113 | | | | | |
+| 60000-64999 | 1032114 | | | | | |
+| 65000-68562 | 1032115 | 12:43 min | | | | |
 ==== Co dál? ====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences