Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:zeman:malt-parser [2013/07/11 18:49] zeman Odstraněny staré záznamy o pokusech bez splitting tricku. |
user:zeman:malt-parser [2013/07/11 22:15] (current) zeman Odstraněn záznam o ladění před 3 lety. |
||
|---|---|---|---|
| Line 44: | Line 44: | ||
| parsing time = 9 hodin (34135285 ms), tj. 1 věta průměrně za 3,36 s | parsing time = 9 hodin (34135285 ms), tj. 1 věta průměrně za 3,36 s | ||
| - | ===== BEST: Javová | + | ===== BEST: Malt parser 1.3, javová |
| - | Vyžaduje více času a paměti než céčková implementace, | + | Vyžaduje více času a paměti než céčková implementace, |
| | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | | ||
| Line 65: | Line 65: | ||
| | 68563 | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | | | 68563 | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | | ||
| - | ===== Nastavení od Švédů ===== | + | ===== Trénování větších modelů s céčkovou implementací libsvm padá ===== |
| - | 26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. | + | //Malt Parser 1.3 jsem nedokázal použít s céčkovou implementací libsvm, která má být sice rychlejší, |
| - | + | ||
| - | < | + | |
| - | $PARSINGROOT/ | + | |
| - | end | + | |
| - | foreach i (dtrain dtest) | + | |
| - | $PARSINGROOT/ | + | |
| - | end | + | |
| - | foreach i (25000 30000 35000 40000 45000 55000 60000 65000) | + | |
| - | split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll | + | |
| - | end</ | + | |
| - | + | ||
| - | Učení: | + | |
| - | + | ||
| - | < | + | |
| - | + | ||
| - | Rozbor: | + | |
| - | + | ||
| - | < | + | |
| - | + | ||
| - | Vyhodnocení: | + | |
| - | + | ||
| - | < | + | |
| - | + | ||
| - | ===== Trénování větších modelů s céčkovou implementací libsvm padá ===== | + | |
| Chybu hlásí '' | Chybu hlásí '' | ||
| Line 102: | Line 78: | ||
| Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
| - | |||
| - | ===== Trénovací data rozsekaná na pětitisícové úseky ===== | ||
| - | |||
| - | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
| - | | 00000-04999 | 1032102 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
| - | | 05000-09999 | 1032103 | 24:24 min | | | 80,59 % | | | ||
| - | | 10000-14999 | 1032104 | 31:56 min | | | 80,23 % | | | ||
| - | | 15000-19999 | 1032116 | 30:27 min | | | 80,52 % | | | ||
| - | | 20000-24999 | 1032106 | 21:35 min | | | 80,45 % | | | ||
| - | | 25000-29999 | 1032107 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
| - | | 30000-34999 | 1032108 | 28:30 min | | | 80,48 % | | | ||
| - | | 35000-39999 | 1032109 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
| - | | 40000-44999 | 1032110 | 19:17 min | | | 80,51 % | | | ||
| - | | 45000-49999 | 1032111 | 22:54 min | | | 80,62 % | | | ||
| - | | 50000-54999 | 1032112 | 22:31 min | | | 80,58 % | | | ||
| - | | 55000-59999 | 1032113 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
| - | | 60000-64999 | 1032114 | | | | | Nevysvětlitelná náhlá smrt během trénování. | | ||
| - | | 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | | ||
| ===== Splitting trick podle slovního poddruhu, jlibsvm ===== | ===== Splitting trick podle slovního poddruhu, jlibsvm ===== | ||
| Line 143: | Line 101: | ||
| ===== Stackeager, java libsvm, švédské rysy ===== | ===== Stackeager, java libsvm, švédské rysy ===== | ||
| - | |||
| - | < | ||
| - | ----------------------------------------------------------------------------------------------------------------- | ||
| - | 1473932 0.55500 malt02000. zeman r | ||
| - | 1473933 0.55500 malt05000. zeman r | ||
| - | 1473934 0.55500 malt10000. zeman r | ||
| - | 1473935 0.55500 mert.31733 zeman r | ||
| - | 1473956 0.55500 malt20000. zeman r | ||
| - | 1473957 0.55500 malt25000. zeman r | ||
| - | 1473958 0.55500 malt30000. zeman r | ||
| - | 1473982 0.55500 malt35000. zeman r | ||
| - | 1473983 0.55500 malt40000. zeman r | ||
| - | 1473984 0.55500 malt45000. zeman r | ||
| - | 1474005 0.55500 malt50000. zeman r | ||
| - | 1474009 0.55500 malt55000. zeman r | ||
| - | 1474010 0.55500 malt60000. zeman r | ||
| - | 1474011 0.55500 malt65000. zeman r | ||
| - | 1474032 0.55500 malt-full. zeman r | ||
| - | 1474041 0.45734 pardec.03. zeman r | ||
| - | 10:42 lrc-two:/ | ||
| - | </ | ||
| | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | ||
| Line 182: | Line 119: | ||
| ===== Stackproj, java libsvm, švédské rysy ===== | ===== Stackproj, java libsvm, švédské rysy ===== | ||
| - | |||
| - | < | ||
| - | Všechny úlohy se úspěšně rozeběhly. | ||
| - | job-ID | ||
| - | ----------------------------------------------------------------------------------------------------------------- | ||
| - | 1474106 0.55500 malt02000. zeman r | ||
| - | 1474107 0.55500 malt05000. zeman r | ||
| - | 1474108 0.55500 malt10000. zeman r | ||
| - | 1474109 0.55500 malt20000. zeman r | ||
| - | 1474110 0.55500 malt25000. zeman r | ||
| - | 1474111 0.55500 malt30000. zeman r | ||
| - | 1474112 0.55500 malt35000. zeman r | ||
| - | 1474113 0.55500 malt40000. zeman r | ||
| - | 1474114 0.55500 malt45000. zeman r | ||
| - | 1474115 0.55500 malt50000. zeman r | ||
| - | 1474116 0.55500 malt55000. zeman r | ||
| - | 1474117 0.55500 malt60000. zeman r | ||
| - | 1474118 0.55500 malt65000. zeman r | ||
| - | 1474119 0.55500 malt-full. zeman r | ||
| - | </ | ||
| | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Datum | Poznámka | | ||
