Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2012/06/28 09:04] zeman Reorganizace a vyházení některých nepotřebných pasáží. |
user:zeman:malt-parser [2013/06/12 13:35] zeman Jak se to pouští? |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Malt parser ====== | + | ====== Malt parser: pokusy s PDT 2.0 ====== |
http:// | http:// | ||
Line 6: | Line 6: | ||
Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/ | Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/ | ||
- | |||
- | ===== Pokusy s PDT 2.0 ===== | ||
Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | ||
- | ==== BEST: Javová implementace libsvm, splitting trick ==== | + | Celá trénovací data mají 68563 vět. Testování je vždy na celém dtestu, tedy 9270 vět. |
+ | |||
+ | ===== Jak se to pouští? ===== | ||
+ | |||
+ | * Přejít do adresáře ''/ | ||
+ | * Skript '' | ||
+ | * Složka ''/ | ||
+ | * Dosud neexistuje žádný Makefile. Pouštělo se to pomocí skriptu '' | ||
+ | |||
+ | ===== Co dál? ===== | ||
+ | |||
+ | * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. | ||
+ | * Upravit švédskou definici rysů, aby fungovala i s& | ||
+ | * Odladit '' | ||
+ | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | ||
+ | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | ||
+ | * Zkusit hlasování pětitisícových kusů. | ||
+ | |||
+ | ===== BEST: Javová implementace libsvm, splitting trick ===== | ||
Vyžaduje více času a paměti než céčková implementace, | Vyžaduje více času a paměti než céčková implementace, | ||
Line 30: | Line 46: | ||
| 60000 | 1035254 | 7 dní 4:55 h | 34374 s = 9:33 h | 1 věta / 3,71 s | 85,80 % | 9.-17.4.2010 | | | 60000 | 1035254 | 7 dní 4:55 h | 34374 s = 9:33 h | 1 věta / 3,71 s | 85,80 % | 9.-17.4.2010 | | ||
| 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | | 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | ||
- | | full | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | | + | | 68563 | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | |
Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času. | Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času. | ||
- | ==== Bez splitting tricku ==== | + | ===== Bez splitting tricku |
Trénování bez " | Trénování bez " | ||
Line 47: | Line 63: | ||
| stackeager | 39 dní 11 hodin 38 minut (3375472 s) | 227927 s (63:19 hodin) | 1 věta / 24,6 s | 82,93 % | | | stackeager | 39 dní 11 hodin 38 minut (3375472 s) | 227927 s (63:19 hodin) | 1 věta / 24,6 s | 82,93 % | | ||
- | ==== Nastavení od Švédů ==== | + | ===== Nastavení od Švédů |
26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. | 26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. | ||
Line 73: | Line 89: | ||
< | < | ||
- | ==== Trénování větších modelů s céčkovou implementací libsvm padá ==== | + | ===== Trénování větších modelů s céčkovou implementací libsvm padá ===== |
Chybu hlásí '' | Chybu hlásí '' | ||
Line 85: | Line 101: | ||
Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
- | ==== Trénovací data rozsekaná na pětitisícové úseky ==== | + | ===== Trénovací data rozsekaná na pětitisícové úseky |
| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
Line 103: | Line 119: | ||
| 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | | | 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | | ||
- | ==== Splitting trick podle slovního poddruhu, jlibsvm ==== | + | ===== Splitting trick podle slovního poddruhu, jlibsvm |
Snižuje časovou náročnost, | Snižuje časovou náročnost, | ||
Line 124: | Line 140: | ||
| full | 1177879 | 8 dní 7 h | 38957 s = 10:49 h | 1 věta / 4,20 s | 86,02 % | 27.4.-6.5.2010 | | | full | 1177879 | 8 dní 7 h | 38957 s = 10:49 h | 1 věta / 4,20 s | 86,02 % | 27.4.-6.5.2010 | | ||
- | ==== Stackeager, java libsvm, švédské rysy ==== | + | ===== Stackeager, java libsvm, švédské rysy ===== |
< | < | ||
Line 163: | Line 179: | ||
| full | 1474032 | 8 dní 6 h | 40110 s = 11:09 h | 1 věta / 4,33 s | 85,94 % | 2.-11.6.2010 | | | | full | 1474032 | 8 dní 6 h | 40110 s = 11:09 h | 1 věta / 4,33 s | 85,94 % | 2.-11.6.2010 | | | ||
- | ==== Stackproj, java libsvm, švédské rysy ==== | + | ===== Stackproj, java libsvm, švédské rysy ===== |
< | < | ||
Line 202: | Line 218: | ||
| full | 1474119 | 7 dní 11 h | 36260 s = 10:04 h | 1 věta / 3,91 s | 81,88 % | 7.-15.6.2010 | | | | full | 1474119 | 7 dní 11 h | 36260 s = 10:04 h | 1 věta / 3,91 s | 81,88 % | 7.-15.6.2010 | | | ||
- | ==== Covproj / covnonproj / nivrestandard / nivreeager, java libsvm, švédské rysy ==== | + | ===== Covproj / covnonproj / nivrestandard / nivreeager, java libsvm, švédské rysy ===== |
Všechny trénovací procesy hlásí "The function cannot be initialized." | Všechny trénovací procesy hlásí "The function cannot be initialized." | ||
- | |||
- | ==== Co dál? ==== | ||
- | |||
- | * Upravit švédskou definici rysů, aby fungovala i s& | ||
- | * Odladit '' | ||
- | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | ||
- | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | ||
- | * Zkusit hlasování pětitisícových kusů. | ||