Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2010/04/01 15:34] zeman Javová implementace libsvm. |
user:zeman:malt-parser [2010/04/01 22:44] zeman 20000 |
||
---|---|---|---|
Line 105: | Line 105: | ||
Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
+ | |||
==== Javová implementace libsvm ==== | ==== Javová implementace libsvm ==== | ||
Line 115: | Line 116: | ||
| 5000 | 1011452 | 17:45 min | 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | | | | 5000 | 1011452 | 17:45 min | 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | | | ||
| 10000 | 1011453 | | | | | Nerozeběhlo se. | | | 10000 | 1011453 | | | | | Nerozeběhlo se. | | ||
- | | 20000 | 1011454 | | | | | | | + | | 20000 | 1011454 | 6:23 h | 5602 s = 1:33 h | 1 věta / 0,60 s | 79,90 % | | |
| 25000 | 1011455 | | | | | | | | 25000 | 1011455 | | | | | | | ||
| 30000 | 1011456 | | | | | Nerozeběhlo se. | | | 30000 | 1011456 | | | | | Nerozeběhlo se. | | ||
Line 125: | Line 126: | ||
| 60000 | 1011462 | | | | | | | | 60000 | 1011462 | | | | | | | ||
| 65000 | 1011463 | | | | | | | | 65000 | 1011463 | | | | | | | ||
+ | |||
==== Co dál? ==== | ==== Co dál? ==== | ||
- | * Pokusy, na kterých céčková verze '' | + | * Pokusy, na kterých céčková verze '' |
+ | * Navrhnout jemnější dělení modelů '' | ||
* Rozsekat trénovací data na 14 pětitisícových kusů a s& | * Rozsekat trénovací data na 14 pětitisícových kusů a s& | ||
* Zkusit '' | * Zkusit '' | ||
+ | * Odladit '' | ||
* Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/ | ||
* Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. |