Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2013/06/12 13:06] zeman Aktuální úkoly. |
user:zeman:malt-parser [2013/06/12 13:30] zeman |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ====== Malt parser ====== | + | ====== Malt parser: pokusy s PDT 2.0 ====== |
http:// | http:// | ||
Line 7: | Line 7: | ||
Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/ | Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/ | ||
- | ==== Co dál? ==== | + | Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& |
+ | |||
+ | Celá trénovací data mají 68563 vět. Testování je vždy na celém dtestu, tedy 9270 vět. | ||
+ | |||
+ | ===== Jak se to pouští? ===== | ||
+ | |||
+ | * Přejít do adresáře ''/ | ||
+ | * Skript '' | ||
+ | * Složka ''/ | ||
+ | |||
+ | ===== Co dál? ===== | ||
* Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. | * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. | ||
Line 16: | Line 26: | ||
* Zkusit hlasování pětitisícových kusů. | * Zkusit hlasování pětitisícových kusů. | ||
- | ===== Pokusy s PDT 2.0 ===== | + | ===== BEST: Javová implementace libsvm, splitting trick ===== |
- | + | ||
- | Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | + | |
- | + | ||
- | Celá trénovací data mají 68563 vět. Testování je vždy na celém dtestu, tedy 9270 vět. | + | |
- | + | ||
- | ==== BEST: Javová implementace libsvm, splitting trick ==== | + | |
Vyžaduje více času a paměti než céčková implementace, | Vyžaduje více času a paměti než céčková implementace, | ||
Line 45: | Line 49: | ||
Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času. | Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času. | ||
- | ==== Bez splitting tricku ==== | + | ===== Bez splitting tricku |
Trénování bez " | Trénování bez " | ||
Line 58: | Line 62: | ||
| stackeager | 39 dní 11 hodin 38 minut (3375472 s) | 227927 s (63:19 hodin) | 1 věta / 24,6 s | 82,93 % | | | stackeager | 39 dní 11 hodin 38 minut (3375472 s) | 227927 s (63:19 hodin) | 1 věta / 24,6 s | 82,93 % | | ||
- | ==== Nastavení od Švédů ==== | + | ===== Nastavení od Švédů |
26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. | 26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. | ||
Line 84: | Line 88: | ||
< | < | ||
- | ==== Trénování větších modelů s céčkovou implementací libsvm padá ==== | + | ===== Trénování větších modelů s céčkovou implementací libsvm padá ===== |
Chybu hlásí '' | Chybu hlásí '' | ||
Line 96: | Line 100: | ||
Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády. | ||
- | ==== Trénovací data rozsekaná na pětitisícové úseky ==== | + | ===== Trénovací data rozsekaná na pětitisícové úseky |
| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | | N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka | | ||
Line 114: | Line 118: | ||
| 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | | | 65000-68562 | 1032115 | 12:43 min | | | 79,69 % | | | ||
- | ==== Splitting trick podle slovního poddruhu, jlibsvm ==== | + | ===== Splitting trick podle slovního poddruhu, jlibsvm |
Snižuje časovou náročnost, | Snižuje časovou náročnost, | ||
Line 135: | Line 139: | ||
| full | 1177879 | 8 dní 7 h | 38957 s = 10:49 h | 1 věta / 4,20 s | 86,02 % | 27.4.-6.5.2010 | | | full | 1177879 | 8 dní 7 h | 38957 s = 10:49 h | 1 věta / 4,20 s | 86,02 % | 27.4.-6.5.2010 | | ||
- | ==== Stackeager, java libsvm, švédské rysy ==== | + | ===== Stackeager, java libsvm, švédské rysy ===== |
< | < | ||
Line 174: | Line 178: | ||
| full | 1474032 | 8 dní 6 h | 40110 s = 11:09 h | 1 věta / 4,33 s | 85,94 % | 2.-11.6.2010 | | | | full | 1474032 | 8 dní 6 h | 40110 s = 11:09 h | 1 věta / 4,33 s | 85,94 % | 2.-11.6.2010 | | | ||
- | ==== Stackproj, java libsvm, švédské rysy ==== | + | ===== Stackproj, java libsvm, švédské rysy ===== |
< | < | ||
Line 213: | Line 217: | ||
| full | 1474119 | 7 dní 11 h | 36260 s = 10:04 h | 1 věta / 3,91 s | 81,88 % | 7.-15.6.2010 | | | | full | 1474119 | 7 dní 11 h | 36260 s = 10:04 h | 1 věta / 3,91 s | 81,88 % | 7.-15.6.2010 | | | ||
- | ==== Covproj / covnonproj / nivrestandard / nivreeager, java libsvm, švédské rysy ==== | + | ===== Covproj / covnonproj / nivrestandard / nivreeager, java libsvm, švédské rysy ===== |
Všechny trénovací procesy hlásí "The function cannot be initialized." | Všechny trénovací procesy hlásí "The function cannot be initialized." | ||