[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:malt-parser [2010/03/31 10:53]
zeman
user:zeman:malt-parser [2010/04/01 15:34]
zeman Javová implementace libsvm.
Line 46: Line 46:
 procesor 64bit dual core AMD Opteron 2 GHz procesor 64bit dual core AMD Opteron 2 GHz
 paměť 16 GB, ale proces zabírá jen 4,1 GB paměť 16 GB, ale proces zabírá jen 4,1 GB
- 
- 
- 
- 
- 
- 
- 
- 
- 
  
 ==== Nastavení od Švédů ==== ==== Nastavení od Švédů ====
Line 96: Line 87:
 | 35000 | 984091 | 21:09 hod | 984242 | 22018 s = 6:07 hod | 1 věta / 2,38 s | 84,89 % | | 35000 | 984091 | 21:09 hod | 984242 | 22018 s = 6:07 hod | 1 věta / 2,38 s | 84,89 % |
 | 40000 | 984092 | spadlo na ''sdm0.003.libsvm.mod'' | | | | | | 40000 | 984092 | spadlo na ''sdm0.003.libsvm.mod'' | | | | |
-| 45000 | 984093 | 38:18 hod | 1008955 | | | |+| 45000 | 984093 | 38:18 hod | 1008955 | 26853 s = 7:28 hod 1 věta / 2,90 s 85,35 % |
 | 50000 | 984030 | 49:55 hod | 984336 | 37224 s = 10:20 hod | 1 věta / 4,02 s | 85,47 % | | 50000 | 984030 | 49:55 hod | 984336 | 37224 s = 10:20 hod | 1 věta / 4,02 s | 85,47 % |
 | 55000 | 984094 | spadlo na ''sdm0.004.libsvm.mod'' | | | | | | 55000 | 984094 | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
Line 103: Line 94:
 | 68563 | | spadlo na ''sdm0.004.libsvm.mod'' | | | | | | 68563 | | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
  
 +==== Proč trénování větších modelů padá? ====
 +
 +''sdm0.004.libsvm.mod'' je dílčí model pro hodnotu ''CPOSTAG'' číslo 4. Značky jsou číslovány podle pořadí, v jakém se v trénovacích datech objevily. Pokud tedy všechny podmnožiny trénovacích dat, které zkouším, začínají na začátku trénovacích dat, mají číslování značek stejné. Číslování je také možné ověřit tak, že rozbalíme model, vznikne stejnojmenná složka, v ní se pak podíváme do souboru ''symboltables.sym'' na část ''CPOSTAG'':
 +
 +<code>java -jar ~/nastroje/parsery/malt-1.3/malt.jar -c model -m unpack
 +cd model
 +less symboltables.sym</code>
 +
 +Až na jednu výjimku trénování spadlo vždy při budování ''sdm0.004.libsvm.mod'' a vždy na větších trénovacích datech. Tento model patří podstatným jménům (přesněji: situacím, kdy na vrcholu zásobníku leží podstatné jméno). Tento model, resp. jeho vstupní data, jsou také zřejmě vždy největší. Není sice asi problém s&nbsp;dostupností operační paměti (''svm-train'' spotřebovává řádově stovky megabajtů, přitom má k dispozici desítky gigabajtů), ale vnitřní struktury libsvm asi na tak velká data nejsou připraveny.
 +
 +Joakim navrhuje, abychom zkusili dělení zjemnit, např. místo CPOSTAGu dělit modely podle slovního poddruhu (druhá pozice české značky). Pak by dílčí modely byly menší a libsvm by třeba nespadlo. Ve skutečnosti budu asi muset zjemňovat jiným způsobem, protože právě u podstatných jmen žádné zvláštní dělení na poddruhy neexistuje. Mohly by ale pomoct pády.
 +
 +==== Javová implementace libsvm ====
 +
 +Předpokládá se, že vyžaduje více času a paměti. Podle dokumentace může dojít i k&nbsp;drobným odchylkám v&nbsp;úspěšnosti způsobeným odlišným zpracováním racionálních čísel. Mně se zatím zdá, že odchylky budou spíše značné, a to v&nbsp;neprospěch javové implementace.
  
 +| N | Úloha | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | Poznámka |
 +| 1000 | 1011450 | 37 s | | | | Spadlo, kód -1 není v&nbsp;tabulce symbolů. |
 +| 2000 | 1011451 | 2:46 min | 661 s = 11 min | 1 věta / 0,07 s | 74,10 % | |
 +| 5000 | 1011452 | 17:45 min | 1527 s = 25 min | 1 věta / 0,16 s | 76,65 % | |
 +| 10000 | 1011453 | | | | | Nerozeběhlo se. |
 +| 20000 | 1011454 | | | | | |
 +| 25000 | 1011455 | | | | | |
 +| 30000 | 1011456 | | | | | Nerozeběhlo se. |
 +| 35000 | 1011457 | | | | | |
 +| 40000 | 1011458 | | | | | |
 +| 45000 | 1011459 | | | | | |
 +| 50000 | 1011460 | | | | | |
 +| 55000 | 1011461 | | | | | |
 +| 60000 | 1011462 | | | | | |
 +| 65000 | 1011463 | | | | | |
  
 ==== Co dál? ==== ==== Co dál? ====

[ Back to the navigation ] [ Back to the content ]