Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2013/06/12 13:08] zeman Úprava. |
user:zeman:malt-parser [2013/07/11 18:51] zeman Ruším popis "švédského spouštění", aktuální stav lze vyčíst ze skriptu all.pl. |
||
---|---|---|---|
Line 3: | Line 3: | ||
http:// | http:// | ||
- | Rychlý úvod do práce s Malt parserem, který tu dřív byl, už neplatí, protože se týkal starého | + | Od května 2012 používám |
- | Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/ | + | Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting tricku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& |
- | Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | + | Celá trénovací data mají 68562 vět (někde mám chybně uvedeno 68563 kvůli nejasnostem s& |
- | Celá trénovací data mají 68563 vět. Testování | + | ===== Jak se to pouští? ===== |
+ | |||
+ | * Přejít do adresáře ''/ | ||
+ | * Skript '' | ||
+ | * Složka ''/ | ||
+ | * Dosud neexistuje žádný Makefile. Pouštělo se to pomocí skriptu '' | ||
===== Co dál? ===== | ===== Co dál? ===== | ||
- | * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. | ||
* Upravit švédskou definici rysů, aby fungovala i s& | * Upravit švédskou definici rysů, aby fungovala i s& | ||
* Odladit '' | * Odladit '' | ||
Line 19: | Line 23: | ||
* Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | ||
* Zkusit hlasování pětitisícových kusů. | * Zkusit hlasování pětitisícových kusů. | ||
+ | |||
+ | ===== Nové výsledky s Malt Parserem 1.7 ===== | ||
+ | |||
+ | Experimenty probíhaly v& | ||
+ | |||
+ | D-test (9270 vět): | ||
+ | LAS = 80,04 % | ||
+ | UAS = 85,96 % | ||
+ | LAB = 86,43 % | ||
+ | Běželo na stroji lucifer5 (Intel Xeon 2394 GHz) s vyhrazenými 30 GB paměti: | ||
+ | learning time (na trénovacích datech) = 139 hodin, tj. necelých 6 dní | ||
+ | parsing time = 7 hodin (25559301 ms), tj. 1 věta průměrně za 2,76 s | ||
+ | |||
+ | E-test (10148 vět): | ||
+ | LAS = 79,80 % | ||
+ | UAS = 85,76 % | ||
+ | LAB = 86,24 % | ||
+ | Běželo na stroji hydra1 (AMD Opteron 2518 GHz) s vyhrazenými 30 GB paměti: | ||
+ | learning time (na trénovacích a d-test datech) = 221 hodin, tj. něco přes 9 dní | ||
+ | parsing time = 9 hodin (34135285 ms), tj. 1 věta průměrně za 3,36 s | ||
===== BEST: Javová implementace libsvm, splitting trick ===== | ===== BEST: Javová implementace libsvm, splitting trick ===== | ||
Line 40: | Line 64: | ||
| 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | | 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 | | ||
| 68563 | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | | | 68563 | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 | | ||
- | |||
- | Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času. | ||
- | |||
- | ===== Bez splitting tricku ===== | ||
- | |||
- | Trénování bez " | ||
- | |||
- | | Algoritmus | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost | | ||
- | | nivreeager | 24 dní 17 hodin 13 minut (2135575 s) | 180062 s (50:01 hodin) | 1 věta / 19,4 s | 80,73 % | | ||
- | | nivrestandard | 32 dní 16 hodin 47 minut (2825227 s) | 225021 s (62:30 hodin) | 1 věta / 24,3 s | 79,98 % | | ||
- | | covproj | 60 dní 15 hodin 28 minut (5239706 s) | 348001 s (96:40 hodin) | 1 věta / 37,5 s | 79,69 % | | ||
- | | covnonproj | Skončilo restartem fireball6 někdy v lednu nebo únoru 2010. V ''/ | ||
- | | stackproj | 42 dní 12 hodin 55 minut (3675303 s) | 183676 s (51:01 hodin) | 1 věta / 19,8 s | 78,49 % | | ||
- | | stacklazy | Skončilo chybou Java VM ('' | ||
- | | stackeager | 39 dní 11 hodin 38 minut (3375472 s) | 227927 s (63:19 hodin) | 1 věta / 24,6 s | 82,93 % | | ||
- | |||
- | ===== Nastavení od Švédů ===== | ||
- | |||
- | 26.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. | ||
- | |||
- | < | ||
- | $PARSINGROOT/ | ||
- | end | ||
- | foreach i (dtrain dtest) | ||
- | $PARSINGROOT/ | ||
- | end | ||
- | foreach i (25000 30000 35000 40000 45000 55000 60000 65000) | ||
- | split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll /dev/null | ||
- | end</ | ||
- | |||
- | Učení: | ||
- | |||
- | < | ||
- | |||
- | Rozbor: | ||
- | |||
- | < | ||
- | |||
- | Vyhodnocení: | ||
- | |||
- | < | ||
===== Trénování větších modelů s céčkovou implementací libsvm padá ===== | ===== Trénování větších modelů s céčkovou implementací libsvm padá ===== |