Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:zeman:malt-parser [2013/06/12 13:29] zeman conll-pdttags2conll.pl |
user:zeman:malt-parser [2013/07/11 18:33] zeman Nové výsledky s Malt Parserem 1.7. |
||
---|---|---|---|
Line 9: | Line 9: | ||
Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k& | ||
- | Celá trénovací data mají 68563 vět. Testování je vždy na celém dtestu, tedy 9270 vět. | + | Celá trénovací data mají 68562 vět (někde mám chybně uvedeno 68563 kvůli nejasnostem s& |
===== Jak se to pouští? ===== | ===== Jak se to pouští? ===== | ||
Line 16: | Line 16: | ||
* Skript '' | * Skript '' | ||
* Složka ''/ | * Složka ''/ | ||
- | '' | + | * Dosud neexistuje žádný Makefile. Pouštělo se to pomocí skriptu |
===== Co dál? ===== | ===== Co dál? ===== | ||
- | * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. | + | * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. Teď rychle rozebrat e-test modelem natrénovaným na dtrainu. Výhledově ho ale srovnat s& |
+ | * **Puštěno 12.6.2013 ve 14:21:** < | ||
+ | * Vymyslet nějakou lepší strukturu složek, tohle je hodně hluboké a nepřehledné. | ||
* Upravit švédskou definici rysů, aby fungovala i s& | * Upravit švédskou definici rysů, aby fungovala i s& | ||
* Odladit '' | * Odladit '' | ||
Line 26: | Line 28: | ||
* Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. | ||
* Zkusit hlasování pětitisícových kusů. | * Zkusit hlasování pětitisícových kusů. | ||
+ | |||
+ | ===== Nové výsledky s Malt Parserem 1.7 ===== | ||
+ | |||
+ | Měl jsem dva cíle: 1. Natrénovat nové modely, protože ty staré nejsou kompatibilní s novou verzí parseru, a 2. získat výsledky na e-testu, protože dosud jsem pracoval jen s d-testem. I když jsem novou verzi parseru pouštěl se stejnými parametry jako před třemi lety tu starou, dostal jsem jiné výsledky (nepatrně horší). | ||
+ | |||
+ | D-test (9270 vět): | ||
+ | LAS = 80,04 % | ||
+ | UAS = 85,96 % | ||
+ | LAB = 86,43 % | ||
+ | Běželo na stroji lucifer5 (Intel Xeon 2394 GHz) s vyhrazenými 30 GB paměti: | ||
+ | learning time (na trénovacích datech) = 139 hodin, tj. necelých 6 dní | ||
+ | parsing time = 7 hodin (25559301 ms), tj. 1 věta průměrně za 2,76 s | ||
+ | |||
+ | E-test (10148 vět): | ||
+ | LAS = 79,80 % | ||
+ | UAS = 85,76 % | ||
+ | LAB = 86,24 % | ||
+ | Běželo na stroji hydra1 (AMD Opteron 2518 GHz) s vyhrazenými 30 GB paměti: | ||
+ | learning time (na trénovacích a d-test datech) = 221 hodin, tj. něco přes 9 dní | ||
+ | parsing time = 9 hodin (34135285 ms), tj. 1 věta průměrně za 3,36 s | ||
===== BEST: Javová implementace libsvm, splitting trick ===== | ===== BEST: Javová implementace libsvm, splitting trick ===== |