[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:zeman:malt-parser [2013/06/12 13:57]
zeman Velikosti dat.
user:zeman:malt-parser [2013/07/11 18:33]
zeman Nové výsledky s Malt Parserem 1.7.
Line 21: Line 21:
  
   * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. Teď rychle rozebrat e-test modelem natrénovaným na dtrainu. Výhledově ho ale srovnat s modelem natrénovaným na etrainu (tj. dtrain+dtest).   * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS. Teď rychle rozebrat e-test modelem natrénovaným na dtrainu. Výhledově ho ale srovnat s modelem natrénovaným na etrainu (tj. dtrain+dtest).
 +    * **Puštěno 12.6.2013 ve 14:21:** <code>zeman@lrc2:/net/work/people/zeman/parsing/projects/maltpdt/uppsala-features/stacklazy/split-postag/jlibsvm$ qsub.pl mf=30g parse-e-test.sh</code> Zatím je to ve frontě kvůli HamleDTovi. Občas zkontrolovat!
 +  * Vymyslet nějakou lepší strukturu složek, tohle je hodně hluboké a nepřehledné.
   * Upravit švédskou definici rysů, aby fungovala i s&nbsp;algoritmy ''nivrestandard'', ''nivreeager'', ''covproj'' a ''covnonproj''. Vše vyzkoušet opět na různě velkých trénovacích datech. Nikde není dáno, že právě ''stacklazy'' musí být nejúspěšnější algoritmus na PDT.   * Upravit švédskou definici rysů, aby fungovala i s&nbsp;algoritmy ''nivrestandard'', ''nivreeager'', ''covproj'' a ''covnonproj''. Vše vyzkoušet opět na různě velkých trénovacích datech. Nikde není dáno, že právě ''stacklazy'' musí být nejúspěšnější algoritmus na PDT.
   * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''.   * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''.
Line 26: Line 28:
   * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.   * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.
   * Zkusit hlasování pětitisícových kusů.   * Zkusit hlasování pětitisícových kusů.
 +
 +===== Nové výsledky s Malt Parserem 1.7 =====
 +
 +Měl jsem dva cíle: 1. Natrénovat nové modely, protože ty staré nejsou kompatibilní s novou verzí parseru, a 2. získat výsledky na e-testu, protože dosud jsem pracoval jen s d-testem. I když jsem novou verzi parseru pouštěl se stejnými parametry jako před třemi lety tu starou, dostal jsem jiné výsledky (nepatrně horší).
 +
 +D-test (9270 vět):
 +LAS = 80,04 %
 +UAS = 85,96 %
 +LAB = 86,43 %
 +Běželo na stroji lucifer5 (Intel Xeon 2394 GHz) s vyhrazenými 30 GB paměti:
 +learning time (na trénovacích datech) = 139 hodin, tj. necelých 6 dní
 +parsing time = 7 hodin (25559301 ms), tj. 1 věta průměrně za 2,76 s
 +
 +E-test (10148 vět):
 +LAS = 79,80 %
 +UAS = 85,76 %
 +LAB = 86,24 %
 +Běželo na stroji hydra1 (AMD Opteron 2518 GHz) s vyhrazenými 30 GB paměti:
 +learning time (na trénovacích a d-test datech) = 221 hodin, tj. něco přes 9 dní
 +parsing time = 9 hodin (34135285 ms), tj. 1 věta průměrně za 3,36 s
  
 ===== BEST: Javová implementace libsvm, splitting trick ===== ===== BEST: Javová implementace libsvm, splitting trick =====

[ Back to the navigation ] [ Back to the content ]