[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:malt-parser [2010/05/13 11:10]
zeman Pustil jsem parser.
user:zeman:malt-parser [2010/05/13 11:28]
zeman Aktualizace Co dál?
Line 210: Line 210:
  
   * Ještě pustit javovské ''libsvm'' a uppsalské dělení (CPOSTAG) na celý treebank. Zatím jsem to udělal nejvýše pro prvních 65000 vět, ale treebank jich má přes 68000.   * Ještě pustit javovské ''libsvm'' a uppsalské dělení (CPOSTAG) na celý treebank. Zatím jsem to udělal nejvýše pro prvních 65000 vět, ale treebank jich má přes 68000.
-  * Navrhnout jemnější dělení modelů ''libsvm'', aby modely 003 a 004 nebyly tak velké. Např. přidat slovní poddruh a pád. 
-  * Rozsekat trénovací data na 14 pětitisícových kusů a s každým z nich pustit trénink a parsing zvlášť. Spadnou některé? A mimochodem, jakou úspěšnost by dalo hlasování takto natrénovaných kusů? 
   * Zkusit ''liblinear'' místo ''libsvm''.   * Zkusit ''liblinear'' místo ''libsvm''.
   * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''.   * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''.
   * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd.   * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd.
   * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.   * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.
 +  * Zkusit hlasování pětitisícových kusů.
 +

[ Back to the navigation ] [ Back to the content ]