[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:zeman:malt-parser [2012/06/28 09:06]
zeman Velikosti dat.
user:zeman:malt-parser [2013/06/12 13:06]
zeman Aktuální úkoly.
Line 6: Line 6:
  
 Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/home/zeman/nastroje/parsery/maltparser-1.7.1''. Moje staré pokusy s Malt Parserem a PDT 2.0 jsou v ''/net/work/people/zeman/parsing/projects/maltpdt/uppsala-features''. Aktualizace květen 2012: Malt Parser 1.7.1 jsem právě rozbalil do ''/home/zeman/nastroje/parsery/maltparser-1.7.1''. Moje staré pokusy s Malt Parserem a PDT 2.0 jsou v ''/net/work/people/zeman/parsing/projects/maltpdt/uppsala-features''.
 +
 +==== Co dál? ====
 +
 +  * Zjistit úspěšnost na e-testu a publikovat ji na stránce o českém parsingu. A možná tam publikovat i LAS, nejenom UAS.
 +  * Upravit švédskou definici rysů, aby fungovala i s algoritmy ''nivrestandard'', ''nivreeager'', ''covproj'' a ''covnonproj''. Vše vyzkoušet opět na různě velkých trénovacích datech. Nikde není dáno, že právě ''stacklazy'' musí být nejúspěšnější algoritmus na PDT.
 +  * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''.
 +  * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd.
 +  * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu.
 +  * Zkusit hlasování pětitisícových kusů.
  
 ===== Pokusy s PDT 2.0 ===== ===== Pokusy s PDT 2.0 =====
Line 207: Line 216:
  
 Všechny trénovací procesy hlásí "The function cannot be initialized." Mohlo by to být tím, že Marcova definice rysů, kterou se pokouším použít, byla původně určena pro algoritmus ''stacklazy''. Takže se třeba snaží dívat na zásobník, se kterým Covingtonův algoritmus vůbec nepracuje? Žádnou změnou na clusteru ta chyba totiž není, trénink ''stacklazy'' se rozeběhne bez problémů stejně jako dřív. Všechny trénovací procesy hlásí "The function cannot be initialized." Mohlo by to být tím, že Marcova definice rysů, kterou se pokouším použít, byla původně určena pro algoritmus ''stacklazy''. Takže se třeba snaží dívat na zásobník, se kterým Covingtonův algoritmus vůbec nepracuje? Žádnou změnou na clusteru ta chyba totiž není, trénink ''stacklazy'' se rozeběhne bez problémů stejně jako dřív.
- 
-==== Co dál? ==== 
- 
-  * Upravit švédskou definici rysů, aby fungovala i s algoritmy ''nivrestandard'', ''nivreeager'', ''covproj'' a ''covnonproj''. Vše vyzkoušet opět na různě velkých trénovacích datech. Nikde není dáno, že právě ''stacklazy'' musí být nejúspěšnější algoritmus na PDT. 
-  * Odladit ''train.pl'', aby se výsledný soubor ''.mco'' dal rozbalovat. Možná mu vadí pouze ".mco" u volby ''-c''. 
-  * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd. 
-  * Vyhodnotit to ještě i na e-testu a připsat to na stránku o českém parsingu. 
-  * Zkusit hlasování pětitisícových kusů. 
  

[ Back to the navigation ] [ Back to the content ]