Differences

This shows you the differences between two versions of the page.

--- user:zeman:malt-parser [2010/03/27 11:13]
zeman Poznámky k novým úlohám na cosmosu.
+++ user:zeman:malt-parser [2010/03/31 10:50]
zeman Aktualizace Co dál?
@@ Line 1: / Line 1: @@
 ====== Malt parser ======
-Toto je rychlý úvod do práce s Malt parserem.
+http://maltparser.org/
-Jeden z formátů, které parser umí, je sloupcový formát CoNLL. Kromě trénovacích dat potřebuje parser znát také seznam slovních druhů (POS), hrubých slovních druhů (CPOS) a značek pro druhy závislostí (české AFUNy). Pokud nemáme k dispozici vyčerpávající seznamy pro naše data, můžeme alespoň z dat vytáhnout to, co se v nich opravdu objevilo:
-<code>setenv MALT /home/zeman/nastroje/parsery/malt/maltparser_0.4
-setenv CONLL /net/data/conll
-cd $MALT
-$PARSINGROOT/tools/conll_tag_list.pl < $CONLL/2006/swedish/otrain.conll -c 3 > tagset.cpos
-$PARSINGROOT/tools/conll_tag_list.pl < $CONLL/2006/swedish/otrain.conll -c 4 > tagset.pos
-$PARSINGROOT/tools/conll_tag_list.pl < $CONLL/2006/swedish/otrain.conll -c 7 > tagset.dep</code>
-Taky potřebujeme soubor s definicemi rysů. Pro začátek můžeme využít jeden ze souborů dodávaných s parserem, ale musíme si ho buď přejmenovat, nebo v souboru ''options.dat'' změnit název, pod kterým ho bude parser hledat.
-<code>ln -s m2.par model.par</code>
-Výchozí volby lze načíst ze souboru options.dat. I při trénování parser posílá na výstup stromečky, což lze využít při konverzi formátů. Natrénovaný model se ukládá do souborů, jejichž názvy se odvodí ze souboru s definicemi rysů, model.par. Trénování můžeme pustit např. takhle:
-<code>maltparser -f option.dat -m LEARN -I CONLLTAB -i $CONLL/2006/swedish/otrain.conll</code>
+Rychlý úvod do práce s Malt parserem, který tu dřív byl, už neplatí, protože se týkal starého Malt parseru 0.4 (céčková implementace). Nyní už máme 1.3 (javová implementace). Až se to usadí, budou k ní spouštěcí skripty v repozitáři Parsing v SVN.
-Trénování nad 11000 švédskými větami trvalo na zenu asi 13 s.
-Vlastní parsing pustíme ze stejného adresáře, parser si zřejmě sám načte natrénovaný model. Z testovacích dat nemusíme odstraňovat případné ruční anotace. Parseru nemusíme říkat, kde leží natrénovaný model, zřejmě tedy ale musíme být ve složce, ve které jsme byli při trénování.
-<code>maltparser -f option.dat -m PARSE -I CONLLTAB -i $CONLL/2006/swedish/etest.conll -O CONLLTAB -o sv.etest.malt.conll
-$PARSINGROOT/tools/conll-eval.pl -g $CONLL/swedish/etest.conll -s sv.etest.malt.conll | tee sv.etest.malt.result</code>
 ===== Pokusy s PDT 2.0 =====
-http://maltparser.org/
 Malt 1.3. Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k&nbsp;počtu trénovacích příkladů; těch z&nbsp;PDT vypadnou asi 3 milióny.
@@ Line 57: / Line 33: @@
 Podívat se na LEMMA místo FORM?
-Stav trénování Malt Parseru na PDT 2.0, čtvrtek 10.12.2009, 10:00:
+==== Výpočetní náročnost ====
-vět
+Na jakých strojích to běží (LRC):
+(poznámky typu "ale proces zabírá jen" se týkají prosincových trénování se splitting trickem a s Danovým nastavením).
-orion7:
+=== orion7 ===
 procesor 64bit Intel Xeon 2 GHz
 paměť 32 GB, ale proces zabírá jen 2,2 GB
 Je to náročné na diskové operace?
-Trénování na 20000 větách už běží 46 hodin (CPU time, ne real time!) a asi ještě dlouho poběží, protože trénování na 10000 větách trvalo 22 hodin (real time) a předtím vždy zdvojnásobení trénovacích dat znamenalo pěti- až desetinásobné nároky na čas.
+=== sol5 ===
+procesor 64bit dual core AMD Opteron 2 GHz
+paměť 16 GB, ale proces zabírá jen 4,1 GB
----
-celý treebank (68562 vět)
-sol5:
-procesor 64bit dual core AMD Opteron 2 GHz
-paměť 16 GB, ale proces zabírá jen 4,1 GB
-Trénování už běží 161 hodin (CPU time), tedy téměř týden.
 ==== Nastavení od Švédů ====
 .3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco. Zpočátku trénink pouze na 1000 větách. Na cosmosu běží paralelně dvě úlohy, které se liší pouze přidělenou pamětí. První úloha dostala 30 GB (na clusteru rezervováno 50) a využila je. Druhá úloha dostala 180 GB, využila zatím 69, ale už dlouho se na nich drží.
+.3.2010: Zjistil jsem, že při převodu dat do formátu, který měl být shodný s Marcovým, jsem omylem vypustil všechna zalomení vět, tj. soubor obsahoval jednu větu o 16001 slovech, navíc nejednoznačně číslovaných. Tak to už se ani nedivím, že to parseru nedělalo dobře.
+<code>foreach i (1000 2000 5000 10000 20000 50000)
+  $PARSINGROOT/malt-parser/marco-kuhlmann-czech-settings/conll-pdttags2conll.pl < dtrain-$i.conll > dtrain-$i.conll2009tags.conll
+end
+foreach i (dtrain dtest)
+  $PARSINGROOT/malt-parser/marco-kuhlmann-czech-settings/conll-pdttags2conll.pl < $i.conll > $i.conll2009tags.conll
+end
+foreach i (25000 30000 35000 40000 45000 55000 60000 65000)
+  split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll /dev/null
+end</code>
+Učení:
+<code>qsub.csh mf=31g $PARSINGROOT/malt-parser/scripts/train.pl '<' dtrain-1000.conll2009tags.conll1 '>' d.pokus1000-30g-clibsvm.mco</code>
+Rozbor:
+<code>qsub.csh mf=31g $PARSINGROOT/malt-parser/scripts/parse.pl -g d.pokus1000-30g-clibsvm.mco '<' dtest.conll2009tags.conll '>' dtest.malt-pokus1000-30g-clibsvm.conll</code>
+Vyhodnocení:
+<code>$PARSINGROOT/tools/conll-eval07.pl -g dtest.conll2009tags.conll -s dtest.malt-pokus1000-30g-clibsvm.conll > dtest.malt-pokus1000-30g-clibsvm.eval.txt</code>
+Trénování na části trénovacích dat (prvních N vět). Testování je vždy na celém dtestu, tedy 9270 vět.
+| N | TÚloha | Délka trénování | PÚloha | Délka parsingu | Rychlost parsingu | Úspěšnost |
+| 1000 | | 1 minuta | | 1248 s = 20:48 min | 1 věta / 0,13 s | 74,63 % |
+| 2000 | | 4 minuty | | 1885 s = 31:25 min | 1 věta / 0,20 s | 77,73 % |
+| 5000 | | 30 minut | | 5534 s = 1:32 hod | 1 věta / 0,60 s | 80,18 % |
+| 10000 | | 1:30 hod | | 7171 s = 2:00 hod | 1 věta / 0,77 s | 82,11 % |
+| 20000 | | 10:09 hod | | 17139 s = 4:45 hod | 1 věta / 1,85 s | 83,65 % |
+| 25000 | 984089 | 12:12 hod | 984241 | 16031 s = 4:27 hod | 1 věta / 1,73 s | 84,24 % |
+| 30000 | 984090 | 21:54 hod | 984266 | 19280 s = 5:21 hod | 1 věta / 2,08 s | 84,54 % |
+| 35000 | 984091 | 21:09 hod | 984242 | 22018 s = 6:07 hod | 1 věta / 2,38 s | 84,89 % |
+| 40000 | 984092 | spadlo na ''sdm0.003.libsvm.mod'' | | | | |
+| 45000 | 984093 | 38:18 hod | 1008955 | | | |
+| 50000 | 984030 | 49:55 hod | 984336 | 37224 s = 10:20 hod | 1 věta / 4,02 s | 85,47 % |
+| 55000 | 984094 | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
+| 60000 | 984095 | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
+| 65000 | 984096 | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
+| 68563 | | spadlo na ''sdm0.004.libsvm.mod'' | | | | |
+==== Co dál? ====
+  * Pokusy, na kterých céčková verze ''libsvm'' havarovala, zkusit ještě s&nbsp;javovou verzí.
+  * Rozsekat trénovací data na 14 pětitisícových kusů a s&nbsp;každým z&nbsp;nich pustit trénink a parsing zvlášť. Spadnou některé? A mimochodem, jakou úspěšnost by dalo hlasování takto natrénovaných kusů?
+  * Zkusit ''liblinear'' místo ''libsvm''.
+  * Jestli nakonec nějak prorazím, bude potřeba opět učesat obalovací skripty. Mj. jsem přišel na to, že ve většině svých skriptů používám jako dočasný adresář ''/tmp'' místo Milanem důrazně doporučeného ''/mnt/h/tmp''. Např. na tauri10 jsem tak počmáral 4 GB a proces skončil, protože příslušný svazek byl plný. Tohle by se mj. mělo opravit i u skriptů pro Joshuu a dalších. Jinak jsem taky mohutně čachroval s žádostí o příděl paměti na clusteru (týká se i skriptu ''qsub.csh''), s konfigurací Maltu atd.

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences