Differences

This shows you the differences between two versions of the page.

--- user:zeman:malt-parser [2013/07/11 18:41]
zeman Aktualizace úkolů.
+++ user:zeman:malt-parser [2013/07/11 18:51]
zeman Ruším popis "švédského spouštění", aktuální stav lze vyčíst ze skriptu all.pl.
@@ Line 5: / Line 5: @@
 Od května 2012 používám Malt Parser 1.7.1 z&nbsp;''/home/zeman/nastroje/parsery/maltparser-1.7.1''.
-Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting triku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k&nbsp;počtu trénovacích příkladů; těch z&nbsp;PDT vypadnou asi 3 milióny. (S&nbsp;Joakimem jsem se o tom bavil na jaře 2010 a šlo o Malt Parser 1.3.)
+Podle Joakima trénování na celém PDT trvá 3 až 5 dní, a to ještě jen při použití splitting tricku (bez něj několik týdnů). Trénování SVM má kvadratickou složitost vzhledem k&nbsp;počtu trénovacích příkladů; těch z&nbsp;PDT vypadnou asi 3 milióny. (S&nbsp;Joakimem jsem se o tom bavil na jaře 2010 a šlo o Malt Parser 1.3. Tehdy jsem také zkoušel trénovat bez splitting tricku. Jeden experiment běžel i 60 dní, řada experimentů ale vůbec nedoběhla, protože jejich stroj cestou chcípnul.)
 Celá trénovací data mají 68562 vět (někde mám chybně uvedeno 68563 kvůli nejasnostem s&nbsp;počítáním od nuly a od jedničky, ale teď jsem to kontroloval a dvojím způsobem přepočítával prázdné řádky v&nbsp;souboru ''dtrain.conll'' a je to opravdu 68562). Testování je vždy, když není řečeno jinak, na celém dtestu, tedy 9270 vět. Tam, kde je explicitně uvedeno testování na etestu, jde o 10148 vět; v&nbsp;tom případě pak trénuju na sjednocení trénovacích a d-test dat, celkem 77832 vět.
@@ Line 26: / Line 26: @@
 ===== Nové výsledky s Malt Parserem 1.7 =====
-Měl jsem dva cíle: 1. Natrénovat nové modely, protože ty staré nejsou kompatibilní s novou verzí parseru, a 2. získat výsledky na e-testu, protože dosud jsem pracoval jen s d-testem. I když jsem novou verzi parseru pouštěl se stejnými parametry jako před třemi lety tu starou, dostal jsem jiné výsledky (nepatrně horší).
+Experimenty probíhaly v&nbsp;červnu 2013. Měl jsem dva cíle: 1. Natrénovat nové modely, protože ty staré nejsou kompatibilní s novou verzí parseru, a 2. získat výsledky na e-testu, protože dosud jsem pracoval jen s d-testem. I když jsem novou verzi parseru pouštěl se stejnými parametry jako před třemi lety tu starou, dostal jsem jiné výsledky (nepatrně horší).
 D-test (9270 vět):
@@ Line 64: / Line 64: @@
 | 65000 | 1035255 | 5 dní 21:01 h | 31378 s = 8:43 h | 1 věta / 3,38 s | 85,96 % | 9.-15.4.2010 |
 | 68563 | 1177906, 1305554 | 10 dní 4:40 h | 46999 s = 13:03 h | 1 věta / 5,07 s | **86,08 %** | 27.4.-14.5.2010 |
-Tohle je nejlepší výsledek, jaký jsem zatím s Malt parserem dosáhl, ale se splitting trickem (viz níže) je to téměř stejné a ušetří se dva dny času.
-===== Bez splitting tricku =====
-Trénování bez "splitting tricku" na celých trénovacích datech. Testování je vždy na celém dtestu, tedy 9270 vět.
-| Algoritmus | Délka trénování | Délka parsingu | Rychlost parsingu | Úspěšnost |
-| nivreeager | 24 dní 17 hodin 13 minut (2135575 s) | 180062 s (50:01 hodin) | 1 věta / 19,4 s | 80,73 % |
-| nivrestandard | 32 dní 16 hodin 47 minut (2825227 s) | 225021 s (62:30 hodin) | 1 věta / 24,3 s | 79,98 % |
-| covproj | 60 dní 15 hodin 28 minut (5239706 s) | 348001 s (96:40 hodin) | 1 věta / 37,5 s | 79,69 % |
-| covnonproj | Skončilo restartem fireball6 někdy v lednu nebo únoru 2010. V ''/tmp'' bohužel nezůstala po výpočtu žádná stopa. | | | |
-| stackproj | 42 dní 12 hodin 55 minut (3675303 s) | 183676 s (51:01 hodin) | 1 věta / 19,8 s | 78,49 % |
-| stacklazy | Skončilo chybou Java VM (''memcpy'') po 36 dnech 14 hodinách 21 minutách | | | |
-| stackeager | 39 dní 11 hodin 38 minut (3375472 s) | 227927 s (63:19 hodin) | 1 věta / 24,6 s | 82,93 % |
-===== Nastavení od Švédů =====
-.3.2010 po měsíci další pokus pustit to na datech upravených stejným způsobem a se stejnými rysy jako Joakim a Marco.
-<code>foreach i (1000 2000 5000 10000 20000 50000)
-  $PARSINGROOT/malt-parser/marco-kuhlmann-czech-settings/conll-pdttags2conll.pl < dtrain-$i.conll > dtrain-$i.conll2009tags.conll
-end
-foreach i (dtrain dtest)
-  $PARSINGROOT/malt-parser/marco-kuhlmann-czech-settings/conll-pdttags2conll.pl < $i.conll > $i.conll2009tags.conll
-end
-foreach i (25000 30000 35000 40000 45000 55000 60000 65000)
-  split_conll.pl < dtrain.conll2009tags.conll -head $i dtrain-$i.conll2009tags.conll /dev/null
-end</code>
-Učení:
-<code>qsub.csh mf=31g $PARSINGROOT/malt-parser/scripts/train.pl '<' dtrain-1000.conll2009tags.conll1 '>' d.pokus1000-30g-clibsvm.mco</code>
-Rozbor:
-<code>qsub.csh mf=31g $PARSINGROOT/malt-parser/scripts/parse.pl -g d.pokus1000-30g-clibsvm.mco '<' dtest.conll2009tags.conll '>' dtest.malt-pokus1000-30g-clibsvm.conll</code>
-Vyhodnocení:
-<code>$PARSINGROOT/tools/conll-eval07.pl -g dtest.conll2009tags.conll -s dtest.malt-pokus1000-30g-clibsvm.conll > dtest.malt-pokus1000-30g-clibsvm.eval.txt</code>
 ===== Trénování větších modelů s céčkovou implementací libsvm padá =====

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences