[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:vystadial:flect [2012/12/03 13:41]
dusek
user:dusek:vystadial:flect [2013/01/29 11:14] (current)
dusek
Line 4: Line 4:
 2012-11-27 09:53:07,196 Loaded. Vectorizing... 2012-11-27 09:53:07,196 Loaded. Vectorizing...
 2012-11-27 09:55:51,228 Data shape (652544, 301784) 2012-11-27 09:55:51,228 Data shape (652544, 301784)
-/home/odusek/.local-x86_64/lib/python2.7/site-packages/sklearn/feature_selection/univariate_selection.py:94: RuntimeWarning: divide by zero encountered in divide +/home/odusek/.local-x86_64/lib/python2.7/site-packages/sklearn/feature_selection/univariate_selection.py:94: RuntimeWarning: divide by zero encountered in divide  f = msb / msw
-  f = msb / msw+
 2012-11-27 09:56:28,985 Filt shape (652544, 30183) 2012-11-27 09:56:28,985 Filt shape (652544, 30183)
 2012-11-27 09:56:28,986 Training ... 2012-11-27 09:56:28,986 Training ...
Line 16: Line 15:
   * Accuracy: 97.38 %   * Accuracy: 97.38 %
   * Nejvíc to kazí adjektiva (AAFS7 -í x -ím, -á x -é)   * Nejvíc to kazí adjektiva (AAFS7 -í x -ím, -á x -é)
 +
 +**Oddělení modelů pro slovní druhy**
 +  * 6.12.2012
 +  * acc. 0.9779
 +
 +
 +** Přeprogramování trénování **
 +
 +2012-12-18 11:14:06,606 TREEX-INFO: Loading data set from data/train.arff.gz...
 +2012-12-18 11:16:20,214 TREEX-INFO: Preparing data set...
 +2012-12-18 11:18:04,516 TREEX-INFO: Filtering...
 +/home/odusek/.local-x86_64/lib/python2.7/site-packages/sklearn/feature_selection/univariate_selection.py:94: RuntimeWarning: divide by zero encountered in divide  f = msb / msw
 +2012-12-18 11:18:24,378 TREEX-INFO: Training...
 +2012-12-18 17:26:14,641 TREEX-INFO: Training done.
 +2012-12-18 17:26:14,887 TREEX-INFO: Evaluation on file: data/dtest.arff.gz
 +2012-12-18 17:27:26,209 TREEX-INFO: Score: 0.980986043551
 +2012-12-18 17:27:26,210 TREEX-INFO: Saving model to file runs/train-plain/model.pickle.gz
 +2012-12-18 17:28:30,627 TREEX-INFO: Model successfully saved.
 +
 +
 +** Trénování na datech vyprodukovaných v pythonu **
 +
 +andromeda2:~/od-playground/test/exp-flect$ ../../src/experiment/train_model.py runs/train-plain_pydata/config.py data/train.arff.gz runs/train-plain_pydata/model.pickle.gz data/dtest.arff.gz runs/train-plain_pydata/classif.arff.gz
 +2013-01-04 13:28:17,539 TREEX-INFO: Loading data set from data/train.arff.gz...
 +2013-01-04 13:29:56,363 TREEX-INFO: Preparing data set...
 +2013-01-04 13:31:04,559 TREEX-INFO: Filtering...
 +/home/odusek/.local-x86_64/lib/python2.7/site-packages/sklearn/feature_selection/univariate_selection.py:94: RuntimeWarning: divide by zero encountered in divide  f = msb / msw
 +2013-01-04 13:31:49,558 TREEX-INFO: Training...
 +2013-01-05 00:55:21,004 TREEX-INFO: Training done.
 +2013-01-05 00:55:21,374 TREEX-INFO: Evaluation on file: data/dtest.arff.gz
 +2013-01-05 00:56:10,144 TREEX-INFO: Score: 0.961291064956
 +2013-01-05 00:56:10,149 TREEX-INFO: Saving model to file runs/train-plain_pydata/model.pickle.gz
 +2013-01-05 00:57:22,448 TREEX-INFO: Model successfully saved.
 +
 +** Výsledky pro různé parametry logreg **
 +
 +  * Nepomáhá příliš malé C = 0.1, ani příliš malé tol = 0.1
 +  * Spíš ani C = 1 není nic moc, C = 10 nebo 100 je mnohem lepší
 +  * Tol taky radši = 0.001 nebo 0.0001
 +  * Na L2 / L1 druhu regularizace zřejmě moc nezávisí
 +  * Rozpětí 96.92 - 94.01, naprostá většina nad 96.5
 +  * L2 regularizace tvoří nechutně velké modely, L1 jsou mnooohem menší
 +
 +  train-l2_1000_001.py.o6633181:2013-01-11 03:15:37,871 TREEX-INFO: Score: 0.968472611875
 +  train-l1_100_0001.py.o6633154:2013-01-10 18:35:26,878 TREEX-INFO: Score: 0.968484109828
 +  train-l1_100_00001.py.o6633155:2013-01-11 04:25:29,295 TREEX-INFO: Score: 0.968886538196
 +  train-l1_10_0001.py.o6633150:2013-01-11 08:14:22,650 TREEX-INFO: Score: 0.96910499931
 +  train-l1_10_00001.py.o6633151:2013-01-11 03:05:33,517 TREEX-INFO: Score: 0.969254472704
 +
 +** Použití SVM **
 +  * Lineární SVM -- trvá dýl trénování, jinak není rozdíl -- nedosahují ani nejlepších výsledků.
 +    * hlavně s L2 je dlouhé.
 +
 +  train-l1_l2_1_False_0001.py.o6636505:2013-01-12 21:33:26,919 TREEX-INFO: Score: 0.964501467119
 +  train-l2_l2_1_False_0001.py.o6636541:2013-01-14 16:01:52,936 TREEX-INFO: Score: 0.964363385306
 +  train-l2_l2_10_False_0001.py.o6636544:2013-01-14 06:30:18,333 TREEX-INFO: Score: 0.964363385306
 +  train-l1_l2_1_False_00001.py.o6636506:2013-01-13 09:29:26,141 TREEX-INFO: Score: 0.964363385306
 +
 +  * Normální SVC s 16G paměti spadne
 +  * S 32G to doběhne, ale s mizivým výsledkem
 +
 +** Zkrácení sufixů a filtrace **
 +
 +  * Bez použití teček se prodlouží trénování, zatím L2 vyhrává
 +  * Pokud se sufixy zkrátí na 4 znaky, funguje to dobře -- ale jen bez filtrování; s ním je to už moc slabé
 +  * Bez filtrování to funguje dobře
 +
 +** Nové experimenty, předchozí měly formu jako featuru **
 +
 +  * Na auto-python max. 93.6, na gold 97.8.
 +  * Stačí 4 znaky ze suffixu, nepřítomnost lemmatu to moc nezhoršuje.
 +  * Na OOV-gold lemma: 92.3, OOV-forms: 89.2
 +    * U OOV-forms je vidět, že hrozně chyb9 lepší featury, protože to často dostává relativně vhodné formy, ale špatný pád/rod/číslo
 +
 +** Složené featury **
 +
 +  * Na gold 99.4
 +
 +
 +** SVM **
 +
 +  * při použití vah instancí se v pohodě natrénují, na gold bez složených featur dávají 98.7 (RBF, C=100, gamma=0.01)

[ Back to the navigation ] [ Back to the content ]