[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:dusek:vystadial:flect [2012/12/19 10:04]
dusek
user:dusek:vystadial:flect [2013/01/25 11:42]
dusek
Line 21: Line 21:
  
  
-*** Přeprogramování trénování ***+** Přeprogramování trénování **
  
 2012-12-18 11:14:06,606 TREEX-INFO: Loading data set from data/train.arff.gz... 2012-12-18 11:14:06,606 TREEX-INFO: Loading data set from data/train.arff.gz...
Line 34: Line 34:
 2012-12-18 17:28:30,627 TREEX-INFO: Model successfully saved. 2012-12-18 17:28:30,627 TREEX-INFO: Model successfully saved.
  
 +
 +** Trénování na datech vyprodukovaných v pythonu **
 +
 +andromeda2:~/od-playground/test/exp-flect$ ../../src/experiment/train_model.py runs/train-plain_pydata/config.py data/train.arff.gz runs/train-plain_pydata/model.pickle.gz data/dtest.arff.gz runs/train-plain_pydata/classif.arff.gz
 +2013-01-04 13:28:17,539 TREEX-INFO: Loading data set from data/train.arff.gz...
 +2013-01-04 13:29:56,363 TREEX-INFO: Preparing data set...
 +2013-01-04 13:31:04,559 TREEX-INFO: Filtering...
 +/home/odusek/.local-x86_64/lib/python2.7/site-packages/sklearn/feature_selection/univariate_selection.py:94: RuntimeWarning: divide by zero encountered in divide  f = msb / msw
 +2013-01-04 13:31:49,558 TREEX-INFO: Training...
 +2013-01-05 00:55:21,004 TREEX-INFO: Training done.
 +2013-01-05 00:55:21,374 TREEX-INFO: Evaluation on file: data/dtest.arff.gz
 +2013-01-05 00:56:10,144 TREEX-INFO: Score: 0.961291064956
 +2013-01-05 00:56:10,149 TREEX-INFO: Saving model to file runs/train-plain_pydata/model.pickle.gz
 +2013-01-05 00:57:22,448 TREEX-INFO: Model successfully saved.
 +
 +** Výsledky pro různé parametry logreg **
 +
 +  * Nepomáhá příliš malé C = 0.1, ani příliš malé tol = 0.1
 +  * Spíš ani C = 1 není nic moc, C = 10 nebo 100 je mnohem lepší
 +  * Tol taky radši = 0.001 nebo 0.0001
 +  * Na L2 / L1 druhu regularizace zřejmě moc nezávisí
 +  * Rozpětí 96.92 - 94.01, naprostá většina nad 96.5
 +  * L2 regularizace tvoří nechutně velké modely, L1 jsou mnooohem menší
 +
 +  train-l2_1000_001.py.o6633181:2013-01-11 03:15:37,871 TREEX-INFO: Score: 0.968472611875
 +  train-l1_100_0001.py.o6633154:2013-01-10 18:35:26,878 TREEX-INFO: Score: 0.968484109828
 +  train-l1_100_00001.py.o6633155:2013-01-11 04:25:29,295 TREEX-INFO: Score: 0.968886538196
 +  train-l1_10_0001.py.o6633150:2013-01-11 08:14:22,650 TREEX-INFO: Score: 0.96910499931
 +  train-l1_10_00001.py.o6633151:2013-01-11 03:05:33,517 TREEX-INFO: Score: 0.969254472704
 +
 +** Použití SVM **
 +  * Lineární SVM -- trvá dýl trénování, jinak není rozdíl -- nedosahují ani nejlepších výsledků.
 +    * hlavně s L2 je dlouhé.
 +
 +  train-l1_l2_1_False_0001.py.o6636505:2013-01-12 21:33:26,919 TREEX-INFO: Score: 0.964501467119
 +  train-l2_l2_1_False_0001.py.o6636541:2013-01-14 16:01:52,936 TREEX-INFO: Score: 0.964363385306
 +  train-l2_l2_10_False_0001.py.o6636544:2013-01-14 06:30:18,333 TREEX-INFO: Score: 0.964363385306
 +  train-l1_l2_1_False_00001.py.o6636506:2013-01-13 09:29:26,141 TREEX-INFO: Score: 0.964363385306
 +
 +  * Normální SVC s 16G paměti spadne
 +  * S 32G to doběhne, ale s mizivým výsledkem
 +
 +** Zkrácení sufixů a filtrace **
 +
 +  * Bez použití teček se prodlouží trénování, zatím L2 vyhrává
 +  * Pokud se sufixy zkrátí na 4 znaky, funguje to dobře -- ale jen bez filtrování; s ním je to už moc slabé
 +  * Bez filtrování to funguje dobře
 +
 +** Nové experimenty, předchozí měly formu jako featuru **
 +
 +  * Na auto-python max. 93.6, na gold 97.8.
 +  * Stačí 4 znaky ze suffixu, nepřítomnost lemmatu to moc nezhoršuje.
 +  * Na OOV-gold lemma: 92.3, OOV-forms: 89.2
 +    * U OOV-forms je vidět, že hrozně chyb9 lepší featury, protože to často dostává relativně vhodné formy, ale špatný pád/rod/číslo

[ Back to the navigation ] [ Back to the content ]