[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:dusek:vystadial:flect [2013/01/11 12:05]
dusek
user:dusek:vystadial:flect [2013/01/25 11:42]
dusek
Line 56: Line 56:
   * Na L2 / L1 druhu regularizace zřejmě moc nezávisí   * Na L2 / L1 druhu regularizace zřejmě moc nezávisí
   * Rozpětí 96.92 - 94.01, naprostá většina nad 96.5   * Rozpětí 96.92 - 94.01, naprostá většina nad 96.5
-  +  * L2 regularizace tvoří nechutně velké modely, L1 jsou mnooohem menší 
   train-l2_1000_001.py.o6633181:2013-01-11 03:15:37,871 TREEX-INFO: Score: 0.968472611875   train-l2_1000_001.py.o6633181:2013-01-11 03:15:37,871 TREEX-INFO: Score: 0.968472611875
   train-l1_100_0001.py.o6633154:2013-01-10 18:35:26,878 TREEX-INFO: Score: 0.968484109828   train-l1_100_0001.py.o6633154:2013-01-10 18:35:26,878 TREEX-INFO: Score: 0.968484109828
Line 63: Line 64:
   train-l1_10_00001.py.o6633151:2013-01-11 03:05:33,517 TREEX-INFO: Score: 0.969254472704   train-l1_10_00001.py.o6633151:2013-01-11 03:05:33,517 TREEX-INFO: Score: 0.969254472704
  
 +** Použití SVM **
 +  * Lineární SVM -- trvá dýl trénování, jinak není rozdíl -- nedosahují ani nejlepších výsledků.
 +    * hlavně s L2 je dlouhé.
 +
 +  train-l1_l2_1_False_0001.py.o6636505:2013-01-12 21:33:26,919 TREEX-INFO: Score: 0.964501467119
 +  train-l2_l2_1_False_0001.py.o6636541:2013-01-14 16:01:52,936 TREEX-INFO: Score: 0.964363385306
 +  train-l2_l2_10_False_0001.py.o6636544:2013-01-14 06:30:18,333 TREEX-INFO: Score: 0.964363385306
 +  train-l1_l2_1_False_00001.py.o6636506:2013-01-13 09:29:26,141 TREEX-INFO: Score: 0.964363385306
 +
 +  * Normální SVC s 16G paměti spadne
 +  * S 32G to doběhne, ale s mizivým výsledkem
 +
 +** Zkrácení sufixů a filtrace **
 +
 +  * Bez použití teček se prodlouží trénování, zatím L2 vyhrává
 +  * Pokud se sufixy zkrátí na 4 znaky, funguje to dobře -- ale jen bez filtrování; s ním je to už moc slabé
 +  * Bez filtrování to funguje dobře
 +
 +** Nové experimenty, předchozí měly formu jako featuru **
 +
 +  * Na auto-python max. 93.6, na gold 97.8.
 +  * Stačí 4 znaky ze suffixu, nepřítomnost lemmatu to moc nezhoršuje.
 +  * Na OOV-gold lemma: 92.3, OOV-forms: 89.2
 +    * U OOV-forms je vidět, že hrozně chyb9 lepší featury, protože to často dostává relativně vhodné formy, ale špatný pád/rod/číslo

[ Back to the navigation ] [ Back to the content ]