[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:dusek:funktory [2011/09/29 14:10]
dusek vytvořeno
user:dusek:funktory [2011/10/27 12:50]
dusek
Line 4: Line 4:
   * LibLINEAR, logistic regression   * LibLINEAR, logistic regression
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
- 
  
 === Varianty pokusů, featury === === Varianty pokusů, featury ===
-  vynechané koordinační funktory (měly by se dělat zvlášť+ 
-  * základní (''base''): +== základní sada == 
-    * +  technické: sent_id, word_id, parent, nodetype, is_generated (+functor
 +  * uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun -- **sempos nelze používat!** 
 +  * aux.rfaux_forms, aux_m_lemma (trunc) 
 +  * uzel + parent: Order, Distance 
 +  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém 
 +    * parent, children, lsibling, rsibling, lsiblings, rsiblings,  
 +  * children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových 
 +    * ACNPD, ACNPDV, V, R, J 
 +  * topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc) 
 +    * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3 
 + 
 +== varianty ==
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
-  * s formémem a jeho částmi jako featurami místo sempos (''formeme'') -- **bude časem default, protože sempos neznám, dokud nemám funktor**+  * s formémem a jeho částmi jako featurami místo sempos (''formeme'') -- **bude default, protože sempos neznám, dokud nemám funktor** 
 +    * vč. stromové varianty (''formeme_tree''
 +  * s formémy a diatezí (''dia'', ''dia_tree'')
   * dělené podle t-lemmatu (''tlemma'')   * dělené podle t-lemmatu (''tlemma'')
   * //nové featury (??)//   * //nové featury (??)//
 +    * zkusit použít oba formémy :-)
 +  * nominal (max. 70 featur v selection) + binary
 +  * zkusit nedělit to
  
 === Výsledky === === Výsledky ===
  
-^ datum ^ pokus ^ bez feature selection ^ s feature selection ^ +^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ 
-| fug-base | 2011-09-27 21:31 | 79.278 | 79.318 +| fug, nominal |||| 
-| fug-eff | 2011-09-27 21:41 | 79.513 | 79.742 +| fug-base | 2011-10-04 05:45 | 79.068 | 79.264 
-| fug-eff_tree | 2011-09-27 21:41 | 79.724 | 79.901 +| fug-eff | 2011-10-04 05:30 | 79.415 | 79.581 
-| fug-formeme | 2011-09-29 09:52 | 79.242 | 79.694 +| fug-eff_tree | 2011-10-04 05:10 | 80.139 | 80.524 | 
-| fug-tlemma | 2011-09-27 00:21 | 78.605 | 80.019 +| fug-formeme | 2011-10-04 05:47 | 79.203 | 79.525 
-| fug2-base | 2011-09-27 20:03 | 79.096 | 79.290 +| fug-formeme_tree | 2011-10-04 07:40 | 80.005 | 80.368 | 
-| fug2-eff | 2011-09-27 22:03 | 79.471 | 79.612 +| fug-dia | 2011-10-07 03:49 | 79.214 | 79.525 | 
-| fug2-eff_tree | 2011-09-28 03:49 | 79.727 | 79.860 +| fug-dia_tree | 2011-10-07 03:18 | 80.026 | 80.368 
-| fug2-formeme | 2011-09-29 08:04 | 78.989 | 79.308 +| fug-tlemma | 2011-10-04 03:53 | 78.828 | 80.391 | 
-| fug2-tlemma | 2011-09-27 20:35 | 78.501 79.775 |+| fug1-base | 2011-10-05 11:44 | 79.043 | 79.305 | 
 +| fug1-eff | 2011-10-05 11:41 | 79.398 | 79.638 | 
 +| fug1-eff_tree | 2011-10-05 11:23 | 80.126 | 80.509 | 
 +| fug1-formeme | 2011-10-05 14:12 | 78.976 | 79.268 | 
 +| fug1-formeme_tree | 2011-10-05 09:34 | 79.773 | 80.088 | 
 +| fug1-dia | 2011-10-06 23:51 | 78.989 | 79.270 | 
 +| fug1-dia_tree | 2011-10-07 03:22 | 79.786 | 80.090 | 
 +| fug1-tlemma | 2011-10-05 00:41 | 78.846 | 80.400 
 +| fug2-base | 2011-10-05 10:43 | 79.001 | 79.167 
 +| fug2-eff | 2011-10-05 01:27 | 79.357 | 79.507 
 +| fug2-eff_tree | 2011-10-05 09:31 | 80.102 | 80.443 | 
 +| *fug2-formeme | 2011-10-20 01:08 | 78.831 | 79.188 | 
 +| *fug2-formeme_tree | 2011-10-20 01:44 | 79.748 | 80.100 
 +*fug2-dia | 2011-10-19 22:41 | 78.836 | 79.188 | 
 +| *fug2-dia_tree | 2011-10-19 22:57 | 79.735 | 80.129 
 +| fug2-tlemma | 2011-10-05 07:43 | 78.838 80.209 |
  
 +  * * = Opravená verze 2. formémů (opět trošku snižuje úspěšnost :-( )
 +  * výsledky jsou zkreslené, protože nodetype se nastavoval podle funktorů, takže zvyšoval úspěšnost :-(.
  
 +== Vysvětlení ==
 +  * 1. vs. 2. verze formémů -- 2. verze dopadá v průměru o chlup hůř
 +    * není problémem n:X ?
 +  * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
 +    * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
 +  * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
 +  * tlemma: v průměru v2 horší, není výrazně zjevné, jaká slova to kazí
  
 +== Výsledky na zlatých parsech -- bez formémů ==
  
 +^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
 +| fug, nominal ||||
 +| fug-base | 2011-10-01 18:07 | 87.009 | 87.229 |
 +| fug-eff | 2011-10-01 17:29 | 88.156 | 88.304 |
 +| fug-eff_tree | 2011-10-02 03:55 | 89.182 | 89.363 |
 +| fug-formeme | 2011-10-02 18:43 | 83.129 | 83.477 |
 +| fug-formeme_tree | 2011-10-02 10:05 | 88.589 | 88.923 |
 +| fug-tlemma | 2011-10-02 22:49 | 86.466 | 87.881 |
  
 +  * omylem získané
 +  * je vidět, že když se formémy vynechají, dopadá pokus na nich založený hůře
  
 +== Nastavení parametrů ==
  
 +  * Bez feature selection vychází nejlíp:
  
 +^ typ ^ cost ^ term. criterion ^
 +| adj | 1 / 2 | 0.1 |
 +| adv | 1 | 0.03 |
 +| v, n | 1 | 0.01 |
 +| ??? | 1 | 0.1 |
 +| - | 1 | 0.003 / 0.03 |
  
 +== Poučení ==
  
 +  * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%)
 +  * Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv)
 +  * Pozor na data, ať v nich není nic, co je známé až potom
  
 +=== Koordinační funktory ===
  
 +  * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
 +  * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.

[ Back to the navigation ] [ Back to the content ]