[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:funktory [2011/10/03 15:56]
dusek
user:dusek:funktory [2012/07/25 17:06] (current)
dusek
Line 1: Line 1:
-==== Automatická detekce funktorů ====+====== Automatická detekce funktorů ======
  
-=== Klasifikátor ===+===== Klasifikátor =====
   * LibLINEAR, logistic regression   * LibLINEAR, logistic regression
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
  
-=== Varianty pokusů, featury === +===== Varianty pokusů, featury ===== 
-  * vynechané koordinační funktory (měly by se dělat zvlášť) + 
-== základní sada ==+==== základní sada ====
   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
-  * uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun -- **sempos nelze používat!**+  * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
   * aux.rf: aux_forms, aux_m_lemma (trunc)   * aux.rf: aux_forms, aux_m_lemma (trunc)
   * uzel + parent: Order, Distance   * uzel + parent: Order, Distance
-  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém+  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
     * parent, children, lsibling, rsibling, lsiblings, rsiblings,      * parent, children, lsibling, rsibling, lsiblings, rsiblings, 
-  * children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových+  * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
     * ACNPD, ACNPDV, V, R, J     * ACNPD, ACNPDV, V, R, J
-  * topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc)+  * topol. okolí: CoarseTag, form, m_lemma, t_lemma
     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
  
-== varianty ==+==== varianty ==== 
 +  * s formémem a jeho částmi jako featurami nebo bez
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
-  s formémem a jeho částmi jako featurami místo sempos (''formeme''-- **bude časem defaultprotože sempos neznám, dokud nemám funktor** +    vč. stromové varianty (''formeme_tree'') 
-  * dělené podle t-lemmatu (''tlemma'')+  diateze (''dia''''dia_tree'') 
 +  * dělené podle t-lemmatu (''tlemma''), podle formému rodiče + coap, nedělené
   * //nové featury (??)//   * //nové featury (??)//
     * zkusit použít oba formémy :-)     * zkusit použít oba formémy :-)
-  * nominal (max. 70 featur v selection) + binary +  * nominal (max. 70 featur v selection) + binary + set-aware binary 
-  * zkusit nedělit to+  * featury z vallexu
  
-=== Výsledky ===+==== Výsledky ====
  
 ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
-fug, nominal |||| +fug2-dia_coap-c_fix | 2011-12-01 22:58 77.607 78.383 
-| fug-base | 2011-09-27 21:31 79.278 79.318 +fug2-dia_coap-2012-07-24 13:45 77.938 78.307 
-fug-eff | 2011-09-27 21:41 | 79.513 | 79.742 | +fug2-dia_coap-d_set (set-aware) 2012-07-25 13:08 | 78.034 78.357 
-fug-eff_tree | 2011-09-27 21:41 79.724 79.901 +| fug2-vallex 2012-07-24 13:49 | 79.659 80.048 
-fug-formeme | 2011-09-29 09:52 79.242 | 79.694 | +| fug2-vallex_all-set (vše set-aware) 2012-07-25 13:08 | 79.688 80.004 
-| fug-tlemma | 2011-09-27 00:21 | 78.605 80.019 +| fug2-vallex_limited-set (jen vallex set-aware) 2012-07-25 13:09 | 79.636 | 79.995 
-| fug2-base 2011-09-27 20:03 | 79.096 79.290 +| fug2-vallex_set (krom vallexu) 2012-07-25 13:35 | 79.762 80.041 |
-| fug2-eff 2011-09-27 22:03 | 79.471 79.612 +
-| fug2-eff_tree | 2011-09-28 03:49 79.727 | 79.860 | +
-| fug2-formeme | 2011-09-29 08:04 78.989 | 79.308 +
-| fug2-tlemma 2011-09-27 20:35 | 78.501 79.775 |+
  
-== vysvětlení == +  * proč je feat. selection tak neúčinná ? 
-  * 1. vs. 2. verze formémů -- o trošku lepší arg. subst., jiné horší +    * chce to víc featur ? 
-    * u eff_tree jsou lepší všechny až na bez sempos a slovesa + 
-  * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu, ostatní jsou spíš horší+==== Vysvětlení ==== 
 +  * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
     * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)     * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
-  * tlemma: v průměru v2 horší, není výrazně zjevnéjaká slova to kazí+  * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti slovesjinak nikdo 
 +  * set (set-aware) nemá skoro vliv, někde pomáháněkde škodí; proč?
  
-== výsledky na zlatých parsech -- bez formémů ==+==== Výsledky na zlatých parsech ====
  
-pokus datum bez feature selection ^ s feature selection +jazyk varianta výsledek 
-fug, nominal |||| +CS nosplit     87.505 
-fug-base 2011-10-01 18:07 | 87.009 | 87.229 +CS morph-split | 87.714 
-fug-eff 2011-10-01 17:29 | 88.156 88.304 +CS formemes    | 88.524  
-fug-eff_tree 2011-10-02 03:55 89.182 | 89.363 +| EN | nosplit     | 80.555 
-fug-formeme 2011-10-02 18:43 83.129 83.477 +EN morph-split 80.752 
-fug-formeme_tree 2011-10-02 10:05 88.589 88.923 +EN formemes    | 81.828 |  
-fug-tlemma 2011-10-02 22:49 86.466 | 87.881 |+ 
 +  * vždy zlatá struktura a pravidlové formémy k tomu 
 +  * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21) 
 +  * bez feature selection 
 + 
 +== Nastavení parametrů == 
 + 
 +  * Bez feature selection vychází nejlíp: 
 + 
 +^ typ ^ cost ^ term. criterion ^ 
 +| adj | 1 / 2 0.| 
 +| adv | 1 | 0.03 
 +v, n 0.01 | 
 +| ??? | 1 | 0.
 +| - | 0.003 / 0.03 | 
 + 
 +== Poučení ==
  
-  * omylem získané +  * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) 
-  * je vidětže když se formémy vynechají, dopadá pokus na nich založený hůře+  * Pozor na overtraining, zvlášť u hodně řídkých případů (adjadv) 
 +  * Pozor na data, ať v nich není nic, co je známé až potom
  
 +=== Koordinační funktory ===
  
 +  * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
 +  * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.

[ Back to the navigation ] [ Back to the content ]