[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:funktory [2011/10/20 10:36]
dusek
user:dusek:funktory [2012/07/25 17:06] (current)
dusek
Line 1: Line 1:
-==== Automatická detekce funktorů ====+====== Automatická detekce funktorů ======
  
-=== Klasifikátor ===+===== Klasifikátor =====
   * LibLINEAR, logistic regression   * LibLINEAR, logistic regression
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
  
-=== Varianty pokusů, featury === +===== Varianty pokusů, featury ===== 
-  * vynechané koordinační funktory (měly by se dělat zvlášť) + 
-== základní sada ==+==== základní sada ====
   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
-  * uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun -- **sempos nelze používat!**+  * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
   * aux.rf: aux_forms, aux_m_lemma (trunc)   * aux.rf: aux_forms, aux_m_lemma (trunc)
   * uzel + parent: Order, Distance   * uzel + parent: Order, Distance
-  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém+  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
     * parent, children, lsibling, rsibling, lsiblings, rsiblings,      * parent, children, lsibling, rsibling, lsiblings, rsiblings, 
-  * children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových+  * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
     * ACNPD, ACNPDV, V, R, J     * ACNPD, ACNPDV, V, R, J
-  * topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc)+  * topol. okolí: CoarseTag, form, m_lemma, t_lemma
     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
  
-== varianty ==+==== varianty ==== 
 +  * s formémem a jeho částmi jako featurami nebo bez
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
-  * s formémem a jeho částmi jako featurami místo sempos (''formeme'') -- **bude default, protože sempos neznám, dokud nemám funktor** 
     * vč. stromové varianty (''formeme_tree'')     * vč. stromové varianty (''formeme_tree'')
-  * s formémy a diatezí (''dia'', ''dia_tree''+  * diateze (''dia'', ''dia_tree''
-  * dělené podle t-lemmatu (''tlemma'')+  * dělené podle t-lemmatu (''tlemma''), podle formému rodiče + coap, nedělené
   * //nové featury (??)//   * //nové featury (??)//
     * zkusit použít oba formémy :-)     * zkusit použít oba formémy :-)
-  * nominal (max. 70 featur v selection) + binary +  * nominal (max. 70 featur v selection) + binary + set-aware binary 
-  * zkusit nedělit to+  * featury z vallexu
  
-=== Výsledky ===+==== Výsledky ====
  
 ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
-fug, nominal |||| +fug2-dia_coap-c_fix | 2011-12-01 22:58 77.607 78.383 
-| fug-base | 2011-10-04 05:45 | 79.068 | 79.264 | +fug2-dia_coap-2012-07-24 13:45 77.938 | 78.307 
-| fug-eff | 2011-10-04 05:30 79.415 79.581 +fug2-dia_coap-d_set (set-aware) 2012-07-25 13:08 | 78.034 | 78.357 
-fug-eff_tree | 2011-10-04 05:10 | 80.139 | 80.524 | +fug2-vallex 2012-07-24 13:49 | 79.659 | 80.048 
-fug-formeme | 2011-10-04 05:47 | 79.203 | 79.525 | +| fug2-vallex_all-set (vše set-aware) 2012-07-25 13:08 | 79.688 | 80.004 
-| fug-formeme_tree | 2011-10-04 07:40 | 80.005 | 80.368 | +| fug2-vallex_limited-set (jen vallex set-aware) 2012-07-25 13:09 | 79.636 | 79.995 
-| fug-dia | 2011-10-07 03:49 79.214 | 79.525 | +| fug2-vallex_set (krom vallexu) 2012-07-25 13:35 | 79.762 | 80.041 |
-| fug-dia_tree | 2011-10-07 03:18 | 80.026 | 80.368 | +
-| fug-tlemma | 2011-10-04 03:53 | 78.828 | 80.391 +
-fug1-base | 2011-10-05 11:44 | 79.043 | 79.305 | +
-fug1-eff | 2011-10-05 11:41 | 79.398 | 79.638 | +
-| fug1-eff_tree | 2011-10-05 11:23 | 80.126 | 80.509 | +
-| fug1-formeme | 2011-10-05 14:12 | 78.976 | 79.268 | +
-| fug1-formeme_tree | 2011-10-05 09:34 | 79.773 | 80.088 | +
-| fug1-dia | 2011-10-06 23:51 | 78.989 | 79.270 +
-fug1-dia_tree 2011-10-07 03:22 | 79.786 | 80.090 | +
-| fug1-tlemma | 2011-10-05 00:41 | 78.846 | 80.400 +
-| fug2-base | 2011-10-05 10:43 79.001 | 79.167 | +
-| fug2-eff | 2011-10-05 01:27 | 79.357 | 79.507 | +
-| fug2-eff_tree | 2011-10-05 09:31 | 80.102 | 80.443 +
-*fug2-formeme | 2011-10-20 01:08 78.831 | 79.188 | +
-| *fug2-formeme_tree | 2011-10-20 01:44 | 79.748 | 80.100 | +
-| *fug2-dia | 2011-10-19 22:41 | 78.836 | 79.188 +
-*fug2-dia_tree 2011-10-19 22:57 | 79.735 | 80.129 | +
-| fug2-tlemma | 2011-10-05 07:43 | 78.838 | 80.209 |+
  
-  * * = Opravená verze 2formémů (opět trošku snižuje úspěšnost :-( )+  * proč je featselection tak neúčinná ? 
 +    * chce to víc featur ?
  
-== vysvětlení == +==== Vysvětlení ====
-  * 1. vs. 2. verze formémů -- 2. verze dopadá v průměru o chlup hůř +
-    * není problémem n:X ?+
   * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší   * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
     * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)     * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
   * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo   * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
-  * tlemma: v průměru v2 horšínení výrazně zjevnéjaká slova to kazí+  * set (set-aware) nemá skoro vlivněkde pomáháněkde škodí; proč?
  
-== výsledky na zlatých parsech -- bez formémů ==+==== Výsledky na zlatých parsech ====
  
-pokus datum bez feature selection ^ s feature selection +jazyk varianta výsledek 
-fug, nominal |||| +CS nosplit     87.505 
-fug-base 2011-10-01 18:07 | 87.009 | 87.229 +CS morph-split | 87.714 
-fug-eff 2011-10-01 17:29 | 88.156 88.304 +CS formemes    | 88.524  
-fug-eff_tree 2011-10-02 03:55 89.182 | 89.363 +| EN | nosplit     | 80.555 
-fug-formeme 2011-10-02 18:43 83.129 83.477 +EN morph-split 80.752 
-fug-formeme_tree 2011-10-02 10:05 88.589 88.923 +EN formemes    | 81.828 |  
-fug-tlemma 2011-10-02 22:49 86.466 | 87.881 |+ 
 +  * vždy zlatá struktura a pravidlové formémy k tomu 
 +  * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21) 
 +  * bez feature selection 
 + 
 +== Nastavení parametrů == 
 + 
 +  * Bez feature selection vychází nejlíp: 
 + 
 +^ typ ^ cost ^ term. criterion ^ 
 +| adj | 1 / 2 0.| 
 +| adv | 1 | 0.03 
 +v, n 0.01 | 
 +| ??? | 1 | 0.
 +| - | 0.003 / 0.03 | 
 + 
 +== Poučení ==
  
-  * omylem získané +  * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) 
-  * je vidětže když se formémy vynechají, dopadá pokus na nich založený hůře+  * Pozor na overtraining, zvlášť u hodně řídkých případů (adjadv) 
 +  * Pozor na data, ať v nich není nic, co je známé až potom
  
 +=== Koordinační funktory ===
  
 +  * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
 +  * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.

[ Back to the navigation ] [ Back to the content ]