[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:funktory [2011/09/29 16:19]
dusek
user:dusek:funktory [2012/07/25 17:06] (current)
dusek
Line 1: Line 1:
-==== Automatická detekce funktorů ====+====== Automatická detekce funktorů ======
  
-=== Klasifikátor ===+===== Klasifikátor =====
   * LibLINEAR, logistic regression   * LibLINEAR, logistic regression
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
  
 +===== Varianty pokusů, featury =====
  
-=== Varianty pokusů, featury === +==== základní sada ====
-  * vynechané koordinační funktory (měly by se dělat zvlášť) +
-== základní sada ==+
   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
-  * uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun -- **sempos nelze používat!**+  * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
   * aux.rf: aux_forms, aux_m_lemma (trunc)   * aux.rf: aux_forms, aux_m_lemma (trunc)
   * uzel + parent: Order, Distance   * uzel + parent: Order, Distance
-  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém+  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
     * parent, children, lsibling, rsibling, lsiblings, rsiblings,      * parent, children, lsibling, rsibling, lsiblings, rsiblings, 
-  * children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových+  * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
     * ACNPD, ACNPDV, V, R, J     * ACNPD, ACNPDV, V, R, J
-  * topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc)+  * topol. okolí: CoarseTag, form, m_lemma, t_lemma
     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
-== varianty ==+ 
 +==== varianty ==== 
 +  * s formémem a jeho částmi jako featurami nebo bez
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
-  s formémem a jeho částmi jako featurami místo sempos (''formeme''-- **bude časem defaultprotože sempos neznám, dokud nemám funktor** +    vč. stromové varianty (''formeme_tree'') 
-  * dělené podle t-lemmatu (''tlemma'')+  diateze (''dia''''dia_tree'') 
 +  * dělené podle t-lemmatu (''tlemma''), podle formému rodiče + coap, nedělené
   * //nové featury (??)//   * //nové featury (??)//
-  * nominal (max. 70 featur v selection) + binary +    * zkusit použít oba formémy :-) 
-=== Výsledky ===+  * nominal (max. 70 featur v selection) + binary + set-aware binary 
 +  * featury z vallexu 
 + 
 +==== Výsledky ====
  
 ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
-fug, nominal |||| +fug2-dia_coap-c_fix | 2011-12-01 22:58 77.607 78.383 
-| fug-base | 2011-09-27 21:31 79.278 79.318 +fug2-dia_coap-2012-07-24 13:45 77.938 78.307 
-fug-eff 2011-09-27 21:41 79.513 79.742 +fug2-dia_coap-d_set (set-aware) 2012-07-25 13:08 78.034 78.357 
-fug-eff_tree 2011-09-27 21:41 79.724 79.901 +fug2-vallex 2012-07-24 13:49 | 79.659 80.048 
-fug-formeme 2011-09-29 09:52 | 79.242 79.694 +fug2-vallex_all-set (vše set-aware) 2012-07-25 13:08 79.688 | 80.004 
-fug-tlemma 2011-09-27 00:21 78.605 | 80.019 +| fug2-vallex_limited-set (jen vallex set-aware) 2012-07-25 13:09 | 79.636 | 79.995 
-| fug2-base 2011-09-27 20:03 | 79.096 | 79.290 +| fug2-vallex_set (krom vallexu) 2012-07-25 13:35 | 79.762 80.041 
-| fug2-eff 2011-09-27 22:03 | 79.471 79.612 + 
-| fug2-eff_tree 2011-09-28 03:49 79.727 79.860 +  * proč je feat. selection tak neúčinná ? 
-fug2-formeme 2011-09-29 08:04 78.989 79.308 +    * chce to víc featur ? 
-fug2-tlemma 2011-09-27 20:35 78.501 79.775 |+ 
 +==== Vysvětlení ==== 
 +  * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší 
 +    * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace) 
 +  * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo 
 +  * set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč? 
 + 
 +==== Výsledky na zlatých parsech ==== 
 + 
 +^ jazyk ^ varianta ^ výsledek ^ 
 +CS | nosplit     | 87.505 | 
 +| CS | morph-split 87.714 | 
 +| CS | formemes    | 88.524 |  
 +EN | nosplit     | 80.555 | 
 +| EN | morph-split 80.752 | 
 +| EN | formemes    | 81.828 |  
 + 
 +  * vždy zlatá struktura a pravidlové formémy k tomu 
 +  * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21) 
 +  * bez feature selection 
 + 
 +== Nastavení parametrů == 
 + 
 +  * Bez feature selection vychází nejlíp: 
 + 
 +^ typ ^ cost ^ term. criterion ^ 
 +adj | 1 / 2 | 0.| 
 +| adv | 1 | 0.03 
 +v, n 0.01 | 
 +| ??? | 1 | 0.| 
 +| - | 1 | 0.003 / 0.03 | 
 + 
 +== Poučení == 
 + 
 +  * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) 
 +  * Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv) 
 +  * Pozor na data, ať v nich není nic, co je známé až potom 
 + 
 +=== Koordinační funktory ===
  
-== vysvětlení == +  * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory) 
-  * 2. verze funktorů dává o 1% lepší substantiva, ale mnohem horší adverbia -- proč ?+  * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.

[ Back to the navigation ] [ Back to the content ]