[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:dusek:funktory [2011/09/29 16:19]
dusek
user:dusek:funktory [2012/07/24 13:51]
dusek
Line 1: Line 1:
-==== Automatická detekce funktorů ====+====== Automatická detekce funktorů ======
  
-=== Klasifikátor ===+===== Klasifikátor =====
   * LibLINEAR, logistic regression   * LibLINEAR, logistic regression
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
  
 +===== Varianty pokusů, featury =====
  
-=== Varianty pokusů, featury === +==== základní sada ====
-  * vynechané koordinační funktory (měly by se dělat zvlášť) +
-== základní sada ==+
   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
-  * uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun -- **sempos nelze používat!**+  * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
   * aux.rf: aux_forms, aux_m_lemma (trunc)   * aux.rf: aux_forms, aux_m_lemma (trunc)
   * uzel + parent: Order, Distance   * uzel + parent: Order, Distance
-  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém+  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
     * parent, children, lsibling, rsibling, lsiblings, rsiblings,      * parent, children, lsibling, rsibling, lsiblings, rsiblings, 
-  * children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových+  * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
     * ACNPD, ACNPDV, V, R, J     * ACNPD, ACNPDV, V, R, J
-  * topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc)+  * topol. okolí: CoarseTag, form, m_lemma, t_lemma
     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
-== varianty ==+ 
 +==== varianty ==== 
 +  * s formémem a jeho částmi jako featurami nebo bez
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
-  s formémem a jeho částmi jako featurami místo sempos (''formeme''-- **bude časem defaultprotože sempos neznám, dokud nemám funktor** +    vč. stromové varianty (''formeme_tree'') 
-  * dělené podle t-lemmatu (''tlemma'')+  diateze (''dia''''dia_tree'') 
 +  * dělené podle t-lemmatu (''tlemma''), podle formému rodiče + coap, nedělené
   * //nové featury (??)//   * //nové featury (??)//
-  * nominal (max. 70 featur v selection) + binary +    * zkusit použít oba formémy :-) 
-=== Výsledky ===+  * nominal (max. 70 featur v selection) + binary + set-aware binary 
 +  * featury z vallexu 
 + 
 +==== Výsledky ====
  
 ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
-fug, nominal |||| +fug2-dia_coap-c_fix | 2011-12-01 22:58 77.607 78.383 
-| fug-base | 2011-09-27 21:31 79.278 79.318 +fug2-dia_coap-d     2012-07-24 13:45 77.938 78.307 
-fug-eff 2011-09-27 21:41 79.513 79.742 +fug2-vallex         2012-07-24 13:49 | 79.659 80.048 
-fug-eff_tree 2011-09-27 21:41 | 79.724 79.901 + 
-| fug-formeme | 2011-09-29 09:52 79.242 79.694 +  * TODO: set-aware 
-fug-tlemma 2011-09-27 00:21 78.605 | 80.019 +  * proč je feat. selection tak neúčinná ? 
-fug2-base 2011-09-27 20:03 79.096 79.290 + 
-| fug2-eff | 2011-09-27 22:03 | 79.471 79.612 +==== Vysvětlení ==== 
-fug2-eff_tree 2011-09-28 03:49 79.727 79.860 +  * efflepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší 
-fug2-formeme 2011-09-29 08:04 78.989 | 79.308 +    * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace) 
-fug2-tlemma 2011-09-27 20:35 78.501 | 79.775 |+  * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo 
 + 
 +==== Výsledky na zlatých parsech ==== 
 + 
 +^ jazyk ^ varianta ^ výsledek ^ 
 +CS nosplit     | 87.505 
 +CS morph-split 87.714 | 
 +| CS | formemes    | 88.524 |  
 +| EN | nosplit     | 80.555 
 +EN morph-split 80.752 | 
 +| EN | formemes    | 81.828 |  
 + 
 +  * vždy zlatá struktura a pravidlové formémy k tomu 
 +  * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21) 
 +  * bez feature selection 
 + 
 +== Nastavení parametrů == 
 + 
 +  * Bez feature selection vychází nejlíp: 
 + 
 +^ typ ^ cost ^ termcriterion ^ 
 +adj | 1 / 2 | 0.
 +adv 0.03 | 
 +| v, n | 1 | 0.01 
 +??? 0.
 +| - | 0.003 / 0.03 | 
 + 
 +== Poučení == 
 + 
 +  * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) 
 +  * Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv) 
 +  * Pozor na data, ať v nich není nic, co je známé až potom 
 + 
 +=== Koordinační funktory ===
  
-== vysvětlení == +  * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory) 
-  * 2. verze funktorů dává o 1% lepší substantiva, ale mnohem horší adverbia -- proč ?+  * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.

[ Back to the navigation ] [ Back to the content ]