[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:funktory [2011/09/29 15:10]
dusek
user:dusek:funktory [2012/07/25 17:06] (current)
dusek
Line 1: Line 1:
-==== Automatická detekce funktorů ====+====== Automatická detekce funktorů ======
  
-=== Klasifikátor ===+===== Klasifikátor =====
   * LibLINEAR, logistic regression   * LibLINEAR, logistic regression
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
  
 +===== Varianty pokusů, featury =====
  
-=== Varianty pokusů, featury === +==== základní sada ====
-  * vynechané koordinační funktory (měly by se dělat zvlášť) +
-== základní sada ==+
   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)   * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
-  * uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun+  * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
   * aux.rf: aux_forms, aux_m_lemma (trunc)   * aux.rf: aux_forms, aux_m_lemma (trunc)
   * uzel + parent: Order, Distance   * uzel + parent: Order, Distance
-  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém+  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
     * parent, children, lsibling, rsibling, lsiblings, rsiblings,      * parent, children, lsibling, rsibling, lsiblings, rsiblings, 
-  * children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových+  * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
     * ACNPD, ACNPDV, V, R, J     * ACNPD, ACNPDV, V, R, J
-  * topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc)+  * topol. okolí: CoarseTag, form, m_lemma, t_lemma
     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
-== varianty ==+ 
 +==== varianty ==== 
 +  * s formémem a jeho částmi jako featurami nebo bez
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
-  s formémem a jeho částmi jako featurami místo sempos (''formeme''-- **bude časem defaultprotože sempos neznám, dokud nemám funktor** +    vč. stromové varianty (''formeme_tree'') 
-  * dělené podle t-lemmatu (''tlemma'')+  diateze (''dia''''dia_tree'') 
 +  * dělené podle t-lemmatu (''tlemma''), podle formému rodiče + coap, nedělené
   * //nové featury (??)//   * //nové featury (??)//
-  * nominal (max. 70 featur v selection) + binary+    * zkusit použít oba formémy :-) 
 +  * nominal (max. 70 featur v selection) + binary + set-aware binary 
 +  * featury z vallexu
  
-=== Výsledky ===+==== Výsledky ====
  
 ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
-fug, nominal |||| +fug2-dia_coap-c_fix | 2011-12-01 22:58 77.607 78.383 
-| fug-base | 2011-09-27 21:31 79.278 79.318 +fug2-dia_coap-2012-07-24 13:45 77.938 78.307 
-fug-eff | 2011-09-27 21:41 | 79.513 | 79.742 | +fug2-dia_coap-d_set (set-aware) 2012-07-25 13:08 | 78.034 78.357 
-fug-eff_tree | 2011-09-27 21:41 79.724 79.901 +| fug2-vallex 2012-07-24 13:49 | 79.659 80.048 
-fug-formeme | 2011-09-29 09:52 79.242 | 79.694 | +| fug2-vallex_all-set (vše set-aware) 2012-07-25 13:08 | 79.688 80.004 
-| fug-tlemma | 2011-09-27 00:21 | 78.605 80.019 +| fug2-vallex_limited-set (jen vallex set-aware) 2012-07-25 13:09 | 79.636 | 79.995 
-| fug2-base 2011-09-27 20:03 | 79.096 79.290 +| fug2-vallex_set (krom vallexu) 2012-07-25 13:35 | 79.762 80.041 |
-| fug2-eff 2011-09-27 22:03 | 79.471 79.612 +
-| fug2-eff_tree | 2011-09-28 03:49 79.727 | 79.860 | +
-| fug2-formeme | 2011-09-29 08:04 78.989 | 79.308 +
-| fug2-tlemma 2011-09-27 20:35 | 78.501 79.775 |+
  
 +  * proč je feat. selection tak neúčinná ?
 +    * chce to víc featur ?
  
 +==== Vysvětlení ====
 +  * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
 +    * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
 +  * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
 +  * set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč?
  
 +==== Výsledky na zlatých parsech ====
  
 +^ jazyk ^ varianta ^ výsledek ^
 +| CS | nosplit     | 87.505 |
 +| CS | morph-split | 87.714 |
 +| CS | formemes    | 88.524 | 
 +| EN | nosplit     | 80.555 |
 +| EN | morph-split | 80.752 |
 +| EN | formemes    | 81.828 | 
  
 +  * vždy zlatá struktura a pravidlové formémy k tomu
 +  * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21)
 +  * bez feature selection
  
 +== Nastavení parametrů ==
  
 +  * Bez feature selection vychází nejlíp:
  
 +^ typ ^ cost ^ term. criterion ^
 +| adj | 1 / 2 | 0.1 |
 +| adv | 1 | 0.03 |
 +| v, n | 1 | 0.01 |
 +| ??? | 1 | 0.1 |
 +| - | 1 | 0.003 / 0.03 |
  
 +== Poučení ==
  
 +  * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%)
 +  * Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv)
 +  * Pozor na data, ať v nich není nic, co je známé až potom
  
 +=== Koordinační funktory ===
  
 +  * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
 +  * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.

[ Back to the navigation ] [ Back to the content ]