Table of Contents
Automatická detekce funktorů
Klasifikátor
- LibLINEAR, logistic regression
- kombinace klasifikátorů – klasifikátorem ?
Varianty pokusů, featury
základní sada
- technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
- uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
- aux.rf: aux_forms, aux_m_lemma (trunc)
- uzel + parent: Order, Distance
- synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split- parent, children, lsibling, rsibling, lsiblings, rsiblings,
 
- children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových- ACNPD, ACNPDV, V, R, J
 
- topol. okolí: CoarseTag, form, m_lemma, t_lemma- left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
 
varianty
- s formémem a jeho částmi jako featurami nebo bez
- s ef. rodiči místo topologických (eff)
- s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (eff_tree)- vč. stromové varianty (formeme_tree)
 
- diateze (dia,dia_tree)
- dělené podle t-lemmatu (tlemma), podle formému rodiče + coap, nedělené
- nové featury (??)- zkusit použít oba formémy 
 
- nominal (max. 70 featur v selection) + binary + set-aware binary
- featury z vallexu
Výsledky
| pokus | datum | bez feature selection | s feature selection | 
|---|---|---|---|
| fug2-dia_coap-c_fix | 2011-12-01 22:58 | 77.607 | 78.383 | 
| fug2-dia_coap-d | 2012-07-24 13:45 | 77.938 | 78.307 | 
| fug2-dia_coap-d_set (set-aware) | 2012-07-25 13:08 | 78.034 | 78.357 | 
| fug2-vallex | 2012-07-24 13:49 | 79.659 | 80.048 | 
| fug2-vallex_all-set (vše set-aware) | 2012-07-25 13:08 | 79.688 | 80.004 | 
| fug2-vallex_limited-set (jen vallex set-aware) | 2012-07-25 13:09 | 79.636 | 79.995 | 
| fug2-vallex_set (krom vallexu) | 2012-07-25 13:35 | 79.762 | 80.041 | 
- proč je feat. selection tak neúčinná ?- chce to víc featur ?
 
Vysvětlení
- eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší- protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
 
- diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
- set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč?
Výsledky na zlatých parsech
| jazyk | varianta | výsledek | 
|---|---|---|
| CS | nosplit | 87.505 | 
| CS | morph-split | 87.714 | 
| CS | formemes | 88.524 | 
| EN | nosplit | 80.555 | 
| EN | morph-split | 80.752 | 
| EN | formemes | 81.828 | 
- vždy zlatá struktura a pravidlové formémy k tomu
- české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21)
- bez feature selection
Nastavení parametrů
- Bez feature selection vychází nejlíp:
| typ | cost | term. criterion | 
|---|---|---|
| adj | 1 / 2 | 0.1 | 
| adv | 1 | 0.03 | 
| v, n | 1 | 0.01 | 
| ??? | 1 | 0.1 | 
| - | 1 | 0.003 / 0.03 | 
Poučení
- Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%)
- Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv)
- Pozor na data, ať v nich není nic, co je známé až potom
Koordinační funktory
- Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
- FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.
