Automatická detekce funktorů

Klasifikátor

technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
aux.rf: aux_forms, aux_m_lemma (trunc)
uzel + parent: Order, Distance
synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
- parent, children, lsibling, rsibling, lsiblings, rsiblings,
children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
- ACNPD, ACNPDV, V, R, J
topol. okolí: CoarseTag, form, m_lemma, t_lemma
- left 3, 2, 2+1, 1, right 1, 1+2, 2, 3

s formémem a jeho částmi jako featurami nebo bez
s ef. rodiči místo topologických (eff)
s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (eff_tree)
- vč. stromové varianty (formeme_tree)
diateze (dia, dia_tree)
dělené podle t-lemmatu (tlemma), podle formému rodiče + coap, nedělené
nové featury (??)
- zkusit použít oba formémy
nominal (max. 70 featur v selection) + binary + set-aware binary
featury z vallexu

pokus	datum	bez feature selection	s feature selection
fug2-dia_coap-c_fix	2011-12-01 22:58	77.607	78.383
fug2-dia_coap-d	2012-07-24 13:45	77.938	78.307
fug2-dia_coap-d_set (set-aware)	2012-07-25 13:08	78.034	78.357
fug2-vallex	2012-07-24 13:49	79.659	80.048
fug2-vallex_all-set (vše set-aware)	2012-07-25 13:08	79.688	80.004
fug2-vallex_limited-set (jen vallex set-aware)	2012-07-25 13:09	79.636	79.995
fug2-vallex_set (krom vallexu)	2012-07-25 13:35	79.762	80.041

eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
- protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč?

vždy zlatá struktura a pravidlové formémy k tomu
české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21)
bez feature selection

Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.