This is an old revision of the document!
Automatická detekce funktorů
Klasifikátor
Varianty pokusů, featury
základní sada
technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun – sempos nelze používat!
aux.rf: aux_forms, aux_m_lemma (trunc)
uzel + parent: Order, Distance
synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém
parent, children, lsibling, rsibling, lsiblings, rsiblings,
children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových
topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc)
left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
varianty
s ef. rodiči místo topologických (eff)
s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (eff_tree)
s formémem a jeho částmi jako featurami místo sempos (formeme) – bude default, protože sempos neznám, dokud nemám funktor
s formémy a diatezí (dia, dia_tree)
dělené podle t-lemmatu (tlemma)
nové featury (??)
zkusit použít oba formémy

nominal (max. 70 featur v selection) + binary
zkusit nedělit to
Výsledky
| pokus | datum | bez feature selection | s feature selection |
| fug2-dia_coap-c_fix | 2011-12-01 22:58 | 77.607 | 78.383 |
Vysvětlení
eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
| pokus | datum | bez feature selection | s feature selection |
| fug, nominal |
| fug-base | 2011-10-01 18:07 | 87.009 | 87.229 |
| fug-eff | 2011-10-01 17:29 | 88.156 | 88.304 |
| fug-eff_tree | 2011-10-02 03:55 | 89.182 | 89.363 |
| fug-formeme | 2011-10-02 18:43 | 83.129 | 83.477 |
| fug-formeme_tree | 2011-10-02 10:05 | 88.589 | 88.923 |
| fug-tlemma | 2011-10-02 22:49 | 86.466 | 87.881 |
Nastavení parametrů
| typ | cost | term. criterion |
| adj | 1 / 2 | 0.1 |
| adv | 1 | 0.03 |
| v, n | 1 | 0.01 |
| ??? | 1 | 0.1 |
| - | 1 | 0.003 / 0.03 |
Poučení
Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%)
Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv)
Pozor na data, ať v nich není nic, co je známé až potom
Koordinační funktory
Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.