This is an old revision of the document!
Automatická detekce funktorů
Klasifikátor
Varianty pokusů, featury
základní sada
technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun – sempos nelze používat!
aux.rf: aux_forms, aux_m_lemma (trunc)
uzel + parent: Order, Distance
synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém
parent, children, lsibling, rsibling, lsiblings, rsiblings,
children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových
topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc)
left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
varianty
s ef. rodiči místo topologických (eff
)
s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (eff_tree
)
s formémem a jeho částmi jako featurami místo sempos (formeme
) – bude default, protože sempos neznám, dokud nemám funktor
s formémy a diatezí (dia
, dia_tree
)
dělené podle t-lemmatu (tlemma
)
nové featury (??)
zkusit použít oba formémy

nominal (max. 70 featur v selection) + binary
zkusit nedělit to
Výsledky
pokus | datum | bez feature selection | s feature selection |
fug, nominal |
fug-base | 2011-10-04 05:45 | 79.068 | 79.264 |
fug-eff | 2011-10-04 05:30 | 79.415 | 79.581 |
fug-eff_tree | 2011-10-04 05:10 | 80.139 | 80.524 |
fug-formeme | 2011-10-04 05:47 | 79.203 | 79.525 |
fug-formeme_tree | 2011-10-04 07:40 | 80.005 | 80.368 |
fug-dia | 2011-10-07 03:49 | 79.214 | 79.525 |
fug-dia_tree | 2011-10-07 03:18 | 80.026 | 80.368 |
fug-tlemma | 2011-10-04 03:53 | 78.828 | 80.391 |
fug1-base | 2011-10-05 11:44 | 79.043 | 79.305 |
fug1-eff | 2011-10-05 11:41 | 79.398 | 79.638 |
fug1-eff_tree | 2011-10-05 11:23 | 80.126 | 80.509 |
fug1-formeme | 2011-10-05 14:12 | 78.976 | 79.268 |
fug1-formeme_tree | 2011-10-05 09:34 | 79.773 | 80.088 |
fug1-dia | 2011-10-06 23:51 | 78.989 | 79.270 |
fug1-dia_tree | 2011-10-07 03:22 | 79.786 | 80.090 |
fug1-tlemma | 2011-10-05 00:41 | 78.846 | 80.400 |
fug2-base | 2011-10-05 10:43 | 79.001 | 79.167 |
fug2-eff | 2011-10-05 01:27 | 79.357 | 79.507 |
fug2-eff_tree | 2011-10-05 09:31 | 80.102 | 80.443 |
*fug2-formeme | 2011-10-20 01:08 | 78.831 | 79.188 |
*fug2-formeme_tree | 2011-10-20 01:44 | 79.748 | 80.100 |
*fug2-dia | 2011-10-19 22:41 | 78.836 | 79.188 |
*fug2-dia_tree | 2011-10-19 22:57 | 79.735 | 80.129 |
fug2-tlemma | 2011-10-05 07:43 | 78.838 | 80.209 |
* = Opravená verze 2. formémů (opět trošku snižuje úspěšnost

)
vysvětlení
1. vs. 2. verze formémů – 2. verze dopadá v průměru o chlup hůř
eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
tlemma: v průměru v2 horší, není výrazně zjevné, jaká slova to kazí
pokus | datum | bez feature selection | s feature selection |
fug, nominal |
fug-base | 2011-10-01 18:07 | 87.009 | 87.229 |
fug-eff | 2011-10-01 17:29 | 88.156 | 88.304 |
fug-eff_tree | 2011-10-02 03:55 | 89.182 | 89.363 |
fug-formeme | 2011-10-02 18:43 | 83.129 | 83.477 |
fug-formeme_tree | 2011-10-02 10:05 | 88.589 | 88.923 |
fug-tlemma | 2011-10-02 22:49 | 86.466 | 87.881 |
Koordinační funktory
Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.