Table of Contents
Automatická detekce funktorů
Klasifikátor
- LibLINEAR, logistic regression
- kombinace klasifikátorů – klasifikátorem ?
Varianty pokusů, featury
základní sada
- technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
- uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
- aux.rf: aux_forms, aux_m_lemma (trunc)
- uzel + parent: Order, Distance
- synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
- parent, children, lsibling, rsibling, lsiblings, rsiblings,
- children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
- ACNPD, ACNPDV, V, R, J
- topol. okolí: CoarseTag, form, m_lemma, t_lemma
- left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
varianty
- s formémem a jeho částmi jako featurami nebo bez
- s ef. rodiči místo topologických (
eff
) - s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (
eff_tree
)- vč. stromové varianty (
formeme_tree
)
- diateze (
dia
,dia_tree
) - dělené podle t-lemmatu (
tlemma
), podle formému rodiče + coap, nedělené - nové featury (??)
- zkusit použít oba formémy
- nominal (max. 70 featur v selection) + binary + set-aware binary
- featury z vallexu
Výsledky
pokus | datum | bez feature selection | s feature selection |
---|---|---|---|
fug2-dia_coap-c_fix | 2011-12-01 22:58 | 77.607 | 78.383 |
fug2-dia_coap-d | 2012-07-24 13:45 | 77.938 | 78.307 |
fug2-dia_coap-d_set (set-aware) | 2012-07-25 13:08 | 78.034 | 78.357 |
fug2-vallex | 2012-07-24 13:49 | 79.659 | 80.048 |
fug2-vallex_all-set (vše set-aware) | 2012-07-25 13:08 | 79.688 | 80.004 |
fug2-vallex_limited-set (jen vallex set-aware) | 2012-07-25 13:09 | 79.636 | 79.995 |
fug2-vallex_set (krom vallexu) | 2012-07-25 13:35 | 79.762 | 80.041 |
- proč je feat. selection tak neúčinná ?
- chce to víc featur ?
Vysvětlení
- eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
- protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
- diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
- set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč?
Výsledky na zlatých parsech
jazyk | varianta | výsledek |
---|---|---|
CS | nosplit | 87.505 |
CS | morph-split | 87.714 |
CS | formemes | 88.524 |
EN | nosplit | 80.555 |
EN | morph-split | 80.752 |
EN | formemes | 81.828 |
- vždy zlatá struktura a pravidlové formémy k tomu
- české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21)
- bez feature selection
Nastavení parametrů
- Bez feature selection vychází nejlíp:
typ | cost | term. criterion |
---|---|---|
adj | 1 / 2 | 0.1 |
adv | 1 | 0.03 |
v, n | 1 | 0.01 |
??? | 1 | 0.1 |
- | 1 | 0.003 / 0.03 |
Poučení
- Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%)
- Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv)
- Pozor na data, ať v nich není nic, co je známé až potom
Koordinační funktory
- Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
- FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.