====== Automatická detekce funktorů ====== ===== Klasifikátor ===== * LibLINEAR, logistic regression * kombinace klasifikátorů -- klasifikátorem ? ===== Varianty pokusů, featury ===== ==== základní sada ==== * technické: sent_id, word_id, parent, nodetype, is_generated (+functor) * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun * aux.rf: aux_forms, aux_m_lemma (trunc) * uzel + parent: Order, Distance * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split * parent, children, lsibling, rsibling, lsiblings, rsiblings, * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových * ACNPD, ACNPDV, V, R, J * topol. okolí: CoarseTag, form, m_lemma, t_lemma * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3 ==== varianty ==== * s formémem a jeho částmi jako featurami nebo bez * s ef. rodiči místo topologických (''eff'') * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'') * vč. stromové varianty (''formeme_tree'') * diateze (''dia'', ''dia_tree'') * dělené podle t-lemmatu (''tlemma''), podle formému rodiče + coap, nedělené * //nové featury (??)// * zkusit použít oba formémy :-) * nominal (max. 70 featur v selection) + binary + set-aware binary * featury z vallexu ==== Výsledky ==== ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ | fug2-dia_coap-c_fix | 2011-12-01 22:58 | 77.607 | 78.383 | | fug2-dia_coap-d | 2012-07-24 13:45 | 77.938 | 78.307 | | fug2-dia_coap-d_set (set-aware) | 2012-07-25 13:08 | 78.034 | 78.357 | | fug2-vallex | 2012-07-24 13:49 | 79.659 | 80.048 | | fug2-vallex_all-set (vše set-aware) | 2012-07-25 13:08 | 79.688 | 80.004 | | fug2-vallex_limited-set (jen vallex set-aware) | 2012-07-25 13:09 | 79.636 | 79.995 | | fug2-vallex_set (krom vallexu) | 2012-07-25 13:35 | 79.762 | 80.041 | * proč je feat. selection tak neúčinná ? * chce to víc featur ? ==== Vysvětlení ==== * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace) * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo * set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč? ==== Výsledky na zlatých parsech ==== ^ jazyk ^ varianta ^ výsledek ^ | CS | nosplit | 87.505 | | CS | morph-split | 87.714 | | CS | formemes | 88.524 | | EN | nosplit | 80.555 | | EN | morph-split | 80.752 | | EN | formemes | 81.828 | * vždy zlatá struktura a pravidlové formémy k tomu * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21) * bez feature selection == Nastavení parametrů == * Bez feature selection vychází nejlíp: ^ typ ^ cost ^ term. criterion ^ | adj | 1 / 2 | 0.1 | | adv | 1 | 0.03 | | v, n | 1 | 0.01 | | ??? | 1 | 0.1 | | - | 1 | 0.003 / 0.03 | == Poučení == * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) * Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv) * Pozor na data, ať v nich není nic, co je známé až potom === Koordinační funktory === * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory) * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.