Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
user:dusek:funktory [2011/09/29 14:10] dusek vytvořeno |
user:dusek:funktory [2012/07/25 17:06] (current) dusek |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ==== Automatická detekce funktorů ==== | + | ====== Automatická detekce funktorů |
- | === Klasifikátor === | + | ===== Klasifikátor |
* LibLINEAR, logistic regression | * LibLINEAR, logistic regression | ||
* kombinace klasifikátorů -- klasifikátorem ? | * kombinace klasifikátorů -- klasifikátorem ? | ||
+ | ===== Varianty pokusů, featury ===== | ||
- | === Varianty pokusů, featury | + | ==== základní sada ==== |
- | * vynechané koordinační funktory | + | * technické: sent_id, word_id, parent, nodetype, is_generated |
- | * základní | + | * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma |
- | * | + | * aux.rf: aux_forms, aux_m_lemma (trunc) |
+ | * uzel + parent: Order, Distance | ||
+ | * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split | ||
+ | * parent, children, lsibling, rsibling, lsiblings, rsiblings, | ||
+ | * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových | ||
+ | * ACNPD, ACNPDV, V, R, J | ||
+ | * topol. okolí: CoarseTag, form, m_lemma, t_lemma | ||
+ | * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3 | ||
+ | |||
+ | ==== varianty ==== | ||
+ | * s formémem a jeho částmi jako featurami nebo bez | ||
* s ef. rodiči místo topologických ('' | * s ef. rodiči místo topologických ('' | ||
* s ef. rodiči a funktory rodiče a levých sourozenců jako featurami ('' | * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami ('' | ||
- | | + | |
- | * dělené podle t-lemmatu ('' | + | |
+ | * dělené podle t-lemmatu ('' | ||
* //nové featury (??)// | * //nové featury (??)// | ||
+ | * zkusit použít oba formémy :-) | ||
+ | * nominal (max. 70 featur v selection) + binary + set-aware binary | ||
+ | * featury z vallexu | ||
- | === Výsledky === | + | ==== Výsledky |
- | ^ datum ^ pokus ^ bez feature selection ^ s feature selection ^ | + | ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ |
- | | fug-base | 2011-09-27 21:31 | 79.278 | 79.318 | | + | | fug2-dia_coap-c_fix |
- | | fug-eff | 2011-09-27 21:41 | 79.513 | 79.742 | | + | | fug2-dia_coap-d | 2012-07-24 13:45 | 77.938 | 78.307 | |
- | | fug-eff_tree | 2011-09-27 21:41 | 79.724 | 79.901 | | + | | fug2-dia_coap-d_set (set-aware) |
- | | fug-formeme | 2011-09-29 09:52 | 79.242 | 79.694 | | + | | fug2-vallex |
- | | fug-tlemma | 2011-09-27 00:21 | 78.605 | 80.019 | | + | | fug2-vallex_all-set (vše set-aware) |
- | | fug2-base | 2011-09-27 20:03 | 79.096 | 79.290 | | + | | fug2-vallex_limited-set (jen vallex set-aware) |
- | | fug2-eff | 2011-09-27 22:03 | 79.471 | 79.612 | | + | | fug2-vallex_set (krom vallexu) |
- | | fug2-eff_tree | 2011-09-28 03:49 | 79.727 | 79.860 | | + | |
- | | fug2-formeme | 2011-09-29 08:04 | 78.989 | 79.308 | | + | |
- | | fug2-tlemma | + | |
+ | * proč je feat. selection tak neúčinná ? | ||
+ | * chce to víc featur ? | ||
+ | ==== Vysvětlení ==== | ||
+ | * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší | ||
+ | * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace) | ||
+ | * diathesis tomu pomáhá jenom minimálně, | ||
+ | * set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč? | ||
+ | ==== Výsledky na zlatých parsech ==== | ||
+ | ^ jazyk ^ varianta ^ výsledek ^ | ||
+ | | CS | nosplit | ||
+ | | CS | morph-split | 87.714 | | ||
+ | | CS | formemes | ||
+ | | EN | nosplit | ||
+ | | EN | morph-split | 80.752 | | ||
+ | | EN | formemes | ||
+ | * vždy zlatá struktura a pravidlové formémy k tomu | ||
+ | * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21) | ||
+ | * bez feature selection | ||
+ | == Nastavení parametrů == | ||
+ | * Bez feature selection vychází nejlíp: | ||
+ | ^ typ ^ cost ^ term. criterion ^ | ||
+ | | adj | 1 / 2 | 0.1 | | ||
+ | | adv | 1 | 0.03 | | ||
+ | | v, n | 1 | 0.01 | | ||
+ | | ??? | 1 | 0.1 | | ||
+ | | - | 1 | 0.003 / 0.03 | | ||
+ | == Poučení == | ||
+ | * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) | ||
+ | * Pozor na overtraining, | ||
+ | * Pozor na data, ať v nich není nic, co je známé až potom | ||
+ | === Koordinační funktory === | ||
+ | * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory) | ||
+ | * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak. |