Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:dusek:funktory [2011/10/24 17:23] dusek |
user:dusek:funktory [2012/07/25 17:06] (current) dusek |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ==== Automatická detekce funktorů ==== | + | ====== Automatická detekce funktorů |
- | === Klasifikátor === | + | ===== Klasifikátor |
* LibLINEAR, logistic regression | * LibLINEAR, logistic regression | ||
* kombinace klasifikátorů -- klasifikátorem ? | * kombinace klasifikátorů -- klasifikátorem ? | ||
- | === Varianty pokusů, featury === | + | ===== Varianty pokusů, featury |
- | == základní sada == | + | ==== základní sada ==== |
* technické: sent_id, word_id, parent, nodetype, is_generated (+functor) | * technické: sent_id, word_id, parent, nodetype, is_generated (+functor) | ||
- | * uzel sám: form, t_lemma, tag, MorphCat, formém, sempos (+trunc), m_lemma (trunc), afun -- **sempos nelze používat!** | + | * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun |
* aux.rf: aux_forms, aux_m_lemma (trunc) | * aux.rf: aux_forms, aux_m_lemma (trunc) | ||
* uzel + parent: Order, Distance | * uzel + parent: Order, Distance | ||
- | * synt. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém | + | * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém |
* parent, children, lsibling, rsibling, lsiblings, rsiblings, | * parent, children, lsibling, rsibling, lsiblings, rsiblings, | ||
- | * children types: CoarseTag, form, m_lemma, t_lemma, sempos (trunc), afun, formém, počet takových | + | * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém |
* ACNPD, ACNPDV, V, R, J | * ACNPD, ACNPDV, V, R, J | ||
- | * topol. okolí: CoarseTag, form, m_lemma, t_lemma, sempos (trunc) | + | * topol. okolí: CoarseTag, form, m_lemma, t_lemma |
* left 3, 2, 2+1, 1, right 1, 1+2, 2, 3 | * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3 | ||
- | == varianty == | + | ==== varianty ==== |
+ | * s formémem a jeho částmi jako featurami nebo bez | ||
* s ef. rodiči místo topologických ('' | * s ef. rodiči místo topologických ('' | ||
* s ef. rodiči a funktory rodiče a levých sourozenců jako featurami ('' | * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami ('' | ||
- | * s formémem a jeho částmi jako featurami místo sempos ('' | ||
* vč. stromové varianty ('' | * vč. stromové varianty ('' | ||
- | * s formémy a diatezí | + | * diateze |
- | * dělené podle t-lemmatu ('' | + | * dělené podle t-lemmatu ('' |
* //nové featury (??)// | * //nové featury (??)// | ||
* zkusit použít oba formémy :-) | * zkusit použít oba formémy :-) | ||
- | * nominal (max. 70 featur v selection) + binary | + | * nominal (max. 70 featur v selection) + binary + set-aware |
- | * zkusit nedělit to | + | * featury z vallexu |
- | === Výsledky === | + | ==== Výsledky |
^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ | ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ | ||
- | | fug, nominal |||| | + | | fug2-dia_coap-c_fix | 2011-12-01 22:58 | 77.607 | 78.383 | |
- | | fug-base | 2011-10-04 05:45 | 79.068 | 79.264 | | + | | fug2-dia_coap-d | 2012-07-24 13:45 | 77.938 | 78.307 | |
- | | fug-eff | + | | fug2-dia_coap-d_set (set-aware) |
- | | fug-eff_tree | 2011-10-04 05:10 | 80.139 | 80.524 | | + | | fug2-vallex |
- | | fug-formeme | 2011-10-04 05:47 | 79.203 | 79.525 | | + | | fug2-vallex_all-set (vše set-aware) |
- | | fug-formeme_tree | 2011-10-04 | + | | fug2-vallex_limited-set (jen vallex set-aware) |
- | | fug-dia | 2011-10-07 03:49 | 79.214 | 79.525 | | + | | fug2-vallex_set (krom vallexu) |
- | | fug-dia_tree | 2011-10-07 03:18 | 80.026 | 80.368 | | + | |
- | | fug-tlemma | 2011-10-04 03:53 | 78.828 | 80.391 | + | |
- | | fug1-base | 2011-10-05 11:44 | 79.043 | 79.305 | | + | |
- | | fug1-eff | 2011-10-05 11:41 | 79.398 | 79.638 | | + | |
- | | fug1-eff_tree | 2011-10-05 11:23 | 80.126 | 80.509 | | + | |
- | | fug1-formeme | 2011-10-05 14:12 | 78.976 | 79.268 | | + | |
- | | fug1-formeme_tree | 2011-10-05 09:34 | 79.773 | 80.088 | | + | |
- | | fug1-dia | 2011-10-06 23:51 | 78.989 | 79.270 | + | |
- | | fug1-dia_tree | + | |
- | | fug1-tlemma | 2011-10-05 00:41 | 78.846 | + | |
- | | fug2-base | 2011-10-05 10:43 | 79.001 | 79.167 | | + | |
- | | fug2-eff | 2011-10-05 01:27 | 79.357 | 79.507 | | + | |
- | | fug2-eff_tree | 2011-10-05 09:31 | 80.102 | 80.443 | + | |
- | | *fug2-formeme | 2011-10-20 01:08 | 78.831 | 79.188 | | + | |
- | | *fug2-formeme_tree | 2011-10-20 01:44 | 79.748 | 80.100 | | + | |
- | | *fug2-dia | 2011-10-19 22:41 | 78.836 | + | |
- | | *fug2-dia_tree | + | |
- | | fug2-tlemma | 2011-10-05 07:43 | 78.838 | + | |
- | * * = Opravená verze 2. formémů (opět trošku snižuje úspěšnost :-( ) | + | * proč je feat. selection tak neúčinná ? |
+ | * chce to víc featur ? | ||
- | == Vysvětlení == | + | ==== Vysvětlení ==== |
- | * 1. vs. 2. verze formémů -- 2. verze dopadá v průměru o chlup hůř | + | |
- | * není problémem n:X ? | + | |
* eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší | * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší | ||
* protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace) | * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace) | ||
* diathesis tomu pomáhá jenom minimálně, | * diathesis tomu pomáhá jenom minimálně, | ||
- | * tlemma: v průměru v2 horší, není výrazně zjevné, jaká slova to kazí | + | * set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč? |
- | == Výsledky na zlatých parsech | + | ==== Výsledky na zlatých parsech |
- | ^ pokus ^ datum ^ bez feature selection ^ s feature selection | + | ^ jazyk ^ varianta |
- | | fug, nominal |||| | + | | CS | nosplit |
- | | fug-base | + | | CS | morph-split | 87.714 | |
- | | fug-eff | + | | CS | formemes |
- | | fug-eff_tree | + | | EN | nosplit |
- | | fug-formeme | + | | EN | morph-split | 80.752 | |
- | | fug-formeme_tree | + | | EN | formemes |
- | | fug-tlemma | 2011-10-02 22:49 | 86.466 | 87.881 | | + | |
- | * omylem získané | + | * vždy zlatá struktura a pravidlové formémy k tomu |
- | * je vidět, že když se formémy vynechají, dopadá pokus na nich založený hůře | + | * české na PDT 2.0 D-Test (trén. na PDT train), anglické |
+ | * bez feature selection | ||
+ | |||
+ | == Nastavení parametrů == | ||
+ | |||
+ | * Bez feature selection vychází nejlíp: | ||
+ | |||
+ | ^ typ ^ cost ^ term. criterion ^ | ||
+ | | adj | 1 / 2 | 0.1 | | ||
+ | | adv | 1 | 0.03 | | ||
+ | | v, n | 1 | 0.01 | | ||
+ | | ??? | 1 | 0.1 | | ||
+ | | - | 1 | 0.003 / 0.03 | | ||
== Poučení == | == Poučení == | ||
+ | |||
* Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) | * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%) | ||
+ | * Pozor na overtraining, | ||
+ | * Pozor na data, ať v nich není nic, co je známé až potom | ||
=== Koordinační funktory === | === Koordinační funktory === |