====== Automatická detekce funktorů ======

===== Klasifikátor =====
  * LibLINEAR, logistic regression
  * kombinace klasifikátorů -- klasifikátorem ?

===== Varianty pokusů, featury =====

==== základní sada ====
  * technické: sent_id, word_id, parent, nodetype, is_generated (+functor)
  * uzel sám: form, t_lemma, tag, MorphCat, formém + split, m_lemma (trunc), afun
  * aux.rf: aux_forms, aux_m_lemma (trunc)
  * uzel + parent: Order, Distance
  * synt. okolí: CoarseTag, form, m_lemma, t_lemma, afun, formém + split
    * parent, children, lsibling, rsibling, lsiblings, rsiblings, 
  * children types: CoarseTag, form, m_lemma, t_lemma, afun, formém + split, počet takových
    * ACNPD, ACNPDV, V, R, J
  * topol. okolí: CoarseTag, form, m_lemma, t_lemma
    * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3

==== varianty ====
  * s formémem a jeho částmi jako featurami nebo bez
  * s ef. rodiči místo topologických (''eff'')
  * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
    * vč. stromové varianty (''formeme_tree'')
  * diateze (''dia'', ''dia_tree'')
  * dělené podle t-lemmatu (''tlemma''), podle formému rodiče + coap, nedělené
  * //nové featury (??)//
    * zkusit použít oba formémy :-)
  * nominal (max. 70 featur v selection) + binary + set-aware binary
  * featury z vallexu

==== Výsledky ====

^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
| fug2-dia_coap-c_fix | 2011-12-01 22:58 | 77.607 | 78.383 |
| fug2-dia_coap-d | 2012-07-24 13:45 | 77.938 | 78.307 |
| fug2-dia_coap-d_set (set-aware) | 2012-07-25 13:08 | 78.034 | 78.357 |
| fug2-vallex | 2012-07-24 13:49 | 79.659 | 80.048 |
| fug2-vallex_all-set (vše set-aware) | 2012-07-25 13:08 | 79.688 | 80.004 |
| fug2-vallex_limited-set (jen vallex set-aware) | 2012-07-25 13:09 | 79.636 | 79.995 |
| fug2-vallex_set (krom vallexu) | 2012-07-25 13:35 | 79.762 | 80.041 |

  * proč je feat. selection tak neúčinná ?
    * chce to víc featur ?

==== Vysvětlení ====
  * eff: lepší (ale zato o hodně!) jsou jen slova visící na něčem bez semposu (a je jich pak víc), ostatní jsou spíš horší
    * protože eff zřejmě dává mnohem lepší rooty (nepletou se tam koordinace)
  * diathesis tomu pomáhá jenom minimálně, skoro neznatelně se zlepší děti sloves, jinak nikdo
  * set (set-aware) nemá skoro vliv, někde pomáhá, někde škodí; proč?

==== Výsledky na zlatých parsech ====

^ jazyk ^ varianta ^ výsledek ^
| CS | nosplit     | 87.505 |
| CS | morph-split | 87.714 |
| CS | formemes    | 88.524 | 
| EN | nosplit     | 80.555 |
| EN | morph-split | 80.752 |
| EN | formemes    | 81.828 | 

  * vždy zlatá struktura a pravidlové formémy k tomu
  * české na PDT 2.0 D-Test (trén. na PDT train), anglické na PCEDT 2.0 sec. 24 (trén. na 02-21)
  * bez feature selection

== Nastavení parametrů ==

  * Bez feature selection vychází nejlíp:

^ typ ^ cost ^ term. criterion ^
| adj | 1 / 2 | 0.1 |
| adv | 1 | 0.03 |
| v, n | 1 | 0.01 |
| ??? | 1 | 0.1 |
| - | 1 | 0.003 / 0.03 |

== Poučení ==

  * Nezapomínat na binarizaci, jinak to celé bude mít mizernou úspěšnost (65%)
  * Pozor na overtraining, zvlášť u hodně řídkých případů (adj, adv)
  * Pozor na data, ať v nich není nic, co je známé až potom

=== Koordinační funktory ===

  * Je potřeba udělat, protože přesnost pravidel není valná (mají jen asi 4 možné funktory)
  * FixIsMember je asi vhodný, ale ne úplně nutný: v praxi zřejmě nedojde k tomu, aby koordinační funktor dostalo něco, co předtím nebyla koordinace, a naopak.