[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:formemy_gen [2011/10/04 18:30]
dusek
user:dusek:formemy_gen [2011/12/14 18:48] (current)
dusek
Line 1: Line 1:
-==== Automatická detekce funktorů ====+====== Automatická detekce funktorů ======
  
-=== Klasifikátor ===+===== Klasifikátor =====
   * LibLINEAR, logistic regression (upravit ?)   * LibLINEAR, logistic regression (upravit ?)
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
   * zpětná kontrola, že nemá formém nic, co ho nepotřebuje ?   * zpětná kontrola, že nemá formém nic, co ho nepotřebuje ?
  
-=== Varianty pokusů, featury ===+===== Varianty pokusů, featury =====
   * vynechané koordinační funktory (beztak nepotřebují formém)   * vynechané koordinační funktory (beztak nepotřebují formém)
 == základní == == základní ==
Line 18: Line 18:
     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
 == varianty == == varianty ==
 +
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
   * dělené podle t-lemmatu (''tlemma'')   * dělené podle t-lemmatu (''tlemma'')
-  * //nové featury (??)// 
-    * použít nějak childrentypes (dělit podle sempos-u)? 
-  * nominal (max. 50 featur v selection) + binary 
-  * vyházet z trénovacích dat příklady s formémy n:X !! 
  
-=== Výsledky ===+===== Výsledky =====
  
 ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
Line 38: Line 35:
 | fog2-eff_tree | 2011-09-29 15:28 | 84.955 | 85.504 | | fog2-eff_tree | 2011-09-29 15:28 | 84.955 | 85.504 |
 | fog2-tlemma | 2011-09-30 02:52 | 82.588 | 83.886 | | fog2-tlemma | 2011-09-30 02:52 | 82.588 | 83.886 |
 +| fog2-dia* | 2011-12-06 17:16 | 86.046 | 86.783 |
 +| fog2-dia | 2011-12-08 23:00 | 84.821 | 85.515 |
 +
 +* zlaté funktory
  
 == komentář == == komentář ==
Line 63: Line 64:
   * DIR1 -- v.2 převodem adj -> n boduje -- OK   * DIR1 -- v.2 převodem adj -> n boduje -- OK
   * DIR2 -- problém, je tam moc různých předložek, řídké !!!   * DIR2 -- problém, je tam moc různých předložek, řídké !!!
-  * DIR3 -- asi by pomohlo lemma, na x do je docela potíž !!! +  * DIR3 -- asi by pomohlo lemma, n:na+4 n:do+2 je docela potíž !!! 
-  *  +  * EFF -- problém s poznáním v:fin vs. v:že+fin 
 +  * EXT -- v podstatě OK 
 +  * ID -- problémy s pády, jinak OK 
 +  * LOC -- v.2 se trochu zlepšilo, jinak problém s n:u+2, n:v+6 -- možná složité, jinak asi by pomohlo lemma 
 +  * MANN -- problém n:v+6 vs. n:7, jinak OK 
 +  * MAT -- v podstatě OK 
 +  * MEANS -- blbá data (asi), všechno je n:7, což je ošklivé !!! 
 +  * PAR -- jediný problém n:X vs n:1, jinak OK 
 +  * ORIG -- problém: n:od+2 vs. n:z+2, asi řídká data 
 +  * PAR -- v.2 má problémy s pády n:X vs. n:1, jinak OK 
 +  * PAT -- hlavně n:1 vs. n:4, jinak OK (možná by pomohly syntaktické featury?) 
 +    * asi diateze (v pasivu bude n:1 spíš), taky možná predikativita (nebo něco podobného, prostě marker pro slovesa, která v PAT berou 1.pád) 
 +  * PRED -- asi OK, i když občas nerozpozná v:inf 
 +  * REG -- nepozná n:vzhledem_k+3, n:bez_ohledu_na+4, všude cpe n:v+6 :-( 
 +  * RESL -- trochu bordel mezi v:aby+fin a v:že+fin, jinak OK 
 +  * RSTR -- v.2 dává moc často n:attr 
 +  * SUBS -- řídká data, asi OK, u v.2 zhoršuje úspěšnost častější přiřazení pádů 
 +  * TFHL -- většinou dostane jen n:na+4 a víc se neptá; jinak OK 
 +  * THL -- bordel mezi n:4 a n:za+4, jinak v.2 má častěji n:4 podle opravených číslovek -- OK 
 +  * TPAR -- vlastně OK, protože ty předložky jsou záměnné 
 +  * TSIN -- víceméně OK 
 +  * TTILL -- taky OK 
 +  * TWHEN -- možná by taky chtělo detailnější subfunktory (?)
  
 +===== Návrhy =====
 +  * Používat valenční slovník pro aktanty
 +    * jako featury? možná ano, pak si toho snad všimne
 +    * jak ale zohlednit více možných významů daného slovesa ?
 +  * //nové featury (??)//
 +    * použít nějak childrentypes (dělit podle sempos-u)?
 +    * clause heads
 +  * nominal (max. 50 featur v selection) + binary
 +  * vyházet z trénovacích dat příklady s formémy n:X !!
  

[ Back to the navigation ] [ Back to the content ]