[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:dusek:formemy_gen [2011/10/04 18:30]
dusek
user:dusek:formemy_gen [2011/12/06 16:02]
dusek
Line 1: Line 1:
-==== Automatická detekce funktorů ====+====== Automatická detekce funktorů ======
  
-=== Klasifikátor ===+===== Klasifikátor =====
   * LibLINEAR, logistic regression (upravit ?)   * LibLINEAR, logistic regression (upravit ?)
   * kombinace klasifikátorů -- klasifikátorem ?   * kombinace klasifikátorů -- klasifikátorem ?
   * zpětná kontrola, že nemá formém nic, co ho nepotřebuje ?   * zpětná kontrola, že nemá formém nic, co ho nepotřebuje ?
  
-=== Varianty pokusů, featury ===+===== Varianty pokusů, featury =====
   * vynechané koordinační funktory (beztak nepotřebují formém)   * vynechané koordinační funktory (beztak nepotřebují formém)
 == základní == == základní ==
Line 18: Line 18:
     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3     * left 3, 2, 2+1, 1, right 1, 1+2, 2, 3
 == varianty == == varianty ==
 +
   * s ef. rodiči místo topologických (''eff'')   * s ef. rodiči místo topologických (''eff'')
   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')   * s ef. rodiči a funktory rodiče a levých sourozenců jako featurami (''eff_tree'')
   * dělené podle t-lemmatu (''tlemma'')   * dělené podle t-lemmatu (''tlemma'')
-  * //nové featury (??)// 
-    * použít nějak childrentypes (dělit podle sempos-u)? 
-  * nominal (max. 50 featur v selection) + binary 
-  * vyházet z trénovacích dat příklady s formémy n:X !! 
  
-=== Výsledky ===+===== Výsledky =====
  
 ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^ ^ pokus ^ datum ^ bez feature selection ^ s feature selection ^
Line 63: Line 60:
   * DIR1 -- v.2 převodem adj -> n boduje -- OK   * DIR1 -- v.2 převodem adj -> n boduje -- OK
   * DIR2 -- problém, je tam moc různých předložek, řídké !!!   * DIR2 -- problém, je tam moc různých předložek, řídké !!!
-  * DIR3 -- asi by pomohlo lemma, na x do je docela potíž !!! +  * DIR3 -- asi by pomohlo lemma, n:na+4 n:do+2 je docela potíž !!! 
-  *  +  * EFF -- problém s poznáním v:fin vs. v:že+fin 
 +  * EXT -- v podstatě OK 
 +  * ID -- problémy s pády, jinak OK 
 +  * LOC -- v.2 se trochu zlepšilo, jinak problém s n:u+2, n:v+6 -- možná složité, jinak asi by pomohlo lemma 
 +  * MANN -- problém n:v+6 vs. n:7, jinak OK 
 +  * MAT -- v podstatě OK 
 +  * MEANS -- blbá data (asi), všechno je n:7, což je ošklivé !!! 
 +  * PAR -- jediný problém n:X vs n:1, jinak OK 
 +  * ORIG -- problém: n:od+2 vs. n:z+2, asi řídká data 
 +  * PAR -- v.2 má problémy s pády n:X vs. n:1, jinak OK 
 +  * PAT -- hlavně n:1 vs. n:4, jinak OK (možná by pomohly syntaktické featury?) 
 +    * asi diateze (v pasivu bude n:1 spíš), taky možná predikativita (nebo něco podobného, prostě marker pro slovesa, která v PAT berou 1.pád) 
 +  * PRED -- asi OK, i když občas nerozpozná v:inf 
 +  * REG -- nepozná n:vzhledem_k+3, n:bez_ohledu_na+4, všude cpe n:v+6 :-( 
 +  * RESL -- trochu bordel mezi v:aby+fin a v:že+fin, jinak OK 
 +  * RSTR -- v.2 dává moc často n:attr 
 +  * SUBS -- řídká data, asi OK, u v.2 zhoršuje úspěšnost častější přiřazení pádů 
 +  * TFHL -- většinou dostane jen n:na+4 a víc se neptá; jinak OK 
 +  * THL -- bordel mezi n:4 a n:za+4, jinak v.2 má častěji n:4 podle opravených číslovek -- OK 
 +  * TPAR -- vlastně OK, protože ty předložky jsou záměnné 
 +  * TSIN -- víceméně OK 
 +  * TTILL -- taky OK 
 +  * TWHEN -- možná by taky chtělo detailnější subfunktory (?)
  
 +===== Návrhy =====
 +  * Používat valenční slovník pro aktanty
 +    * jako featury? možná ano, pak si toho snad všimne
 +    * jak ale zohlednit více možných významů daného slovesa ?
 +  * //nové featury (??)//
 +    * použít nějak childrentypes (dělit podle sempos-u)?
 +    * clause heads
 +  * nominal (max. 50 featur v selection) + binary
 +  * vyházet z trénovacích dat příklady s formémy n:X !!
  

[ Back to the navigation ] [ Back to the content ]