[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Next revision Both sides next revision
user:dusek:formemy [2011/10/17 18:25]
dusek
user:dusek:formemy [2012/01/24 16:26]
dusek
Line 1: Line 1:
-==== Nová verze českých formémů ====+===== Nová verze českých formémů =====
  
 === Motivace -- problémy staré verze ===  === Motivace -- problémy staré verze === 
Line 8: Line 8:
     * někde vlastně funguje     * někde vlastně funguje
   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!
-  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem jmen+  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen
  
 === Syntpos === === Syntpos ===
Line 14: Line 14:
   * podle tagu uzlu a tagu rodiče   * podle tagu uzlu a tagu rodiče
     * české POS tagy to vlastně desambiguují docela dobře     * české POS tagy to vlastně desambiguují docela dobře
-    * vzácně i podle lemmatu (negativní a neurčitá zájmena jsou částečně substantivní, částečně adjektivní)+    * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní) 
 + 
 +=== Filtr na aux.rf === 
 +  * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako// 
 +    * afun ''AuxR'' se nezohledňoval, asi i další věci 
 +  * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu 
 +    * to odstraní ''van'', ''von'', složená čísla a podobně 
 +  * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek 
 +    * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
  
 === Úpravy adjektiv === === Úpravy adjektiv ===
Line 37: Line 45:
   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//
  
-=== Entropie === +=== Entropie / MI === 
-TODO+ 
 +  * v:rc v obou jazycích zvyšuje MI -- ponecháno 
 +  * v:attr -> adj:attr v angličtině entropii snižuje
  
 === Postup slučování (návrh) === === Postup slučování (návrh) ===
Line 52: Line 62:
     * possesiva a genitiv     * possesiva a genitiv
  
-=== Pomůcky ===+===== TODO ===== 
 + 
 +Zvážit vytvoření formémů n:jako+attr, n:než+attr. 
 + 
 +===== Pomůcky =====
  
 == Regexp pro formémy == == Regexp pro formémy ==

[ Back to the navigation ] [ Back to the content ]