[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:formemy [2011/10/17 18:22]
dusek
user:dusek:formemy [2012/02/09 15:31] (current)
dusek
Line 1: Line 1:
-==== Nová verze českých formémů ====+===== Nová verze českých formémů =====
  
 === Motivace -- problémy staré verze ===  === Motivace -- problémy staré verze === 
Line 8: Line 8:
     * někde vlastně funguje     * někde vlastně funguje
   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!
-  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem jmen+  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen
  
 === Syntpos === === Syntpos ===
-TODO+  * měla by být "skoro" jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje) 
 +  * podle tagu uzlu a tagu rodiče 
 +    * české POS tagy to vlastně desambiguují docela dobře 
 +    * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní) 
 + 
 +=== Filtr na aux.rf === 
 +  * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako// 
 +    * afun ''AuxR'' se nezohledňoval, asi i další věci 
 +  * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu 
 +    * to odstraní ''van'', ''von'', složená čísla a podobně 
 +  * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek 
 +    * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
  
 === Úpravy adjektiv === === Úpravy adjektiv ===
Line 34: Line 45:
   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//
  
-=== Entropie === +=== Entropie / MI === 
-TODO+ 
 +  * v:rc v obou jazycích zvyšuje MI -- ponecháno 
 +  * v:attr -> adj:attr v angličtině entropii snižuje
  
 === Postup slučování (návrh) === === Postup slučování (návrh) ===
Line 49: Line 62:
     * possesiva a genitiv     * possesiva a genitiv
  
-=== Pomůcky ===+===== TODO ===== 
 + 
 +  * opravit "něčí", mělo by být adj:poss 
 +  * Zvážit vytvoření formémů n:jako+attr, n:než+attr. 
 + 
 +===== Pomůcky =====
  
 == Regexp pro formémy == == Regexp pro formémy ==

[ Back to the navigation ] [ Back to the content ]