[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:formemy [2011/10/07 13:33]
dusek
user:dusek:formemy [2012/02/09 15:31] (current)
dusek
Line 1: Line 1:
-==== Nová verze českých formémů ====+===== Nová verze českých formémů =====
  
-=== Motivace === +=== Motivace -- problémy staré verze === 
   * používá ''sempos'', která by teoreticky ještě neměla být známá   * používá ''sempos'', která by teoreticky ještě neměla být známá
-  * pracovalo se s lemmatem, ne se slovní formou+  * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat 
 +  * adjektiva nemají nikdy určený pád, i když by ho potřebovala
   * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.)   * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.)
 +    * někde vlastně funguje
   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!
-  * zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem jmen +  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen
  
 === Syntpos === === Syntpos ===
 +  * měla by být "skoro" jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
 +  * podle tagu uzlu a tagu rodiče
 +    * české POS tagy to vlastně desambiguují docela dobře
 +    * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní)
 +
 +=== Filtr na aux.rf ===
 +  * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako//
 +    * afun ''AuxR'' se nezohledňoval, asi i další věci
 +  * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu
 +    * to odstraní ''van'', ''von'', složená čísla a podobně
 +  * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek
 +    * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
 +
 +=== Úpravy adjektiv ===
 +  * possesiva jsou adj:poss místo n:poss (jde o FORMém)
 +  * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém
 +    * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
 +  * adjektivní komplementy (které musí být adjektivní) mají určený pád
 +    * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu)
 +  * adverbia odvozená od adjektiv mají taky formém "adv" (i když ten zřejmě v automatické analýze měly stejně)
 +
 +=== Číslovky ===
 TODO TODO
  
Line 22: Line 45:
   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//
  
-=== Entropie === +=== Entropie / MI === 
-TODO+ 
 +  * v:rc v obou jazycích zvyšuje MI -- ponecháno 
 +  * v:attr -> adj:attr v angličtině entropii snižuje
  
 === Postup slučování (návrh) === === Postup slučování (návrh) ===
Line 37: Line 62:
     * possesiva a genitiv     * possesiva a genitiv
  
-=== Pomůcky ===+===== TODO ===== 
 + 
 +  * opravit "něčí", mělo by být adj:poss 
 +  * Zvážit vytvoření formémů n:jako+attr, n:než+attr. 
 + 
 +===== Pomůcky =====
  
 == Regexp pro formémy == == Regexp pro formémy ==

[ Back to the navigation ] [ Back to the content ]