[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
user:dusek:formemy [2011/10/07 13:33]
dusek
user:dusek:formemy [2012/01/24 16:40]
dusek
Line 1: Line 1:
-==== Nová verze českých formémů ====+===== Nová verze českých formémů =====
  
-=== Motivace === +=== Motivace -- problémy staré verze === 
   * používá ''sempos'', která by teoreticky ještě neměla být známá   * používá ''sempos'', která by teoreticky ještě neměla být známá
-  * pracovalo se s lemmatem, ne se slovní formou+  * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat 
 +  * adjektiva nemají nikdy určený pád, i když by ho potřebovala
   * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.)   * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.)
 +    * někde vlastně funguje
   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!   * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!
-  * zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem jmen +  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen
  
 === Syntpos === === Syntpos ===
 +  * měla by být "skoro" jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
 +  * podle tagu uzlu a tagu rodiče
 +    * české POS tagy to vlastně desambiguují docela dobře
 +    * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní)
 +
 +=== Filtr na aux.rf ===
 +  * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako//
 +    * afun ''AuxR'' se nezohledňoval, asi i další věci
 +  * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu
 +    * to odstraní ''van'', ''von'', složená čísla a podobně
 +  * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek
 +    * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
 +
 +=== Úpravy adjektiv ===
 +  * possesiva jsou adj:poss místo n:poss (jde o FORMém)
 +  * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém
 +    * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
 +  * adjektivní komplementy (které musí být adjektivní) mají určený pád
 +    * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu)
 +  * adverbia odvozená od adjektiv mají taky formém "adv" (i když ten zřejmě v automatické analýze měly stejně)
 +
 +=== Číslovky ===
 TODO TODO
  
Line 22: Line 45:
   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//
  
-=== Entropie === +=== Entropie / MI === 
-TODO+ 
 +  * v:rc v obou jazycích zvyšuje MI -- ponecháno 
 +  * v:attr -> adj:attr v angličtině entropii snižuje
  
 === Postup slučování (návrh) === === Postup slučování (návrh) ===
Line 37: Line 62:
     * possesiva a genitiv     * possesiva a genitiv
  
-=== Pomůcky ===+===== TODO ===== 
 + 
 +  * Opravit nějak '???' pro rematizátory a jim podobné -- asi by měly dostávat 'x'
 +  * Zvážit vytvoření formémů n:jako+attr, n:než+attr. 
 + 
 +===== Pomůcky =====
  
 == Regexp pro formémy == == Regexp pro formémy ==

[ Back to the navigation ] [ Back to the content ]