===== Nová verze českých formémů =====

=== Motivace -- problémy staré verze === 
  * používá ''sempos'', která by teoreticky ještě neměla být známá
  * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat
  * adjektiva nemají nikdy určený pád, i když by ho potřebovala
  * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.)
    * někde vlastně funguje
  * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!
  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen

=== Syntpos ===
  * měla by být "skoro" jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
  * podle tagu uzlu a tagu rodiče
    * české POS tagy to vlastně desambiguují docela dobře
    * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní)

=== Filtr na aux.rf ===
  * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako//
    * afun ''AuxR'' se nezohledňoval, asi i další věci
  * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu
    * to odstraní ''van'', ''von'', složená čísla a podobně
  * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek
    * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma

=== Úpravy adjektiv ===
  * possesiva jsou adj:poss místo n:poss (jde o FORMém)
  * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém
    * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
  * adjektivní komplementy (které musí být adjektivní) mají určený pád
    * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu)
  * adverbia odvozená od adjektiv mají taky formém "adv" (i když ten zřejmě v automatické analýze měly stejně)

=== Číslovky ===
TODO

=== Opravy v n:attr ===
  * pořadí těch slov neříká vůbec nic: //ministr < Kalousek// / //Miroslav > Kalousek//
  * genitiv a instrumentál jsou dost pochybné, proto je potřeba chtít větší shodu
    * shoda v rodě a čísle vcelku stačí
  * u ostatních pádů (krom nominativu) stačí vynucovat shodu v čísle, protože u nich v podstatě není jiný důvod, aby se něco takového přihodilo
  * u některých “labelů” není shoda potřeba - nutné je vyjmenovat: //město Praha// atd.
  * u dvou jmen taky není shoda potřeba - tam je dokonce n:attr i v nominativu, což jinak nemá smysl
    * pro nominativ nutné říct, jakého typu je který z názvů
  * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//

=== Entropie / MI ===

  * v:rc v obou jazycích zvyšuje MI -- ponecháno
  * v:attr -> adj:attr v angličtině entropii snižuje

=== Postup slučování (návrh) ===
  * Začít s otevřenou množinou formémů -- přidávat všechny koreláty a pod.
    * včetně slovesné diateze
    * nominativ + shodné jmenovací věci
    * varianta s řešením číslovek a bez
  * Postupně slučovat
    * diateze
    * koreláty (generují se)
    * nominativ - n:attr
    * synonymní předložky
    * possesiva a genitiv

===== TODO =====

  * opravit "něčí", mělo by být adj:poss
  * Zvážit vytvoření formémů n:jako+attr, n:než+attr.

===== Pomůcky =====

== Regexp pro formémy ==
  ,[nvad]\(rop\)\?\(d[jv]\)\?\(:[^,]*\)\?,

== Tree Query pro shodná substantiva na sobě závislá ==
  t-node
  [ gram/sempos ~ '^n',
      a/lex.rf a-node $a := [  ],
      t-node
      [ gram/sempos ~ '^n.denot', !1+x a/aux.rf a-node [  ],
           a/lex.rf a-node
           [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];
== Tree Query na (převážně) adjektivní doplňky ==
  t-node [ functor = 'COMPL', is_generated != 1, !1+x a/aux.rf a-node [ m/lemma ~ '^(jako|coby)' ] ];