Table of Contents
Nová verze českých formémů
Motivace -- problémy staré verze
- používásempos, která by teoreticky ještě neměla být známá
- pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat
- adjektiva nemají nikdy určený pád, i když by ho potřebovala
- podst. jm. ve funkcích předložek (v době války, v případě nouze apod.)- někde vlastně funguje
 
- koreláty (kvůli tomu, že apod.) – částečně se generují !!!
- některé zbytečné formémy von+1 a van+1, ve skutečnosti součást jmen
Syntpos
- měla by být “skoro” jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
- podle tagu uzlu a tagu rodiče- české POS tagy to vlastně desambiguují docela dobře
- vzácně i podle lemmatu (negativní a neurčitá zájmenaPWaPZjsou částečně substantivní, částečně adjektivní)
 
Filtr na aux.rf
- původně se braly jen předložky, spojky, věci s afunemAux[CP]a jako- afunAuxRse nezohledňoval, asi i další věci
 
- teď je filtr negativní – vyhazují se věci s tagemZ,V(tj. pom. slovesa) aP7reflexiva a taky cokoliv, co už je součástí lemmatu- to odstranívan,von, složená čísla a podobně
 
- dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek- u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
 
Úpravy adjektiv
- possesiva jsou adj:poss místo n:poss (jde o FORMém)
- v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici –> dostane pak substantivní formém- vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
 
- adjektivní komplementy (které musí být adjektivní) mají určený pád- řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. – typicky se váže k podmětu)
 
- adverbia odvozená od adjektiv mají taky formém “adv” (i když ten zřejmě v automatické analýze měly stejně)
Číslovky
TODO
Opravy v n:attr
- pořadí těch slov neříká vůbec nic: ministr < Kalousek / Miroslav > Kalousek
- genitiv a instrumentál jsou dost pochybné, proto je potřeba chtít větší shodu- shoda v rodě a čísle vcelku stačí
 
- u ostatních pádů (krom nominativu) stačí vynucovat shodu v čísle, protože u nich v podstatě není jiný důvod, aby se něco takového přihodilo
- u některých “labelů” není shoda potřeba - nutné je vyjmenovat: město Praha atd.
- u dvou jmen taky není shoda potřeba - tam je dokonce n:attr i v nominativu, což jinak nemá smysl- pro nominativ nutné říct, jakého typu je který z názvů
 
- zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět – Coca Cola, ÚNMS SR
Entropie / MI
- v:rc v obou jazycích zvyšuje MI – ponecháno
- v:attr → adj:attr v angličtině entropii snižuje
Postup slučování (návrh)
- Začít s otevřenou množinou formémů – přidávat všechny koreláty a pod.- včetně slovesné diateze
- nominativ + shodné jmenovací věci
- varianta s řešením číslovek a bez
 
- Postupně slučovat- diateze
- koreláty (generují se)
- nominativ - n:attr
- synonymní předložky
- possesiva a genitiv
 
TODO
- opravit “něčí”, mělo by být adj:poss
- Zvážit vytvoření formémů n:jako+attr, n:než+attr.
Pomůcky
Regexp pro formémy
,[nvad]\(rop\)\?\(d[jv]\)\?\(:[^,]*\)\?,
Tree Query pro shodná substantiva na sobě závislá
t-node
[ gram/sempos ~ '^n',
    a/lex.rf a-node $a := [  ],
    t-node
    [ gram/sempos ~ '^n.denot', !1+x a/aux.rf a-node [  ],
         a/lex.rf a-node
         [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];
Tree Query na (převážně) adjektivní doplňky
t-node [ functor = 'COMPL', is_generated != 1, !1+x a/aux.rf a-node [ m/lemma ~ '^(jako|coby)' ] ];
