===== Nová verze českých formémů ===== === Motivace -- problémy staré verze === * používá ''sempos'', která by teoreticky ještě neměla být známá * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat * adjektiva nemají nikdy určený pád, i když by ho potřebovala * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.) * někde vlastně funguje * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen === Syntpos === * měla by být "skoro" jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje) * podle tagu uzlu a tagu rodiče * české POS tagy to vlastně desambiguují docela dobře * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní) === Filtr na aux.rf === * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako// * afun ''AuxR'' se nezohledňoval, asi i další věci * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu * to odstraní ''van'', ''von'', složená čísla a podobně * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma === Úpravy adjektiv === * possesiva jsou adj:poss místo n:poss (jde o FORMém) * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu) * adjektivní komplementy (které musí být adjektivní) mají určený pád * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu) * adverbia odvozená od adjektiv mají taky formém "adv" (i když ten zřejmě v automatické analýze měly stejně) === Číslovky === TODO === Opravy v n:attr === * pořadí těch slov neříká vůbec nic: //ministr < Kalousek// / //Miroslav > Kalousek// * genitiv a instrumentál jsou dost pochybné, proto je potřeba chtít větší shodu * shoda v rodě a čísle vcelku stačí * u ostatních pádů (krom nominativu) stačí vynucovat shodu v čísle, protože u nich v podstatě není jiný důvod, aby se něco takového přihodilo * u některých “labelů” není shoda potřeba - nutné je vyjmenovat: //město Praha// atd. * u dvou jmen taky není shoda potřeba - tam je dokonce n:attr i v nominativu, což jinak nemá smysl * pro nominativ nutné říct, jakého typu je který z názvů * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// === Entropie / MI === * v:rc v obou jazycích zvyšuje MI -- ponecháno * v:attr -> adj:attr v angličtině entropii snižuje === Postup slučování (návrh) === * Začít s otevřenou množinou formémů -- přidávat všechny koreláty a pod. * včetně slovesné diateze * nominativ + shodné jmenovací věci * varianta s řešením číslovek a bez * Postupně slučovat * diateze * koreláty (generují se) * nominativ - n:attr * synonymní předložky * possesiva a genitiv ===== TODO ===== * opravit "něčí", mělo by být adj:poss * Zvážit vytvoření formémů n:jako+attr, n:než+attr. ===== Pomůcky ===== == Regexp pro formémy == ,[nvad]\(rop\)\?\(d[jv]\)\?\(:[^,]*\)\?, == Tree Query pro shodná substantiva na sobě závislá == t-node [ gram/sempos ~ '^n', a/lex.rf a-node $a := [ ], t-node [ gram/sempos ~ '^n.denot', !1+x a/aux.rf a-node [ ], a/lex.rf a-node [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ]; == Tree Query na (převážně) adjektivní doplňky == t-node [ functor = 'COMPL', is_generated != 1, !1+x a/aux.rf a-node [ m/lemma ~ '^(jako|coby)' ] ];