This is an old revision of the document!
Nová verze českých formémů
Motivace -- problémy staré verze
- používá
sempos
, která by teoreticky ještě neměla být známá - pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat
- adjektiva nemají nikdy určený pád, i když by ho potřebovala
- podst. jm. ve funkcích předložek (v době války, v případě nouze apod.)
- někde vlastně funguje
- koreláty (kvůli tomu, že apod.) – částečně se generují !!!
- některé zbytečné formémy von+1 a van+1, ve skutečnosti součást jmen
Syntpos
- měla by být “skoro” jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
- podle tagu uzlu a tagu rodiče
- české POS tagy to vlastně desambiguují docela dobře
- vzácně i podle lemmatu (negativní a neurčitá zájmena
PW
aPZ
jsou částečně substantivní, částečně adjektivní)
Filtr na aux.rf
- původně se braly jen předložky, spojky, věci s afunem
Aux[CP]
a jako- afun
AuxR
se nezohledňoval, asi i další věci
- teď je filtr negativní – vyhazují se věci s tagem
Z
,V
(tj. pom. slovesa) aP7
reflexiva a taky cokoliv, co už je součástí lemmatu- to odstraní
van
,von
, složená čísla a podobně
- dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek
- u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
Úpravy adjektiv
- possesiva jsou adj:poss místo n:poss (jde o FORMém)
- v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici –> dostane pak substantivní formém
- vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
- adjektivní komplementy (které musí být adjektivní) mají určený pád
- řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. – typicky se váže k podmětu)
- adverbia odvozená od adjektiv mají taky formém “adv” (i když ten zřejmě v automatické analýze měly stejně)
Číslovky
TODO
Opravy v n:attr
- pořadí těch slov neříká vůbec nic: ministr < Kalousek / Miroslav > Kalousek
- genitiv a instrumentál jsou dost pochybné, proto je potřeba chtít větší shodu
- shoda v rodě a čísle vcelku stačí
- u ostatních pádů (krom nominativu) stačí vynucovat shodu v čísle, protože u nich v podstatě není jiný důvod, aby se něco takového přihodilo
- u některých “labelů” není shoda potřeba - nutné je vyjmenovat: město Praha atd.
- u dvou jmen taky není shoda potřeba - tam je dokonce n:attr i v nominativu, což jinak nemá smysl
- pro nominativ nutné říct, jakého typu je který z názvů
- zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět – Coca Cola, ÚNMS SR
Entropie / MI
TODO
- adj:compl v angličtině nesedí s češtinou, věci jako “make sure[adj:compl]” ?
- v:rc nesedí s češtinou, nepoužívá se ale moc často → vyhodit ?
Postup slučování (návrh)
- Začít s otevřenou množinou formémů – přidávat všechny koreláty a pod.
- včetně slovesné diateze
- nominativ + shodné jmenovací věci
- varianta s řešením číslovek a bez
- Postupně slučovat
- diateze
- koreláty (generují se)
- nominativ - n:attr
- synonymní předložky
- possesiva a genitiv
Pomůcky
Regexp pro formémy
,[nvad]\(rop\)\?\(d[jv]\)\?\(:[^,]*\)\?,
Tree Query pro shodná substantiva na sobě závislá
t-node [ gram/sempos ~ '^n', a/lex.rf a-node $a := [ ], t-node [ gram/sempos ~ '^n.denot', !1+x a/aux.rf a-node [ ], a/lex.rf a-node [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];
Tree Query na (převážně) adjektivní doplňky
t-node [ functor = 'COMPL', is_generated != 1, !1+x a/aux.rf a-node [ m/lemma ~ '^(jako|coby)' ] ];