This is an old revision of the document!
Nová verze českých formémů
Motivace
- používá
sempos
, která by teoreticky ještě neměla být známá - pracovalo se s lemmatem, ne se slovní formou
- podst. jm. ve funkcích předložek (v době války, v případě nouze apod.)
- koreláty (kvůli tomu, že apod.) – částečně se generují !!!
- zbytečné formémy von+1 a van+1, ve skutečnosti součástem jmen
Syntpos
TODO
Opravy v n:attr
- pořadí těch slov neříká vůbec nic: ministr < Kalousek / Miroslav > Kalousek
- genitiv a instrumentál jsou dost pochybné, proto je potřeba chtít větší shodu
- shoda v rodě a čísle vcelku stačí
- u ostatních pádů (krom nominativu) stačí vynucovat shodu v čísle, protože u nich v podstatě není jiný důvod, aby se něco takového přihodilo
- u některých “labelů” není shoda potřeba - nutné je vyjmenovat: město Praha atd.
- u dvou jmen taky není shoda potřeba - tam je dokonce n:attr i v nominativu, což jinak nemá smysl
- pro nominativ nutné říct, jakého typu je který z názvů
- zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět – Coca Cola, ÚNMS SR
Entropie
TODO
Postup slučování (návrh)
- Začít s otevřenou množinou formémů – přidávat všechny koreláty a pod.
- včetně slovesné diateze
- nominativ + shodné jmenovací věci
- varianta s řešením číslovek a bez
- Postupně slučovat
- diateze
- koreláty (generují se)
- nominativ - n:attr
- synonymní předložky
- possesiva a genitiv
Pomůcky
Regexp pro formémy
,[nvad]\(rop\)\?\(d[jv]\)\?\(:[^,]*\)\?,
Tree Query pro shodná substantiva na sobě závislá
t-node [ gram/sempos ~ '^n', a/lex.rf a-node $a := [ ], t-node [ gram/sempos ~ '^n.denot', !1+x a/aux.rf a-node [ ], a/lex.rf a-node [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];