user:dusek:formemy [ufal wiki]

Nová verze českých formémů
TODO
Pomůcky

Nová verze českých formémů

Motivace -- problémy staré verze

používá sempos, která by teoreticky ještě neměla být známá
pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat
adjektiva nemají nikdy určený pád, i když by ho potřebovala
podst. jm. ve funkcích předložek (v době války, v případě nouze apod.)
- někde vlastně funguje
koreláty (kvůli tomu, že apod.) – částečně se generují !!!
některé zbytečné formémy von+1 a van+1, ve skutečnosti součást jmen

Syntpos

měla by být “skoro” jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
podle tagu uzlu a tagu rodiče
- české POS tagy to vlastně desambiguují docela dobře
- vzácně i podle lemmatu (negativní a neurčitá zájmena PW a PZ jsou částečně substantivní, částečně adjektivní)

Filtr na aux.rf

původně se braly jen předložky, spojky, věci s afunem Aux[CP] a jako
- afun AuxR se nezohledňoval, asi i další věci
teď je filtr negativní – vyhazují se věci s tagem Z, V (tj. pom. slovesa) a P7 reflexiva a taky cokoliv, co už je součástí lemmatu
- to odstraní van, von, složená čísla a podobně
dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek
- u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma

Úpravy adjektiv

possesiva jsou adj:poss místo n:poss (jde o FORMém)
v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici –> dostane pak substantivní formém
- vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
adjektivní komplementy (které musí být adjektivní) mají určený pád
- řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. – typicky se váže k podmětu)
adverbia odvozená od adjektiv mají taky formém “adv” (i když ten zřejmě v automatické analýze měly stejně)

Číslovky

TODO

Opravy v n:attr

pořadí těch slov neříká vůbec nic: ministr < Kalousek / Miroslav > Kalousek
genitiv a instrumentál jsou dost pochybné, proto je potřeba chtít větší shodu
- shoda v rodě a čísle vcelku stačí
u ostatních pádů (krom nominativu) stačí vynucovat shodu v čísle, protože u nich v podstatě není jiný důvod, aby se něco takového přihodilo
u některých “labelů” není shoda potřeba - nutné je vyjmenovat: město Praha atd.
u dvou jmen taky není shoda potřeba - tam je dokonce n:attr i v nominativu, což jinak nemá smysl
- pro nominativ nutné říct, jakého typu je který z názvů
zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět – Coca Cola, ÚNMS SR

Entropie / MI

v:rc v obou jazycích zvyšuje MI – ponecháno
v:attr → adj:attr v angličtině entropii snižuje

Postup slučování (návrh)

Začít s otevřenou množinou formémů – přidávat všechny koreláty a pod.
- včetně slovesné diateze
- nominativ + shodné jmenovací věci
- varianta s řešením číslovek a bez
Postupně slučovat
- diateze
- koreláty (generují se)
- nominativ - n:attr
- synonymní předložky
- possesiva a genitiv

TODO

opravit “něčí”, mělo by být adj:poss
Zvážit vytvoření formémů n:jako+attr, n:než+attr.

Pomůcky

Regexp pro formémy

,[nvad]\(rop\)\?\(d[jv]\)\?\(:[^,]*\)\?,

Tree Query pro shodná substantiva na sobě závislá

t-node
[ gram/sempos ~ '^n',
    a/lex.rf a-node $a := [  ],
    t-node
    [ gram/sempos ~ '^n.denot', !1+x a/aux.rf a-node [  ],
         a/lex.rf a-node
         [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];

Tree Query na (převážně) adjektivní doplňky

t-node [ functor = 'COMPL', is_generated != 1, !1+x a/aux.rf a-node [ m/lemma ~ '^(jako|coby)' ] ];

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Table of Contents

Nová verze českých formémů

Motivace -- problémy staré verze

Syntpos

Filtr na aux.rf

Úpravy adjektiv

Číslovky

Opravy v n:attr

Entropie / MI

Postup slučování (návrh)

TODO

Pomůcky

Regexp pro formémy

Tree Query pro shodná substantiva na sobě závislá

Tree Query na (převážně) adjektivní doplňky