Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:dusek:formemy [2011/09/29 15:18] dusek |
user:dusek:formemy [2012/02/09 15:31] (current) dusek |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ==== Nová verze českých formémů ==== | + | ===== Nová verze českých formémů |
- | === Motivace === | + | === Motivace |
* používá '' | * používá '' | ||
- | * pracovalo se s lemmatem, ne se slovní formou | + | * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat |
+ | * adjektiva nemají nikdy určený pád, i když by ho potřebovala | ||
* podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.) | * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.) | ||
+ | * někde vlastně funguje | ||
* koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | ||
- | * zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem | + | * některé |
=== Syntpos === | === Syntpos === | ||
+ | * měla by být " | ||
+ | * podle tagu uzlu a tagu rodiče | ||
+ | * české POS tagy to vlastně desambiguují docela dobře | ||
+ | * vzácně i podle lemmatu (negativní a neurčitá zájmena '' | ||
+ | |||
+ | === Filtr na aux.rf === | ||
+ | * původně se braly jen předložky, | ||
+ | * afun '' | ||
+ | * teď je filtr negativní -- vyhazují se věci s tagem '' | ||
+ | * to odstraní '' | ||
+ | * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek | ||
+ | * u předložky, | ||
+ | |||
+ | === Úpravy adjektiv === | ||
+ | * possesiva jsou adj:poss místo n:poss (jde o FORMém) | ||
+ | * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém | ||
+ | * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu) | ||
+ | * adjektivní komplementy (které musí být adjektivní) mají určený pád | ||
+ | * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu) | ||
+ | * adverbia odvozená od adjektiv mají taky formém " | ||
+ | |||
+ | === Číslovky === | ||
TODO | TODO | ||
Line 22: | Line 45: | ||
* zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | ||
- | === Entropie === | + | === Entropie |
- | TODO | + | |
+ | * v:rc v obou jazycích zvyšuje MI -- ponecháno | ||
+ | * v:attr -> adj:attr v angličtině entropii snižuje | ||
=== Postup slučování (návrh) === | === Postup slučování (návrh) === | ||
Line 37: | Line 62: | ||
* possesiva a genitiv | * possesiva a genitiv | ||
- | === Pomůcky === | + | ===== TODO ===== |
+ | |||
+ | * opravit " | ||
+ | * Zvážit vytvoření formémů n: | ||
+ | |||
+ | ===== Pomůcky | ||
== Regexp pro formémy == | == Regexp pro formémy == | ||
Line 50: | Line 80: | ||
| | ||
[ afun = ' | [ afun = ' | ||
+ | == Tree Query na (převážně) adjektivní doplňky == | ||
+ | t-node [ functor = ' | ||