Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:dusek:formemy [2011/10/07 13:33] dusek |
user:dusek:formemy [2012/02/09 15:31] (current) dusek |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | ==== Nová verze českých formémů ==== | + | ===== Nová verze českých formémů |
| - | === Motivace === | + | === Motivace |
| * používá '' | * používá '' | ||
| - | * pracovalo se s lemmatem, ne se slovní formou | + | * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat |
| + | * adjektiva nemají nikdy určený pád, i když by ho potřebovala | ||
| * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.) | * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.) | ||
| + | * někde vlastně funguje | ||
| * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | ||
| - | * zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem | + | * některé |
| === Syntpos === | === Syntpos === | ||
| + | * měla by být " | ||
| + | * podle tagu uzlu a tagu rodiče | ||
| + | * české POS tagy to vlastně desambiguují docela dobře | ||
| + | * vzácně i podle lemmatu (negativní a neurčitá zájmena '' | ||
| + | |||
| + | === Filtr na aux.rf === | ||
| + | * původně se braly jen předložky, | ||
| + | * afun '' | ||
| + | * teď je filtr negativní -- vyhazují se věci s tagem '' | ||
| + | * to odstraní '' | ||
| + | * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek | ||
| + | * u předložky, | ||
| + | |||
| + | === Úpravy adjektiv === | ||
| + | * possesiva jsou adj:poss místo n:poss (jde o FORMém) | ||
| + | * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém | ||
| + | * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu) | ||
| + | * adjektivní komplementy (které musí být adjektivní) mají určený pád | ||
| + | * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu) | ||
| + | * adverbia odvozená od adjektiv mají taky formém " | ||
| + | |||
| + | === Číslovky === | ||
| TODO | TODO | ||
| Line 22: | Line 45: | ||
| * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | ||
| - | === Entropie === | + | === Entropie |
| - | TODO | + | |
| + | * v:rc v obou jazycích zvyšuje MI -- ponecháno | ||
| + | * v:attr -> adj:attr v angličtině entropii snižuje | ||
| === Postup slučování (návrh) === | === Postup slučování (návrh) === | ||
| Line 37: | Line 62: | ||
| * possesiva a genitiv | * possesiva a genitiv | ||
| - | === Pomůcky === | + | ===== TODO ===== |
| + | |||
| + | * opravit " | ||
| + | * Zvážit vytvoření formémů n: | ||
| + | |||
| + | ===== Pomůcky | ||
| == Regexp pro formémy == | == Regexp pro formémy == | ||
