Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:dusek:formemy [2011/10/17 16:31] dusek |
user:dusek:formemy [2012/02/09 15:31] (current) dusek |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| - | ==== Nová verze českých formémů ==== | + | ===== Nová verze českých formémů |
| - | === Motivace === | + | === Motivace |
| * používá '' | * používá '' | ||
| - | * pracovalo se s lemmatem, ne se slovní formou | + | * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat |
| + | * adjektiva nemají nikdy určený pád, i když by ho potřebovala | ||
| * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.) | * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.) | ||
| + | * někde vlastně funguje | ||
| * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | ||
| - | * zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem | + | * některé |
| + | === Syntpos === | ||
| + | * měla by být " | ||
| + | * podle tagu uzlu a tagu rodiče | ||
| + | * české POS tagy to vlastně desambiguují docela dobře | ||
| + | * vzácně i podle lemmatu (negativní a neurčitá zájmena '' | ||
| - | === Syntpos | + | === Filtr na aux.rf |
| - | TODO | + | * původně se braly jen předložky, |
| + | * afun '' | ||
| + | * teď je filtr negativní -- vyhazují se věci s tagem '' | ||
| + | * to odstraní '' | ||
| + | * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek | ||
| + | * u předložky, | ||
| === Úpravy adjektiv === | === Úpravy adjektiv === | ||
| + | * possesiva jsou adj:poss místo n:poss (jde o FORMém) | ||
| * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém | * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém | ||
| * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu) | * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu) | ||
| Line 18: | Line 31: | ||
| * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu) | * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu) | ||
| * adverbia odvozená od adjektiv mají taky formém " | * adverbia odvozená od adjektiv mají taky formém " | ||
| + | |||
| + | === Číslovky === | ||
| + | TODO | ||
| === Opravy v n:attr === | === Opravy v n:attr === | ||
| Line 29: | Line 45: | ||
| * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | ||
| - | === Entropie === | + | === Entropie |
| - | TODO | + | |
| + | * v:rc v obou jazycích zvyšuje MI -- ponecháno | ||
| + | * v:attr -> adj:attr v angličtině entropii snižuje | ||
| === Postup slučování (návrh) === | === Postup slučování (návrh) === | ||
| Line 44: | Line 62: | ||
| * possesiva a genitiv | * possesiva a genitiv | ||
| - | === Pomůcky === | + | ===== TODO ===== |
| + | |||
| + | * opravit " | ||
| + | * Zvážit vytvoření formémů n: | ||
| + | |||
| + | ===== Pomůcky | ||
| == Regexp pro formémy == | == Regexp pro formémy == | ||
