Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:dusek:formemy [2011/10/17 18:25] dusek |
user:dusek:formemy [2012/02/09 15:31] (current) dusek |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ==== Nová verze českých formémů ==== | + | ===== Nová verze českých formémů |
=== Motivace -- problémy staré verze === | === Motivace -- problémy staré verze === | ||
Line 8: | Line 8: | ||
* někde vlastně funguje | * někde vlastně funguje | ||
* koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!! | ||
- | * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součástem | + | * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen |
=== Syntpos === | === Syntpos === | ||
Line 15: | Line 15: | ||
* české POS tagy to vlastně desambiguují docela dobře | * české POS tagy to vlastně desambiguují docela dobře | ||
* vzácně i podle lemmatu (negativní a neurčitá zájmena '' | * vzácně i podle lemmatu (negativní a neurčitá zájmena '' | ||
+ | |||
+ | === Filtr na aux.rf === | ||
+ | * původně se braly jen předložky, | ||
+ | * afun '' | ||
+ | * teď je filtr negativní -- vyhazují se věci s tagem '' | ||
+ | * to odstraní '' | ||
+ | * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek | ||
+ | * u předložky, | ||
=== Úpravy adjektiv === | === Úpravy adjektiv === | ||
Line 37: | Line 45: | ||
* zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR// | ||
- | === Entropie === | + | === Entropie |
- | TODO | + | |
+ | * v:rc v obou jazycích zvyšuje MI -- ponecháno | ||
+ | * v:attr -> adj:attr v angličtině entropii snižuje | ||
=== Postup slučování (návrh) === | === Postup slučování (návrh) === | ||
Line 52: | Line 62: | ||
* possesiva a genitiv | * possesiva a genitiv | ||
- | === Pomůcky === | + | ===== TODO ===== |
+ | |||
+ | * opravit " | ||
+ | * Zvážit vytvoření formémů n: | ||
+ | |||
+ | ===== Pomůcky | ||
== Regexp pro formémy == | == Regexp pro formémy == |