[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Next revision Both sides next revision
user:dusek:formemy [2011/09/29 15:14]
dusek vytvořeno
user:dusek:formemy [2011/11/18 12:23]
dusek
Line 1: Line 1:
 ==== Nová verze českých formémů ==== ==== Nová verze českých formémů ====
 +
 +=== Motivace -- problémy staré verze === 
 +  * používá ''sempos'', která by teoreticky ještě neměla být známá
 +  * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat
 +  * adjektiva nemají nikdy určený pád, i když by ho potřebovala
 +  * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.)
 +    * někde vlastně funguje
 +  * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!
 +  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen
 +
 +=== Syntpos ===
 +  * měla by být "skoro" jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
 +  * podle tagu uzlu a tagu rodiče
 +    * české POS tagy to vlastně desambiguují docela dobře
 +    * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní)
 +
 +=== Filtr na aux.rf ===
 +  * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako//
 +    * afun ''AuxR'' se nezohledňoval, asi i další věci
 +  * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu
 +    * to odstraní ''van'', ''von'', složená čísla a podobně
 +  * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek
 +    * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
 +
 +=== Úpravy adjektiv ===
 +  * possesiva jsou adj:poss místo n:poss (jde o FORMém)
 +  * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém
 +    * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
 +  * adjektivní komplementy (které musí být adjektivní) mají určený pád
 +    * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu)
 +  * adverbia odvozená od adjektiv mají taky formém "adv" (i když ten zřejmě v automatické analýze měly stejně)
 +
 +=== Číslovky ===
 +TODO
  
 === Opravy v n:attr === === Opravy v n:attr ===
Line 11: Line 45:
   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//
  
-=== Postup slučování ===+=== Entropie / MI === 
 + 
 +  * v:rc v obou jazycích zvyšuje MI -- ponecháno 
 +  * v:attr -> adj:attr v angličtině entropii snižuje 
 + 
 +=== Postup slučování (návrh) ===
   * Začít s otevřenou množinou formémů -- přidávat všechny koreláty a pod.   * Začít s otevřenou množinou formémů -- přidávat všechny koreláty a pod.
     * včetně slovesné diateze     * včetně slovesné diateze
Line 36: Line 75:
            a/lex.rf a-node            a/lex.rf a-node
            [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];            [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];
 +== Tree Query na (převážně) adjektivní doplňky ==
 +  t-node [ functor = 'COMPL', is_generated != 1, !1+x a/aux.rf a-node [ m/lemma ~ '^(jako|coby)' ] ];
  

[ Back to the navigation ] [ Back to the content ]