Differences

This shows you the differences between two versions of the page.

--- user:dusek:formemy [2011/09/29 15:14]
dusek vytvořeno
+++ user:dusek:formemy [2011/11/18 12:23]
dusek
@@ Line 1: / Line 1: @@
 ==== Nová verze českých formémů ====
+=== Motivace -- problémy staré verze ===
+  * používá ''sempos'', která by teoreticky ještě neměla být známá
+  * pracovalo se s lemmatem, ne se slovní formou, často tam zbývají ocásky lemmat
+  * adjektiva nemají nikdy určený pád, i když by ho potřebovala
+  * podst. jm. ve funkcích předložek (//v době války//, //v případě nouze// apod.)
+    * někde vlastně funguje
+  * koreláty (//kvůli tomu, že// apod.) -- částečně se generují !!!
+  * některé zbytečné formémy //von+1// a //van+1//, ve skutečnosti součást jmen
+=== Syntpos ===
+  * měla by být "skoro" jako sempos, ale nezávislá na funktorech (podle kterých se sempos v češtině rozděluje)
+  * podle tagu uzlu a tagu rodiče
+    * české POS tagy to vlastně desambiguují docela dobře
+    * vzácně i podle lemmatu (negativní a neurčitá zájmena ''PW'' a ''PZ'' jsou částečně substantivní, částečně adjektivní)
+=== Filtr na aux.rf ===
+  * původně se braly jen předložky, spojky, věci s afunem ''Aux[CP]'' a //jako//
+    * afun ''AuxR'' se nezohledňoval, asi i další věci
+  * teď je filtr negativní -- vyhazují se věci s tagem ''Z'', ''V'' (tj. pom. slovesa) a ''P7'' reflexiva a taky cokoliv, co už je součástí lemmatu
+    * to odstraní ''van'', ''von'', složená čísla a podobně
+  * dřív se braly lemmata od všeho, teď jen formy se zanedbanou vokalizací předložek
+    * u předložky, která je nejtěsněji před uzlem samotným na a-rovině, se bere zkrácené lemma
+=== Úpravy adjektiv ===
+  * possesiva jsou adj:poss místo n:poss (jde o FORMém)
+  * v podstatě kdekoliv (až na výjimky) může být adjektivum v substantivní pozici --> dostane pak substantivní formém
+    * vždy, pokud se adjektivum váže na předložku (vč. určeného pádu)
+  * adjektivní komplementy (které musí být adjektivní) mají určený pád
+    * řeší se přitom i doplňky, tam je natvrdo nacpaný 1. pád, pokud je doplněk nesklonný (sám, rád etc. -- typicky se váže k podmětu)
+  * adverbia odvozená od adjektiv mají taky formém "adv" (i když ten zřejmě v automatické analýze měly stejně)
+=== Číslovky ===
+TODO
 === Opravy v n:attr ===
@@ Line 11: / Line 45: @@
   * zkratky asi taky nemají smysl, většinou to bývá genitiv nebo nominativ jmenovací, i když není vidět -- //Coca Cola, ÚNMS SR//
-=== Postup slučování ===
+=== Entropie / MI ===
+  * v:rc v obou jazycích zvyšuje MI -- ponecháno
+  * v:attr -> adj:attr v angličtině entropii snižuje
+=== Postup slučování (návrh) ===
   * Začít s otevřenou množinou formémů -- přidávat všechny koreláty a pod.
     * včetně slovesné diateze
@@ Line 36: / Line 75: @@
            a/lex.rf a-node
            [ afun = 'Atr', substr(m/tag, 4, 1) ~ substr($a.m/tag, 4,1) ] ] ];
+== Tree Query na (převážně) adjektivní doplňky ==
+  t-node [ functor = 'COMPL', is_generated != 1, !1+x a/aux.rf a-node [ m/lemma ~ '^(jako|coby)' ] ];

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences