Differences

This shows you the differences between two versions of the page.

--- user:dusek:morpho_gen [2011/10/03 16:56]
dusek
+++ user:dusek:morpho_gen [2011/10/05 12:07]
dusek
@@ Line 6: / Line 6: @@
     * lemma se mění na t-rovině u: #PersPron, possesiv, (číslovek, deadjektivních adverbií, neurčitých zájmen -- jen opravdová, ne automatická)
   * něco obecnějšího na složené slovesné formy
-    * do autom. skládání stromu z formémů (až po vygenerování všech funkcí)
+    * do autom. skládání stromu z formémů (až po vygenerování všech funkcí; asi bude ale zvláštní funkce, protože to není to samé co auxy ve formému, časuje se to)
-    * možná mít celou složenou formu jako celek a dávat jí nejdřív jeden tag (?)
+      * možná jen mezikrok, který vyrobí ty formy
+    * možná mít celou složenou formu jako celek a dávat jí nejdřív jeden tag (-- včetně modálů? asi by vlastně nebyl problém, modál bude další kategorie)
     * Získání složených slovesných forem (asi by šlo i na a-rovině):
   t-node [ 1+x a/aux.rf a-node [ m/tag ~ '^V' ], a/lex.rf a-node [ m/tag ~ '^V' ] ];
@@ Line 14: / Line 16: @@
   * Jeden model na všechny POSy? Spíš asi dělené, na různá políčka různý, určování zleva doprava
     * časem může být použit interset
-  * nejprve doplnit konstantní vlastnosti, potom určování ostatních i na základně nich
+  * zřejmě tři bloky:
-  * zřejmě dva bloky -- jeden pro určení slovního druhu a doplnění konstant, druhý pro určení jednotlivých morfologických hodnot
+    - určení slovního druhu
+    - doplnění konstant (podle formému a slovníku)
+    - určení jednotlivých morfologických hodnot
+  * hodí se, že první blok už bude mít rody všech substantiv doplněné
+== určení slovního druhu ==
+  * SubPOS podle č. morfologie
+  * vynechat slovesné formy -- bude se určovat čas
+  * vynechat vokalizaci předložek, bude se určovat zvlášť
+  * v podstatě dost závislé na slovníku, až na některé případy -- možná pokud bude jednoznačné ze slovníku, určit podle něj (možná by stačily featury jako rod subst., možné tagy apod. -- model se slovníkem by byl trochu fuj; nebo jen filtrovaný slovník)
+    * ale modely trénovat globálně, v závislosti na první části formému (?)
 === POSy a generované věci ===
@@ Line 22: / Line 34: @@
   * adjektiva: číslo, negace, rod, pád (pokud není dán z formému)
   * zájmena: číslo, negace, rod, pád (není-li dán z formému), possesivnost (v určení lemmatu? -- //svůj// apod.)
-  * číslovky: pád (není-li z formému)
+  * číslovky: pád (není-li z formému), rod (není-li konstantní)
     * možná až potom dát ReverseNounNumberDependendency, aby to nedělalo bordel
+  * slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso
+  * předložky: vokalizace ?
 === Potřebné featury ===
   * IsSubject -- MarkSubject, featury od subjectu //pro agreement, hl. sloves, ale i adjektivních komplementů//
+    * tj. mít ''subject->'' v ''LayerAttributes'' !!
   * z+2, featury od toho, co na tom visí //pro adjektiva: "každý z mužů, každá z žen"//
+  t-node [ a/lex.rf a-node [ m/lemma ~ '^každý$' ], t-node [ a/aux.rf a-node [ m/form ~ '^z(e)?$' ] ] ];
   * Koreference (gramatická) //pro "který", vztažná zájmena//
   * rodič a jeho featury //pro adjektiva: governors gender//
@@ Line 34: / Line 52: @@
   * Reflexiva tantum, Subconjs, DropSubjPersProns (?),  MoveCliticsToWackernagel, Expletiva (?)
   * AddPrepos, AddParentheses, AddPunctuation -- hodně obecné, asi by se dalo generaliozvat!
-  * GenerateWordForms -- nutné pročistit, je v tom bordel
+  * **GenerateWordForms -- nutné pročistit**, je v tom bordel
+  * Vokalizace ?

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences