Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision Next revision Both sides next revision | ||
user:dusek:morpho_gen [2011/09/29 14:20] dusek vytvořeno |
user:dusek:morpho_gen [2011/10/05 12:19] dusek |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | ==== Generování morfologických atributů z formémů a gramatémů ==== | + | ==== Generování morfologických atributů z formémů a gramatémů |
=== Postup === | === Postup === | ||
* Nejdřív určit MainPOS a SubPOS, podle toho se budou určovat další featury | * Nejdřív určit MainPOS a SubPOS, podle toho se budou určovat další featury | ||
* Určit i Lemma, na základě zdrojového lemmatu (důležité hlavně pro #PersPron, ale i possesiva nebo cokoliv by se sbalovalo na t-rovině) | * Určit i Lemma, na základě zdrojového lemmatu (důležité hlavně pro #PersPron, ale i possesiva nebo cokoliv by se sbalovalo na t-rovině) | ||
+ | * lemma se mění na t-rovině u: #PersPron, possesiv, (číslovek, | ||
* něco obecnějšího na složené slovesné formy | * něco obecnějšího na složené slovesné formy | ||
+ | * do autom. skládání stromu z formémů (až po vygenerování všech funkcí; asi bude ale zvláštní funkce, protože to není to samé co auxy ve formému, časuje se to) | ||
+ | * možná jen mezikrok, který vyrobí ty formy | ||
+ | * možná mít celou složenou formu jako celek a dávat jí nejdřív jeden tag (-- včetně modálů? asi by vlastně nebyl problém, modál bude další kategorie) | ||
+ | * Získání složených slovesných forem (asi by šlo i na a-rovině): | ||
+ | |||
+ | t-node [ 1+x a/aux.rf a-node [ m/tag ~ ' | ||
=== Modely === | === Modely === | ||
* Jeden model na všechny POSy? Spíš asi dělené, na různá políčka různý, určování zleva doprava | * Jeden model na všechny POSy? Spíš asi dělené, na různá políčka různý, určování zleva doprava | ||
+ | * časem může být použit interset | ||
+ | * zřejmě tři bloky: | ||
+ | - určení slovního druhu | ||
+ | - doplnění konstant (podle formému a slovníku) | ||
+ | - určení jednotlivých morfologických hodnot | ||
+ | * hodí se, že první blok už bude mít rody všech substantiv doplněné | ||
+ | |||
+ | == určení slovního druhu == | ||
+ | * SubPOS podle č. morfologie | ||
+ | * vynechat slovesné formy -- bude se určovat čas | ||
+ | * vynechat vokalizaci předložek, | ||
+ | * v podstatě dost závislé na slovníku, až na některé případy -- možná pokud bude jednoznačné ze slovníku, určit podle něj (možná by stačily featury jako rod subst., možné tagy apod. -- model se slovníkem by byl trochu fuj; nebo jen filtrovaný slovník) | ||
+ | * ale modely trénovat globálně, v závislosti na první části formému (?) | ||
=== POSy a generované věci === | === POSy a generované věci === | ||
* drop -- přidá se k vyhození, negeneruje se nic | * drop -- přidá se k vyhození, negeneruje se nic | ||
- | * | + | * substantiva: |
+ | * adjektiva: číslo, negace, rod, pád (pokud není dán z formému) | ||
+ | * zájmena: číslo, negace, rod, pád (není-li dán z formému), possesivnost (v určení lemmatu? -- //svůj// apod.) | ||
+ | * číslovky: pád (není-li z formému), rod (není-li konstantní) | ||
+ | * možná až potom dát ReverseNounNumberDependendency, | ||
+ | * slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso | ||
+ | * předložky: | ||
=== Potřebné featury === | === Potřebné featury === | ||
+ | * IsSubject -- MarkSubject, | ||
+ | * tj. mít '' | ||
+ | * z+2, featury od toho, co na tom visí //pro adjektiva: " | ||
- | === Zůstává ruční | + | t-node [ a/lex.rf a-node [ m/lemma ~ ' |
- | * Reflexiva tantum, Subconjs, DropSubjPersProns (?), MoveCliticsToWackernagel, | + | * Koreference (gramatická) //pro " |
- | * AddPrepos, AddParentheses, | + | * rodič a jeho featury //pro adjektiva: governors gender// |
+ | * formém ovlivňuje gramatický slovesný čas -- v:že+fin, v:aby+fin | ||
+ | |||
+ | === Zůstává ruční / původní === | ||
+ | | ||
+ | * AddPrepos, AddParentheses, | ||
+ | * **GenerateWordForms -- nutné pročistit**, | ||
+ | * Vokalizace ? |