This is an old revision of the document!
Generování morfologických atributů z formémů a gramatémů (návrh)
Postup
- Nejdřív určit MainPOS a SubPOS, podle toho se budou určovat další featury
- Určit i Lemma, na základě zdrojového lemmatu (důležité hlavně pro #PersPron, ale i possesiva nebo cokoliv by se sbalovalo na t-rovině)
- lemma se mění na t-rovině u: #PersPron, possesiv, (číslovek, deadjektivních adverbií, neurčitých zájmen – jen opravdová, ne automatická)
- něco obecnějšího na složené slovesné formy
- do autom. skládání stromu z formémů (až po vygenerování všech funkcí; asi bude ale zvláštní funkce, protože to není to samé co auxy ve formému, časuje se to)
- možná jen mezikrok, který vyrobí ty formy
- možná mít celou složenou formu jako celek a dávat jí nejdřív jeden tag (– včetně modálů? asi by vlastně nebyl problém, modál bude další kategorie)
- Získání složených slovesných forem (asi by šlo i na a-rovině):
t-node [ 1+x a/aux.rf a-node [ m/tag ~ '^V' ], a/lex.rf a-node [ m/tag ~ '^V' ] ];
Modely
- Jeden model na všechny POSy? Spíš asi dělené, na různá políčka různý, určování zleva doprava
- časem může být použit interset
- nejprve doplnit konstantní vlastnosti, potom určování ostatních i na základně nich
- zřejmě tři bloky:
- určení slovního druhu
- doplnění konstant
- určení jednotlivých morfologických hodnot
- hodí se, že první blok už bude mít rody všech substantiv doplněné
určení slovního druhu
- SubPOS podle č. morfologie
- vynechat slovesné formy – bude se určovat čas
- vynechat vokalizaci předložek, bude se určovat zvlášť
POSy a generované věci
- drop – přidá se k vyhození, negeneruje se nic
- substantiva: jen číslo a negace (pád z formému, rod ze slovníku)
- adjektiva: číslo, negace, rod, pád (pokud není dán z formému)
- zájmena: číslo, negace, rod, pád (není-li dán z formému), possesivnost (v určení lemmatu? – svůj apod.)
- číslovky: pád (není-li z formému), rod (není-li konstantní)
- možná až potom dát ReverseNounNumberDependendency, aby to nedělalo bordel
- slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso
- předložky: vokalizace ?
Potřebné featury
- IsSubject – MarkSubject, featury od subjectu pro agreement, hl. sloves, ale i adjektivních komplementů
- tj. mít
subject→
vLayerAttributes
!!
- z+2, featury od toho, co na tom visí pro adjektiva: “každý z mužů, každá z žen”
- Koreference (gramatická) pro “který”, vztažná zájmena
- rodič a jeho featury pro adjektiva: governors gender
Zůstává ruční / původní
- Reflexiva tantum, Subconjs, DropSubjPersProns (?), MoveCliticsToWackernagel, Expletiva (?)
- AddPrepos, AddParentheses, AddPunctuation – hodně obecné, asi by se dalo generaliozvat!
- GenerateWordForms – nutné pročistit, je v tom bordel
- Vokalizace ?