Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:dusek:morpho_gen [2011/09/29 14:35] dusek |
user:dusek:morpho_gen [2012/07/30 12:58] (current) dusek |
||
---|---|---|---|
Line 4: | Line 4: | ||
* Nejdřív určit MainPOS a SubPOS, podle toho se budou určovat další featury | * Nejdřív určit MainPOS a SubPOS, podle toho se budou určovat další featury | ||
* Určit i Lemma, na základě zdrojového lemmatu (důležité hlavně pro #PersPron, ale i possesiva nebo cokoliv by se sbalovalo na t-rovině) | * Určit i Lemma, na základě zdrojového lemmatu (důležité hlavně pro #PersPron, ale i possesiva nebo cokoliv by se sbalovalo na t-rovině) | ||
- | * mění | + | * lemma se mění |
* něco obecnějšího na složené slovesné formy | * něco obecnějšího na složené slovesné formy | ||
- | * do autom. skládání stromu z formémů (?) | + | * do autom. skládání stromu z formémů (až po vygenerování všech funkcí; asi bude ale zvláštní funkce, protože to není to samé co auxy ve formému, časuje se to) |
+ | * možná jen mezikrok, který vyrobí ty formy | ||
+ | * možná mít celou složenou formu jako celek a dávat jí nejdřív jeden tag (-- včetně modálů? asi by vlastně nebyl problém, modál bude další kategorie) | ||
+ | * Získání složených slovesných forem (asi by šlo i na a-rovině): | ||
+ | |||
+ | t-node [ 1+x a/aux.rf a-node [ m/tag ~ ' | ||
=== Modely === | === Modely === | ||
* Jeden model na všechny POSy? Spíš asi dělené, na různá políčka různý, určování zleva doprava | * Jeden model na všechny POSy? Spíš asi dělené, na různá políčka různý, určování zleva doprava | ||
* časem může být použit interset | * časem může být použit interset | ||
- | * první | + | * zřejmě tři bloky: |
+ | - určení slovního druhu | ||
+ | - doplnění konstant (podle formému a slovníku) | ||
+ | - určení jednotlivých morfologických hodnot | ||
+ | * hodí se, že první | ||
+ | * trénování na zlatých formémech ? aby se netloukly s tím výsledkem ? | ||
+ | * potom možná bude nižší accuracy, ale větší gramatikalicita -- asi by se mělo změřit | ||
+ | |||
+ | == určení slovního druhu == | ||
+ | * SubPOS podle č. morfologie | ||
+ | * vynechat slovesné formy -- bude se určovat čas | ||
+ | * vynechat vokalizaci předložek, | ||
+ | * u většiny slov jednoznačné, | ||
+ | * přímo z t_lemma & formém se dá určit 99% případů | ||
+ | * šlo by mít modely jen pro nejednoznačné případy, pro ostatní je generovat z MorphoLM (a brát první, co přijde) nebo mít uložené ve slovníku a jako fallback až LM | ||
+ | * zřejmě nejde mít jeden velký model, který by ošetřil všechny triviální případy -- bude nutné si udělat pls.gz | ||
+ | * modely: pro každé slovo zvlášť, tj. určení jen těch pár tříd | ||
=== POSy a generované věci === | === POSy a generované věci === | ||
Line 18: | Line 39: | ||
* adjektiva: číslo, negace, rod, pád (pokud není dán z formému) | * adjektiva: číslo, negace, rod, pád (pokud není dán z formému) | ||
* zájmena: číslo, negace, rod, pád (není-li dán z formému), possesivnost (v určení lemmatu? -- //svůj// apod.) | * zájmena: číslo, negace, rod, pád (není-li dán z formému), possesivnost (v určení lemmatu? -- //svůj// apod.) | ||
- | * číslovky: pád (není-li z formému) | + | * číslovky: pád (není-li z formému), rod (není-li konstantní) |
* možná až potom dát ReverseNounNumberDependendency, | * možná až potom dát ReverseNounNumberDependendency, | ||
+ | * slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso, negace | ||
+ | * předložky: | ||
=== Potřebné featury === | === Potřebné featury === | ||
* IsSubject -- MarkSubject, | * IsSubject -- MarkSubject, | ||
+ | * tj. mít '' | ||
* z+2, featury od toho, co na tom visí //pro adjektiva: " | * z+2, featury od toho, co na tom visí //pro adjektiva: " | ||
+ | |||
+ | t-node [ a/lex.rf a-node [ m/lemma ~ ' | ||
+ | |||
* Koreference (gramatická) //pro " | * Koreference (gramatická) //pro " | ||
* rodič a jeho featury //pro adjektiva: governors gender// | * rodič a jeho featury //pro adjektiva: governors gender// | ||
- | * | + | * formém ovlivňuje gramatický slovesný čas -- v:že+fin, v:aby+fin, negaci: v: |
=== Zůstává ruční / původní === | === Zůstává ruční / původní === | ||
* Reflexiva tantum, Subconjs, DropSubjPersProns (?), MoveCliticsToWackernagel, | * Reflexiva tantum, Subconjs, DropSubjPersProns (?), MoveCliticsToWackernagel, | ||
* AddPrepos, AddParentheses, | * AddPrepos, AddParentheses, | ||
- | * GenerateWordForms -- nutné pročistit, je v tom bordel | + | |
+ | * Vokalizace ? | ||
+ | |||
+ | ==== Slovesa ==== | ||
+ | * Generování slovesných forem -- jednoduché ML na závorkový zápis | ||
+ | * Výsledky: varianty pokusů: | ||
+ | |||
+ | ^ pokus ^ popis ^ datum ^ accuracy ^ | ||
+ | | verbal | ||
+ | | verbal-person | ||
+ | | verbal-persfeat | ||
+ | | verbal-normalized | ||
+ | | verbal-inf_mod_fix | normalizované pořadí v targetu, sjednocené modály, deontmod + is_modal | ||
+ | | verbal-uni_mod | ||
+ | |||
+ | * Výsledky nejsou úplně porovnatelné, | ||
+ | * aktuálně se používá verbal-uni_mod (proč?) | ||
+ | |||
+ | === TODO === | ||
+ | * nastavit nějak líp cost -- asi menší regularizaci, | ||
+ | * přitom zřejmě chyby budou výjimečné (protože prostor featur je hodně hustý a ke každé chybě bude existovat i správný příklad) | ||
+ | * možná filtrovat nemožné příklady (neshodné aux.rf se zlatými? kolik to bude %?) | ||
+ | * váhy příkladům (čím delší string, tím větší váha :-)) | ||
+ | * opravit nějak generování " |