Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:dusek:morpho_gen [2011/10/05 12:07] dusek |
user:dusek:morpho_gen [2012/07/30 12:58] (current) dusek |
||
|---|---|---|---|
| Line 21: | Line 21: | ||
| - určení jednotlivých morfologických hodnot | - určení jednotlivých morfologických hodnot | ||
| * hodí se, že první blok už bude mít rody všech substantiv doplněné | * hodí se, že první blok už bude mít rody všech substantiv doplněné | ||
| + | * trénování na zlatých formémech ? aby se netloukly s tím výsledkem ? | ||
| + | * potom možná bude nižší accuracy, ale větší gramatikalicita -- asi by se mělo změřit | ||
| == určení slovního druhu == | == určení slovního druhu == | ||
| Line 26: | Line 28: | ||
| * vynechat slovesné formy -- bude se určovat čas | * vynechat slovesné formy -- bude se určovat čas | ||
| * vynechat vokalizaci předložek, | * vynechat vokalizaci předložek, | ||
| - | * v podstatě dost závislé na slovníku, až na některé případy -- možná pokud bude jednoznačné | + | * u většiny slov jednoznačné, |
| - | * ale modely | + | * přímo z t_lemma & formém se dá určit |
| + | * šlo by mít modely jen pro nejednoznačné případy, pro ostatní je generovat z MorphoLM (a brát první, co přijde) nebo mít uložené ve slovníku a jako fallback až LM | ||
| + | * zřejmě nejde mít jeden velký | ||
| + | * modely: pro každé slovo zvlášť, tj. určení jen těch pár tříd | ||
| === POSy a generované věci === | === POSy a generované věci === | ||
| Line 36: | Line 41: | ||
| * číslovky: pád (není-li z formému), rod (není-li konstantní) | * číslovky: pád (není-li z formému), rod (není-li konstantní) | ||
| * možná až potom dát ReverseNounNumberDependendency, | * možná až potom dát ReverseNounNumberDependendency, | ||
| - | * slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso | + | * slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso, negace |
| * předložky: | * předložky: | ||
| Line 48: | Line 53: | ||
| * Koreference (gramatická) //pro " | * Koreference (gramatická) //pro " | ||
| * rodič a jeho featury //pro adjektiva: governors gender// | * rodič a jeho featury //pro adjektiva: governors gender// | ||
| + | * formém ovlivňuje gramatický slovesný čas -- v:že+fin, v:aby+fin, negaci: v: | ||
| === Zůstává ruční / původní === | === Zůstává ruční / původní === | ||
| Line 54: | Line 60: | ||
| * **GenerateWordForms -- nutné pročistit**, | * **GenerateWordForms -- nutné pročistit**, | ||
| * Vokalizace ? | * Vokalizace ? | ||
| + | |||
| + | ==== Slovesa ==== | ||
| + | * Generování slovesných forem -- jednoduché ML na závorkový zápis | ||
| + | * Výsledky: varianty pokusů: | ||
| + | |||
| + | ^ pokus ^ popis ^ datum ^ accuracy ^ | ||
| + | | verbal | ||
| + | | verbal-person | ||
| + | | verbal-persfeat | ||
| + | | verbal-normalized | ||
| + | | verbal-inf_mod_fix | normalizované pořadí v targetu, sjednocené modály, deontmod + is_modal | ||
| + | | verbal-uni_mod | ||
| + | |||
| + | * Výsledky nejsou úplně porovnatelné, | ||
| + | * aktuálně se používá verbal-uni_mod (proč?) | ||
| + | |||
| + | === TODO === | ||
| + | * nastavit nějak líp cost -- asi menší regularizaci, | ||
| + | * přitom zřejmě chyby budou výjimečné (protože prostor featur je hodně hustý a ke každé chybě bude existovat i správný příklad) | ||
| + | * možná filtrovat nemožné příklady (neshodné aux.rf se zlatými? kolik to bude %?) | ||
| + | * váhy příkladům (čím delší string, tím větší váha :-)) | ||
| + | * opravit nějak generování " | ||
| + | |||
