[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:dusek:morpho_gen [2011/10/05 12:19]
dusek
user:dusek:morpho_gen [2012/07/30 12:58] (current)
dusek
Line 21: Line 21:
     - určení jednotlivých morfologických hodnot     - určení jednotlivých morfologických hodnot
   * hodí se, že první blok už bude mít rody všech substantiv doplněné   * hodí se, že první blok už bude mít rody všech substantiv doplněné
 +  * trénování na zlatých formémech ? aby se netloukly s tím výsledkem ?
 +    * potom možná bude nižší accuracy, ale větší gramatikalicita -- asi by se mělo změřit
  
 == určení slovního druhu == == určení slovního druhu ==
Line 26: Line 28:
   * vynechat slovesné formy -- bude se určovat čas   * vynechat slovesné formy -- bude se určovat čas
   * vynechat vokalizaci předložek, bude se určovat zvlášť   * vynechat vokalizaci předložek, bude se určovat zvlášť
-  * v podstatě dost závislé na slovníku, až na některé případy -- možná pokud bude jednoznačné ze slovníku, určit podle něj (možná by stačily featury jako rod subst.možné tagy apod. -- model se slovníkem by byl trochu fuj; nebo jen filtrovaný slovník) +  * tšiny slov jednoznačné, je pár složitých, nejhorší je #PersPron 
-    * ale modely trénovat globálněv závislosti na první části formému (?)+    * přímo z t_lemma & formém se dá určit 99% případů 
 +    * šlo by mít modely jen pro nejednoznačné případypro ostatní je generovat z MorphoLM (a brát první, co přijde) nebo mít uložené ve slovníku a jako fallback až LM 
 +      * zřejmě nejde mít jeden velký model, který by ošetřil všechny triviální případy -- bude nutné si udělat pls.gz 
 +    * modely: pro každé slovo zvlášťtj. určení jen těch pár tříd
  
 === POSy a generované věci === === POSy a generované věci ===
Line 36: Line 41:
   * číslovky: pád (není-li z formému), rod (není-li konstantní)   * číslovky: pád (není-li z formému), rod (není-li konstantní)
     * možná až potom dát ReverseNounNumberDependendency, aby to nedělalo bordel     * možná až potom dát ReverseNounNumberDependendency, aby to nedělalo bordel
-  * slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso+  * slovesa: osoba, číslo, čas, rod (v tagu samotném), modální sloveso, negace
   * předložky: vokalizace ?   * předložky: vokalizace ?
  
Line 48: Line 53:
   * Koreference (gramatická) //pro "který", vztažná zájmena//   * Koreference (gramatická) //pro "který", vztažná zájmena//
   * rodič a jeho featury //pro adjektiva: governors gender//   * rodič a jeho featury //pro adjektiva: governors gender//
-  * formém ovlivňuje gramatický slovesný čas -- v:že+fin, v:aby+fin+  * formém ovlivňuje gramatický slovesný čas -- v:že+fin, v:aby+fin, negaci: v:dokud+fin, v:než+fin
  
 === Zůstává ruční / původní === === Zůstává ruční / původní ===
Line 55: Line 60:
   * **GenerateWordForms -- nutné pročistit**, je v tom bordel   * **GenerateWordForms -- nutné pročistit**, je v tom bordel
   * Vokalizace ?   * Vokalizace ?
 +
 +==== Slovesa ====
 +  * Generování slovesných forem -- jednoduché ML na závorkový zápis
 +  * Výsledky: varianty pokusů:
 +
 +^ pokus              ^ popis                                                                             ^ datum            ^ accuracy ^
 +| verbal             | původní varianta, přímo lemmata modálních sloves v targetu, bez featury pro osobu | 2011-12-08 18:48 | 94.641   |
 +| verbal-person      | s featurou "person" a navíc osobou uvedenou v targetu                             | 2011-12-14 18:56 | 94.085   |
 +| verbal-persfeat    | s featurou "person"                                                               | 2011-12-22 12:41 | 94.952   |
 +| verbal-normalized  | normalizované pořadí v targetu, sjednocené modály, jen deontmod                   | 2012-01-27 17:09 | 96.954   |
 +| verbal-inf_mod_fix | normalizované pořadí v targetu, sjednocené modály, deontmod + is_modal            | 2012-02-01 17:49 | 96.976   |
 +| verbal-uni_mod     | normalizované pořadí v targetu, sjednocené modály, jen is_modal                   | 2012-02-03 14:57 | 96.942   |
 +
 +  * Výsledky nejsou úplně porovnatelné, původní verbal má jiné testovací instance (ale jen o trošku), navíc množina target values je pokaždé jiná!
 +  * aktuálně se používá verbal-uni_mod (proč?)
 +
 +=== TODO ===
 +  * nastavit nějak líp cost -- asi menší regularizaci, víc overtraining, aby se i řídké příklady zohlednily
 +    * přitom zřejmě chyby budou výjimečné (protože prostor featur je hodně hustý a ke každé chybě bude existovat i správný příklad)
 +  * možná filtrovat nemožné příklady (neshodné aux.rf se zlatými? kolik to bude %?)
 +  * váhy příkladům (čím delší string, tím větší váha :-))
 +  * opravit nějak generování "by/bychom"
 +

[ Back to the navigation ] [ Back to the content ]