Differences

This shows you the differences between two versions of the page.

--- user:dusek:morpho_gen [2011/10/06 16:26]
dusek
+++ user:dusek:morpho_gen [2012/07/30 12:58] (current)
dusek
@@ Line 31: / Line 31: @@
     * přímo z t_lemma & formém se dá určit 99% případů
     * šlo by mít modely jen pro nejednoznačné případy, pro ostatní je generovat z MorphoLM (a brát první, co přijde) nebo mít uložené ve slovníku a jako fallback až LM
+      * zřejmě nejde mít jeden velký model, který by ošetřil všechny triviální případy -- bude nutné si udělat pls.gz
     * modely: pro každé slovo zvlášť, tj. určení jen těch pár tříd
 === POSy a generované věci ===
@@ Line 60: / Line 60: @@
   * **GenerateWordForms -- nutné pročistit**, je v tom bordel
   * Vokalizace ?
+==== Slovesa ====
+  * Generování slovesných forem -- jednoduché ML na závorkový zápis
+  * Výsledky: varianty pokusů:
+^ pokus              ^ popis                                                                             ^ datum            ^ accuracy ^
+| verbal             | původní varianta, přímo lemmata modálních sloves v targetu, bez featury pro osobu | 2011-12-08 18:48 | 94.641   |
+| verbal-person      | s featurou "person" a navíc osobou uvedenou v targetu                             | 2011-12-14 18:56 | 94.085   |
+| verbal-persfeat    | s featurou "person"                                                               | 2011-12-22 12:41 | 94.952   |
+| verbal-normalized  | normalizované pořadí v targetu, sjednocené modály, jen deontmod                   | 2012-01-27 17:09 | 96.954   |
+| verbal-inf_mod_fix | normalizované pořadí v targetu, sjednocené modály, deontmod + is_modal            | 2012-02-01 17:49 | 96.976   |
+| verbal-uni_mod     | normalizované pořadí v targetu, sjednocené modály, jen is_modal                   | 2012-02-03 14:57 | 96.942   |
+  * Výsledky nejsou úplně porovnatelné, původní verbal má jiné testovací instance (ale jen o trošku), navíc množina target values je pokaždé jiná!
+  * aktuálně se používá verbal-uni_mod (proč?)
+=== TODO ===
+  * nastavit nějak líp cost -- asi menší regularizaci, víc overtraining, aby se i řídké příklady zohlednily
+    * přitom zřejmě chyby budou výjimečné (protože prostor featur je hodně hustý a ke každé chybě bude existovat i správný příklad)
+  * možná filtrovat nemožné příklady (neshodné aux.rf se zlatými? kolik to bude %?)
+  * váhy příkladům (čím delší string, tím větší váha :-))
+  * opravit nějak generování "by/bychom"

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences