[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
user:pecina:mt-exp [2012/09/26 12:53]
pecina
user:pecina:mt-exp [2013/01/31 10:26] (current)
pecina
Line 19: Line 19:
 ''t: lemma->lemma'' (a testování na lematizovaných referenčních datech) ''t: lemma->lemma'' (a testování na lematizovaných referenčních datech)
  
-  * //hypotéza 1// nezávislý překlad lemmat a forem bude kvalitou někde mezi //baseline 2// a //upperline//+  * //hypotéza 1// nezávislý překlad lemmat a znacek bude kvalitou někde mezi //baseline 2// a //upperline//
 ''t: lemma→lemma, tag→tag'' (a testování na lematizovaných+značkovaných referenčních datech) ''t: lemma→lemma, tag→tag'' (a testování na lematizovaných+značkovaných referenčních datech)
  
Line 41: Line 41:
  
 **Data** **Data**
-  * data od JH jsou zde: ''/net/data/all-czech-words-2012/allforms.gz''+  * data od JH jsou zde: ''/net/data/all-czech-words-2013/allforms.gz'' (mapováni lemma+tag -> forma není jednoznačné)
   * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit   * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit
-  * generovací tabulka je prozatim zde: ''/net/cluster/TMP/pecina/mt-exp/generation.1,2-0.gz'' +  * generovací tabulka je prozatim zde: ''/net/cluster/TMP/pecina/mt-exp/generation-no-coloq.1,2-0.gz'' (bez nespisovných výrazů) 
-  * vznikla  takto: ''zcat /net/data/all-czech-words-2012/allforms.gz | uconv -f iso-8859-2 -t utf8 | ./gen_table.pl | gzip > generation.1,2-0.gz'' +  * vznikla  takto: ''zcat /net/data/all-czech-words-2013/allforms.gz | uconv -f iso-8859-2 -t utf8 | ./generate_gtable.pl | gzip > generation-no-coloq.1,2-0.gz'' 
-  * dopředná podmíněná pravděpodobnost je vždy 1, zpětná je uniformní dle skutečného stavu. +  * obě rozdělení jsou uniformní 
-  * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména (viz řádek 16 a 17 v ''gen_table.pl''). Tabulka bez nespisovných výrazů je zde: ''generation-no-coloq.1,2-0.gz'' +  * tabulka lineárně interpolovaná s ''/a/merkur3/TMP/tamchyna/mono-gen/playground/gen-table-czeng-1m-news/model/generation.1,2-0.gz'' je tady: ''/net/cluster/TMP/pecina/mt-exp/generation-no-coloq-int-9.1,2-0.gz'' a vznikla takto ''./interpol_gtables.pl /a/merkur3/TMP/tamchyna/mono-gen/playground/gen-table-czeng-1m-news/model/generation.1,2-0.gz generation-no-coloq.1,2-0.gz 0.9 | gzip > generation-no-coloq-int-9.1,2-0.gz 
 +''

[ Back to the navigation ] [ Back to the content ]