Differences

This shows you the differences between two versions of the page.

--- user:pecina:mt-exp [2012/09/26 12:29]
pecina
+++ user:pecina:mt-exp [2012/09/26 13:41]
pecina
@@ Line 19: / Line 19: @@
 ''t: lemma->lemma'' (a testování na lematizovaných referenčních datech)
-  * //hypotéza 1// nezávislý překlad lemmat a forem bude kvalitou někde mezi //baseline 2// a //upperline//
+  * //hypotéza 1// nezávislý překlad lemmat a znacek bude kvalitou někde mezi //baseline 2// a //upperline//
 ''t: lemma→lemma, tag→tag'' (a testování na lematizovaných+značkovaných referenčních datech)
@@ Line 37: / Line 37: @@
   * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM
   * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě lemmat cílové strany překladové tabulky.
+  * druhá možnost (obecné) filtrace je v odstranění forem, které se nevyskytují často (na základě značek, které se nevyskytují v nějakých velkých označkovaných datech)
+  * pozor na neznámá slova (X@-------------)
 **Data**
   * data od JH jsou zde: ''/net/data/all-czech-words-2012/allforms.gz''
+  * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit
   * generovací tabulka je prozatim zde: ''/net/cluster/TMP/pecina/mt-exp/generation.1,2-0.gz''
-  * Vznikla  takto: ''zcat /net/data/all-czech-words-2012/allforms.gz| uconv -f iso-8859-2 -t utf8 | ./gen_table.pl | gzip > generation.1,2-0.gz''
+  * vznikla  takto: ''zcat /net/data/all-czech-words-2012/allforms.gz | uconv -f iso-8859-2 -t utf8 | ./gen_table.pl | gzip > generation.1,2-0.gz''
   * dopředná podmíněná pravděpodobnost je vždy 1, zpětná je uniformní dle skutečného stavu.
-  * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména (viz řádek 16 a 17 v ''gen_table.pl'').
+  * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména (viz řádek 16 a 17 v ''gen_table.pl''). Tabulka bez nespisovných výrazů je zde: ''generation-no-coloq.1,2-0.gz''
-  * Tabulka bez nespisovných výrazů je zde: ''generation-no-coloq.1,2-0.gz''

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences