[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision Both sides next revision
user:pecina:mt-exp [2012/09/26 09:26]
pecina
user:pecina:mt-exp [2012/09/26 09:29]
pecina
Line 37: Line 37:
   * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM   * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM
   * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky.   * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky.
 +
 +**Data**
 +  * generovací tabulka je zde: ''/net/data/all-czech-words-2012/generation.1,2-0.gz''
 +  * Vznikla  takto: ''zcat allforms.gz| uconv -f iso-8859-2 -t utf8 | ./gen_table.pl | gzip > generation.1,2-0.gz''
 +  * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména.
 +
 +
 +

[ Back to the navigation ] [ Back to the content ]