Differences
This shows you the differences between two versions of the page.
| Both sides previous revision Previous revision Next revision | Previous revision | ||
|
user:pecina:mt-exp [2012/09/26 12:43] pecina |
user:pecina:mt-exp [2013/01/31 10:26] (current) pecina |
||
|---|---|---|---|
| Line 19: | Line 19: | ||
| '' | '' | ||
| - | * //hypotéza 1// nezávislý překlad lemmat a forem bude kvalitou někde mezi //baseline 2// a // | + | * //hypotéza 1// nezávislý překlad lemmat a znacek |
| '' | '' | ||
| Line 37: | Line 37: | ||
| * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM | * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM | ||
| * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě lemmat cílové strany překladové tabulky. | * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě lemmat cílové strany překladové tabulky. | ||
| + | * druhá možnost (obecné) filtrace je v odstranění forem, které se nevyskytují často (na základě značek, které se nevyskytují v nějakých velkých označkovaných datech) | ||
| + | * pozor na neznámá slova (X@-------------) | ||
| **Data** | **Data** | ||
| - | * data od JH jsou zde: ''/ | + | * data od JH jsou zde: ''/ |
| * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit | * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit | ||
| - | * generovací tabulka je prozatim zde: ''/ | + | * generovací tabulka je prozatim zde: ''/ |
| - | * Vznikla | + | * vznikla |
| - | * dopředná podmíněná pravděpodobnost je vždy 1, zpětná je uniformní | + | * obě rozdělení jsou uniformní |
| - | * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména (viz řádek 16 a 17 v '' | + | * tabulka lineárně interpolovaná s '' |
| - | * Tabulka bez nespisovných výrazů | + | '' |
