Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision Next revision Both sides next revision | ||
user:pecina:mt-exp [2012/09/26 09:06] pecina |
user:pecina:mt-exp [2012/09/26 09:33] pecina |
||
---|---|---|---|
Line 1: | Line 1: | ||
- | === 1) Factored | + | === A) Factored |
- | Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. | + | Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. V úvahu přicházejí tyto překladové scénáře: |
- | + | * '' | |
- | V úvahu přicházejí tyto překladové scénáře: | + | |
- | t: | + | |
- | t: | + | |
A generovací model: | A generovací model: | ||
- | g:lemma|tag→forma | + | *'' |
- | Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování | + | Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování |
**Experimenty: | **Experimenty: | ||
- | a) baseline 1: čistý frázový překlad | + | * //baseline 1//: čistý frázový překlad |
- | t: forma-> | + | '' |
+ | * //baseline 2//: vylepšená baseline všemi prostředky, které nesouvisí s hlavní myšlenkou (zejména alignment na lemmatech, případně formách na zdrojové straně a lemmatech na cílové straně). Předpoklad je, že BLEU se oproti //baseline 1// zvýší. | ||
+ | '' | ||
+ | '' | ||
+ | '' | ||
+ | * // | ||
+ | '' | ||
- | b) baseline 2: vylepšená baseline všemi prostředky, | + | * //hypotéza 1// nezávislý |
- | t: forma-> | + | '' |
- | a:lemma->lemma | + | |
- | a: | + | |
- | c) motivace: překlad | + | * //hypotéza 2//: nezávislý |
- | t: lemma->lemma (a testování na lematizovaných referenčních datech) | + | '' |
- | d) hypotéza 1: nezávislý překlad lemmat a forem bude kvalitou někde mezi b) a c) | + | * //hypotéza 3//: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než //baseline 2// (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z //hypotézy 1// |
- | t: lemma→lemma, | + | '' |
- | + | ||
- | e) hypotéza 2: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než v d). Předchozí experimenty nepotvrdily, | + | |
- | t: lemma→lemma, | + | |
- | + | ||
- | f) hypotéza 3: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než b) (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z d) | + | |
- | t: lemma→lemma, | + | |
**Rizika:** | **Rizika:** | ||
- | i) hypotéza | + | * Hypotéza |
- | ii) hypotéza | + | * Hypotéza |
**Technické detaily:** | **Technické detaily:** | ||
- | * paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý | + | |
- | * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM | + | * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM |
- | * filtrováni GM -> nejdříve filtrování | + | * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky. |
- | překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky | + | |
+ | **Data** | ||
+ | * generovací tabulka je zde: ''/ | ||
+ | * Vznikla | ||
+ | * dopředná podmíněná pravděpodobnost je vždy 1, zpětná je uniformní dle skutečného stavu. | ||
+ | * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména (viz řádek 16 a 17 v '' |