user:pecina:mt-exp [ufal wiki]

A) Factored Phrase-Based SMT with full morphological generation

Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. V úvahu přicházejí tyto překladové scénáře:

t:lemma→lemma, t:tag→tag
t:forma→lemma, t:forma→tag

A generovací model:

g:lemma,tag→forma

Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování z lemat a značky na formu.

Experimenty:

baseline 1: čistý frázový překlad na formách s nějakými “state-of-the-art” parametry (max phrase length, order of language model)

t: forma→forma

baseline 2: vylepšená baseline všemi prostředky, které nesouvisí s hlavní myšlenkou (zejména alignment na lemmatech, případně formách na zdrojové straně a lemmatech na cílové straně). Předpoklad je, že BLEU se oproti baseline 1 zvýší.

t:forma→forma
a:lemma→lemma
a:forma→lemma

upperline: překlad na lematech, který je mnohem lepší než na formách, BLEU bude mnohem vyšší než v baseline 2.

t: lemma→lemma (a testování na lematizovaných referenčních datech)

hypotéza 1 nezávislý překlad lemmat a znacek bude kvalitou někde mezi baseline 2 a upperline

t: lemma→lemma, tag→tag (a testování na lematizovaných+značkovaných referenčních datech)

hypotéza 2: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než u hypotézy 1. Předchozí experimenty nepotvrdily, že tento přístup je výrazně lepší než baseline 2.

t: lemma→lemma, tag→tag g:lemma,tag→forma (target side of parallel data, target language model)

hypotéza 3: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než baseline 2 (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z hypotézy 1

t: lemma→lemma, tag→tag g:lemma,tag→forma (morphological analysis)

Rizika:

Hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm “správným” značkám. Je ověřeno, že překlad do lemmat funguje – teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment hypotézy 2 a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad).

Hypotéza 3 nebude platit (ale hypotéza 1 ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi.

Technické detaily:

paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý
monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM
filtrováni GM → nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě lemmat cílové strany překladové tabulky.
druhá možnost (obecné) filtrace je v odstranění forem, které se nevyskytují často (na základě značek, které se nevyskytují v nějakých velkých označkovaných datech)
pozor na neznámá slova (X@————-)

Data

data od JH jsou zde: /net/data/all-czech-words-2013/allforms.gz (mapováni lemma+tag → forma není jednoznačné)
neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit
generovací tabulka je prozatim zde: /net/cluster/TMP/pecina/mt-exp/generation-no-coloq.1,2-0.gz (bez nespisovných výrazů)
vznikla takto: zcat /net/data/all-czech-words-2013/allforms.gz | uconv -f iso-8859-2 -t utf8 | ./generate_gtable.pl | gzip > generation-no-coloq.1,2-0.gz
obě rozdělení jsou uniformní
tabulka lineárně interpolovaná s /a/merkur3/TMP/tamchyna/mono-gen/playground/gen-table-czeng-1m-news/model/generation.1,2-0.gz je tady: /net/cluster/TMP/pecina/mt-exp/generation-no-coloq-int-9.1,2-0.gz a vznikla takto ./interpol_gtables.pl /a/merkur3/TMP/tamchyna/mono-gen/playground/gen-table-czeng-1m-news/model/generation.1,2-0.gz generation-no-coloq.1,2-0.gz 0.9 | gzip > generation-no-coloq-int-9.1,2-0.gz

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

A) Factored Phrase-Based SMT with full morphological generation