This is an old revision of the document!
1) Factored phrase-based SMT with full morphological generation
Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku.
V úvahu přicházejí tyto překladové scénáře:
t:lemma→lemma, t:tag→tag,
t:forma→lemma, t:forma→tag,
A generovací model:
g:lemma|tag→forma
Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování lemma|tag→forma.
Experimenty:
a) baseline 1: čistý frázový překlad a formách s nějakými “state-of-the-art” parametry (max délka frází, řád jazykového modelu)
t: forma→forma
b) baseline 2: vylepšená baseline všemi prostředky, které nesouvisí s hlavní myšlenkou (zejména alignment na lemmatech, případně formách na zdrojové straně a lemmatech na cílové straně). Předpoklad je, že BLEU se oproti a) zvýší.
t: forma→forma
a:lemma→lemma
a:forma→lemma
c) motivace: překlad na lematech je mnohem lepší než na formách a BLEU bude mnohem vyšší než v b)
t: lemma→lemma (a testování na lematizovaných referenčních datech)
d) hypotéza 1: nezávislý překlad lemmat a forem bude kvalitou někde mezi b) a c)
t: lemma→lemma, tag→tag (a testování na lematizovaných+značkovaných referenčních datech)
r) hypotéza 2: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než v d). Předchozí experimenty nepotvrdily, že tento přístup je výrazně lepší než b).
t: lemma→lemma, tag→tag g:lemma|tag→forma (target side of parallel data, target language model)
f) hypotéza 3: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než b) (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z d)
t: lemma→lemma, tag→tag g:lemma|tag→forma (morphological analysis)
Rizika:
i) hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm “správným” značkám. Je ověřeno, že překlad do lemmat funguje – teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment c) a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad).
ii) hypotéza 3 nebude platit (ale hypotéza 1 ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi.
Technické detaily:
* paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý
* monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM
* filtrováni GM → nejdříve filtrování
překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky