Both sides previous revision
Previous revision
Next revision
|
Previous revision
|
user:pecina:mt-exp [2012/09/26 09:06] pecina |
user:pecina:mt-exp [2013/01/31 10:26] (current) pecina |
=== 1) Factored phrase-based SMT with full morphological generation === | === A) Factored Phrase-Based SMT with full morphological generation === |
| |
Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. | Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. V úvahu přicházejí tyto překladové scénáře: |
| * ''t:lemma→lemma, t:tag→tag'' |
V úvahu přicházejí tyto překladové scénáře: | *''t:forma→lemma, t:forma→tag'' |
t:lemma→lemma, t:tag→tag, | |
t:forma→lemma, t:forma→tag, | |
A generovací model: | A generovací model: |
g:lemma|tag→forma | *''g:lemma,tag→forma'' |
| |
Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování lemma|tag->forma. | Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování z lemat a značky na formu. |
| |
**Experimenty:** | **Experimenty:** |
a) baseline 1: čistý frázový překlad a formách s nějakými "state-of-the-art" parametry (max délka frází, řád jazykového modelu) | * //baseline 1//: čistý frázový překlad na formách s nějakými "state-of-the-art" parametry (max phrase length, order of language model) |
t: forma->forma | ''t: forma->forma'' |
| * //baseline 2//: vylepšená baseline všemi prostředky, které nesouvisí s hlavní myšlenkou (zejména alignment na lemmatech, případně formách na zdrojové straně a lemmatech na cílové straně). Předpoklad je, že BLEU se oproti //baseline 1// zvýší. |
| ''t:forma->forma'' |
| ''a:lemma->lemma'' |
| ''a:forma->lemma'' |
| * //upperline//: překlad na lematech, který je mnohem lepší než na formách, BLEU bude mnohem vyšší než v //baseline 2//. |
| ''t: lemma->lemma'' (a testování na lematizovaných referenčních datech) |
| |
b) baseline 2: vylepšená baseline všemi prostředky, které nesouvisí s hlavní myšlenkou (zejména alignment na lemmatech, případně formách na zdrojové straně a lemmatech na cílové straně). Předpoklad je, že BLEU se oproti a) zvýší. | * //hypotéza 1// nezávislý překlad lemmat a znacek bude kvalitou někde mezi //baseline 2// a //upperline// |
t: forma->forma | ''t: lemma→lemma, tag→tag'' (a testování na lematizovaných+značkovaných referenčních datech) |
a:lemma->lemma | |
a:forma->lemma | |
| |
c) motivace: překlad na lematech je mnohem lepší než na formách a BLEU bude mnohem vyšší než v b) | * //hypotéza 2//: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než u //hypotézy 1//. Předchozí experimenty nepotvrdily, že tento přístup je výrazně lepší než //baseline 2//. |
t: lemma->lemma (a testování na lematizovaných referenčních datech) | ''t: lemma→lemma, tag→tag g:lemma,tag→forma'' (target side of parallel data, target language model) |
| |
d) hypotéza 1: nezávislý překlad lemmat a forem bude kvalitou někde mezi b) a c) | * //hypotéza 3//: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než //baseline 2// (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z //hypotézy 1// |
t: lemma→lemma, tag→tag (a testování na lematizovaných+značkovaných referenčních datech) | ''t: lemma→lemma, tag→tag g:lemma,tag→forma (morphological analysis)'' |
| |
e) hypotéza 2: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než v d). Předchozí experimenty nepotvrdily, že tento přístup je výrazně lepší než b). | |
t: lemma→lemma, tag→tag g:lemma|tag→forma (target side of parallel data, target language model) | |
| |
f) hypotéza 3: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než b) (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z d) | |
t: lemma→lemma, tag→tag g:lemma|tag→forma (morphological analysis) | |
| |
**Rizika:** | **Rizika:** |
i) hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje -- teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment c) a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad). | * Hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje -- teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment //hypotézy 2// a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad). |
| |
ii) hypotéza 3 nebude platit (ale hypotéza 1 ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi. | * Hypotéza 3 nebude platit (ale //hypotéza 1// ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi. |
| |
**Technické detaily:** | **Technické detaily:** |
* paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý | * paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý |
* monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM | * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM |
* filtrováni GM -> nejdříve filtrování | * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě lemmat cílové strany překladové tabulky. |
překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky | * druhá možnost (obecné) filtrace je v odstranění forem, které se nevyskytují často (na základě značek, které se nevyskytují v nějakých velkých označkovaných datech) |
| * pozor na neznámá slova (X@-------------) |
| |
| **Data** |
| * data od JH jsou zde: ''/net/data/all-czech-words-2013/allforms.gz'' (mapováni lemma+tag -> forma není jednoznačné) |
| * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit |
| * generovací tabulka je prozatim zde: ''/net/cluster/TMP/pecina/mt-exp/generation-no-coloq.1,2-0.gz'' (bez nespisovných výrazů) |
| * vznikla takto: ''zcat /net/data/all-czech-words-2013/allforms.gz | uconv -f iso-8859-2 -t utf8 | ./generate_gtable.pl | gzip > generation-no-coloq.1,2-0.gz'' |
| * obě rozdělení jsou uniformní |
| * tabulka lineárně interpolovaná s ''/a/merkur3/TMP/tamchyna/mono-gen/playground/gen-table-czeng-1m-news/model/generation.1,2-0.gz'' je tady: ''/net/cluster/TMP/pecina/mt-exp/generation-no-coloq-int-9.1,2-0.gz'' a vznikla takto ''./interpol_gtables.pl /a/merkur3/TMP/tamchyna/mono-gen/playground/gen-table-czeng-1m-news/model/generation.1,2-0.gz generation-no-coloq.1,2-0.gz 0.9 | gzip > generation-no-coloq-int-9.1,2-0.gz |
| '' |