[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
Last revision Both sides next revision
user:pecina:mt-exp [2012/09/26 09:05]
pecina vytvořeno
user:pecina:mt-exp [2012/09/26 13:41]
pecina
Line 1: Line 1:
-=== 1) Factored phrase-based SMT with full morphological generation ===+=== A) Factored Phrase-Based SMT with full morphological generation ===
  
-Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. +Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. V úvahu přicházejí tyto překladové scénáře: 
- +  * ''t:lemma→lemma, t:tag→tag'' 
-V úvahu přicházejí tyto překladové scénáře: +  *''t:forma→lemma, t:forma→tag''
-t:lemma→lemma, t:tag→tag, +
-t:forma→lemma, t:forma→tag,+
 A generovací model: A generovací model:
-g:lemma|tag→forma+  *''g:lemma,tag→forma''
  
-Generování bude dle  morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování lemma|tag->forma.+Generování bude dle  morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování z lemat a značky na formu.
  
 **Experimenty:** **Experimenty:**
-a) baseline 1: čistý frázový překlad formách s nějakými "state-of-the-art" parametry (max délka frází, řád jazykového modelu+  * //baseline 1//: čistý frázový překlad na formách s nějakými "state-of-the-art" parametry (max phrase lengthorder of language model) 
-t: forma->forma+''t: forma->forma'' 
 +  * //baseline 2//: vylepšená baseline všemi prostředky, které nesouvisí s hlavní myšlenkou (zejména alignment na lemmatech, případně formách na zdrojové straně a lemmatech na cílové straně). Předpoklad je, že BLEU se oproti //baseline 1// zvýší. 
 +''t:forma->forma'' 
 +''a:lemma->lemma'' 
 +''a:forma->lemma'' 
 +  * //upperline//: překlad na lematech, který je mnohem lepší než na formách,  BLEU bude mnohem vyšší než v //baseline 2//. 
 +''t: lemma->lemma'' (a testování na lematizovaných referenčních datech)
  
-b) baseline 2: vylepšená baseline všemi prostředky, které nesouvisí s hlavní myšlenkou (zejména alignment na lemmatech, ípadně formách na zdrojové straně lemmatech na cílové straně). Předpoklad je, že BLEU se oproti a) zvýší. +  * //hypotéza 1// nezávislý eklad lemmat znacek bude kvalitou někde mezi //baseline 2// //upperline// 
-t: forma->forma +''t: lemmalemma, tag→tag'' (testování na lematizovaných+značkovaných referenčních datech)
-a:lemma->lemma +
-a:forma->lemma+
  
-c) motivace: překlad na lematech je mnohem lepší než na formách a BLEU bude mnohem vyšší než v b) +  * //hypotéza 2//nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než u //hypotézy 1//. Předchozí experimenty nepotvrdily, že tento přístup je výrazně lepší než //baseline 2//. 
-t: lemma->lemma (a testování na lematizovaných referenčních datech)+''t: lemmalemma, tag→tag g:lemma,tag→forma'' (target side of parallel data, target language model)
  
-d) hypotéza 1: nezávislý překlad lemmat a forem bude kvalitou někde mezi b) a c+  * //hypotéza 3//: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než //baseline 2// (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z //hypotézy 1// 
-t: lemma→lemma, tag→tag (a testování na lematizovaných+značkovaných referenčních datech)+''t: lemma→lemma, tag→tag g:lemma,tag→forma (morphological analysis)''
  
-r) hypotéza 2nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám)BLEU lze čekat menší než d)Předchozí experimenty nepotvrdily, že tento přístup je výrazně lepší než b). +**Rizika:** 
-t: lemma→lemmatag→tag g:lemma|tag→forma (target side of parallel datatarget language model)+  * Hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje --  teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to děláCelou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích datPokud se hypotéza nepotvrdínaskytuje se možnost zředit značky (prostor tam jistě jeviz experiment //hypotézy 2// a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad).
  
-f) hypotéza 3: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než b) (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU li dostat na hodnoty z d) +  * Hypotéza nebude platit (ale //hypotéza 1// ano). Riziko je malémapování by lo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (nějakého důvodunezvládne Mosesv tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi.
-t: lemma→lemmatag→tag g:lemma|tag→forma (morphological analysis)+
  
-**Rizika:** +**Technické detaily:** 
-i) hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasnéjestli eklad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje --  teoreticky bychom se mohli pokusit pouze o eklad do značek a podívat se, co to děláCelou hypotézu ověří experiment. Je možné, že k ověření bude třeba tších trénovacích dat. Pokud se hypotéza nepotvrdínaskytuje se možnost zředit značky (prostor tam jistě jeviz experiment c) a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad).+  * paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý 
 +  * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemmaLM_POS + GM 
 +  * filtrováni GM -> nejdříve filtrování ekladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě lemmat cílové strany ekladové tabulky. 
 +  * druhá možnost (obecné) filtrace je odstranění foremkteré se nevyskytují často (na základě značekkteré se nevyskytují v nějakých velkých označkovaných datech) 
 +  * pozor na neznámá slova (X@-------------)
  
-ii) hypotéza 3 nebude platit (ale hypotéza ano)Riziko je malémapování by mělo být jednoznačné, pokrytí vysoké. Může se ale státže to (z nějakého důvodu) nezvládne Moses, v tom ípadě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi.+**Data** 
 +  * data od JH jsou zde: ''/net/data/all-czech-words-2012/allforms.gz'' 
 +  * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit 
 +  * generovací tabulka je prozatim zde: ''/net/cluster/TMP/pecina/mt-exp/generation.1,2-0.gz'' 
 +  * vznikla  takto: ''zcat /net/data/all-czech-words-2012/allforms.gz | uconv -f iso-8859-2 -t utf8 | ./gen_table.pl | gzip > generation.1,2-0.gz'' 
 +  * dopředná podmíněná pravděpodobnost je vždy 1zpětná je uniformní dle skutečného stavu. 
 +  * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména (viz řádek 16 a 17 v ''gen_table.pl''). Tabulka bez nespisovných výrazů je zde: ''generation-no-coloq.1,2-0.gz''
  
-**Technické detaily:** 
-* paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý 
-* monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM 
-* filtrováni GM -> nejdříve filtrování  
-překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky  

[ Back to the navigation ] [ Back to the content ]