Differences

This shows you the differences between two versions of the page.

--- user:pecina:mt-exp [2012/09/26 09:23]
pecina
+++ user:pecina:mt-exp [2012/09/26 12:53]
pecina
@@ Line 2: / Line 2: @@
 Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. V úvahu přicházejí tyto překladové scénáře:
-''t:lemma→lemma, t:tag→tag''
+  * ''t:lemma→lemma, t:tag→tag''
-''t:forma→lemma, t:forma→tag''
+  *''t:forma→lemma, t:forma→tag''
 A generovací model:
-''g:lemma,tag→forma''
+  *''g:lemma,tag→forma''
 Generování bude dle  morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování z lemat a značky na formu.
@@ Line 24: / Line 23: @@
   * //hypotéza 2//: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než u //hypotézy 1//. Předchozí experimenty nepotvrdily, že tento přístup je výrazně lepší než //baseline 2//.
-''t: lemma→lemma, tag→tag g:lemma|tag→forma'' (target side of parallel data, target language model)
+''t: lemma→lemma, tag→tag g:lemma,tag→forma'' (target side of parallel data, target language model)
-  * //hypotéza 3//: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než b) (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z //hypotézy 1//
+  * //hypotéza 3//: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než //baseline 2// (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z //hypotézy 1//
-''t: lemma→lemma, tag→tag g:lemma|tag→forma (morphological analysis)''
+''t: lemma→lemma, tag→tag g:lemma,tag→forma (morphological analysis)''
 **Rizika:**
-  * hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje --  teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment //hypotézy 2// a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad).
+  * Hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje --  teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment //hypotézy 2// a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad).
-  * hypotéza 3 nebude platit (ale hypotéza 1 ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi.
+  * Hypotéza 3 nebude platit (ale //hypotéza 1// ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi.
 **Technické detaily:**
   * paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý
   * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM
-  * filtrováni GM -> nejdříve filtrování
+  * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě lemmat cílové strany překladové tabulky.
-překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky
+  * druhá možnost (obecné) filtrace je v odstranění forem, které se nevyskytují často (na základě značek, které se nevyskytují v nějakých velkých označkovaných datech)
+  * pozor na neznámá slova (X@-------------)
+**Data**
+  * data od JH jsou zde: ''/net/data/all-czech-words-2012/allforms.gz''
+  * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit
+  * generovací tabulka je prozatim zde: ''/net/cluster/TMP/pecina/mt-exp/generation.1,2-0.gz''
+  * vznikla  takto: ''zcat /net/data/all-czech-words-2012/allforms.gz | uconv -f iso-8859-2 -t utf8 | ./gen_table.pl | gzip > generation.1,2-0.gz''
+  * dopředná podmíněná pravděpodobnost je vždy 1, zpětná je uniformní dle skutečného stavu.
+  * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména (viz řádek 16 a 17 v ''gen_table.pl''). Tabulka bez nespisovných výrazů je zde: ''generation-no-coloq.1,2-0.gz''

[ Back to the navigation ] [ Back to the content ]

Institute of Formal and Applied Linguistics Wiki

Differences