Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
user:pecina:mt-exp [2012/09/26 09:23] pecina |
user:pecina:mt-exp [2013/01/31 10:26] (current) pecina |
||
---|---|---|---|
Line 2: | Line 2: | ||
Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. V úvahu přicházejí tyto překladové scénáře: | Překládáme nezávisle do lemmat a POS značek a z nich potom vygenerujeme patřičnou formu pomoci morfologického slovníku. V úvahu přicházejí tyto překladové scénáře: | ||
- | '' | + | * '' |
- | '' | + | *'' |
A generovací model: | A generovací model: | ||
- | '' | + | *'' |
Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování z lemat a značky na formu. | Generování bude dle morfologického slovníku Jarky Hlaváčové. Měli bychom dostat jednoznačné mapování z lemat a značky na formu. | ||
Line 20: | Line 19: | ||
'' | '' | ||
- | * //hypotéza 1// nezávislý překlad lemmat a forem bude kvalitou někde mezi //baseline 2// a // | + | * //hypotéza 1// nezávislý překlad lemmat a znacek |
'' | '' | ||
* //hypotéza 2//: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než u //hypotézy 1//. Předchozí experimenty nepotvrdily, | * //hypotéza 2//: nezávislý překlad lemmat a forem a následné generování podle modelu z trénovacích dat nebude tak úspěšné (minimálně kvůli neznámým formám), BLEU lze čekat menší než u //hypotézy 1//. Předchozí experimenty nepotvrdily, | ||
- | '' | + | '' |
- | * //hypotéza 3//: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než b) (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z //hypotézy 1// | + | * //hypotéza 3//: nezávislý překlad lemmat a forem a následně generování podle modelu z morfologického slovníku bude lepší než //baseline 2// (umíme generovat i formy, které nejsou v datech), teoreticky bychom se s BLEU měli dostat na hodnoty z //hypotézy 1// |
- | '' | + | '' |
**Rizika:** | **Rizika:** | ||
- | * hypotéza | + | * Hypotéza |
- | * hypotéza | + | * Hypotéza |
**Technické detaily:** | **Technické detaily:** | ||
* paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý | * paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý | ||
* monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM | * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM | ||
- | * filtrováni GM -> nejdříve filtrování | + | * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě |
- | překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky | + | * druhá možnost (obecné) filtrace je v odstranění forem, které se nevyskytují často (na základě značek, které se nevyskytují v nějakých velkých označkovaných datech) |
+ | * pozor na neznámá slova (X@-------------) | ||
+ | |||
+ | **Data** | ||
+ | * data od JH jsou zde: ''/ | ||
+ | * neobsahují ovšem technické suffixy, je tedy třeba upravit trenovací data a technické suffixy odstranit | ||
+ | * generovací tabulka je prozatim zde: ''/ | ||
+ | * vznikla | ||
+ | * obě rozdělení jsou uniformní | ||
+ | * tabulka lineárně interpolovaná s ''/ | ||
+ | '' |