Both sides previous revision
Previous revision
Next revision
|
Previous revision
Next revision
Both sides next revision
|
user:pecina:mt-exp [2012/09/26 09:25] pecina |
user:pecina:mt-exp [2012/09/26 09:29] pecina |
| |
**Rizika:** | **Rizika:** |
* hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje -- teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment //hypotézy 2// a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad). | * Hypotéza 1 nebude platit. Riziko relativně velké. Není úplně jasné, jestli překlad do značek povede ke těm "správným" značkám. Je ověřeno, že překlad do lemmat funguje -- teoreticky bychom se mohli pokusit pouze o překlad do značek a podívat se, co to dělá. Celou hypotézu ověří experiment. Je možné, že k ověření bude třeba větších trénovacích dat. Pokud se hypotéza nepotvrdí, naskytuje se možnost zředit značky (prostor tam jistě je, viz experiment //hypotézy 2// a pokusit se dogenerovat formy následně (mapování už nebude 1:1). Navíc je tu prostor pro podmíněně tvořené faktory (viz další nápad). |
| |
* hypotéza 3 nebude platit (ale hypotéza 1 ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi. | * Hypotéza 3 nebude platit (ale //hypotéza 1// ano). Riziko je malé, mapování by mělo být jednoznačné, pokrytí vysoké. Může se ale stát, že to (z nějakého důvodu) nezvládne Moses, v tom případě bychom ale mohly generování dělat po překladu nezávisle na Mosesovi. |
| |
**Technické detaily:** | **Technické detaily:** |
* paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý | * paralelní trénovací data — v baseline experimentu použijeme jen část CzEngu, na závěr potom celý |
* monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM | * monolinguální trénovací data pro LM a GM — POS tagged data pro LM_lemma, LM_POS + GM |
* filtrováni GM -> nejdříve filtrování | * filtrováni GM -> nejdříve filtrování překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky. |
překladové tabulky na základě testovacích dat, potom filtrování generovací tabulky na zakládě cílové strany překladové tabulky | |
| **Data** |
| * generovací tabulka je zde: ''/net/data/all-czech-words-2012/generation.1,2-0.gz'' |
| * Vznikla takto: ''zcat allforms.gz| uconv -f iso-8859-2 -t utf8 | ./gen_table.pl | gzip > generation.1,2-0.gz'' |
| * Je možné ji filtrovat tak, že se odstraní nespisovné výrazy, případně vlastní jména. |
| |
| |