Table of Contents

Moses

Moses (Mojžíš) je open-source systém frázového strojového překladu. Přísně vzato, Moses je pouze jedna část překladového systému, i když velmi podstatná: tzv. dekodér. Abyste mohli natrénovat překladový systém a otestovat ho na konkrétních datech, musíte mít k dispozici následující data a nástroje a projít následujícími kroky (zjednodušeno):

Projděte si tutoriál pro práci s Mosesem na této adrese. Tutoriál obsahuje i návod, kde získat jednotlivé související nástroje a jak je nainstalovat. Rozchoďte Mosese pro pokusná data uvedená v tutoriálu.

Poté dostanete k dispozici paralelní korpus pro jiný jazykový pár. Vaším úkolem bude aplikovat Mosese na tato data, vyhodnotit úspěšnost (BLEU skóre) a analyzovat chyby překladače.

Výsledky své práce budete prezentovat ostatním na některé prosincové přednášce. Níže najdete otázky, na které byste při experimentech měli hledat odpověď; do prezentace však zahrňte i další zajímavosti, na které při pokusech narazíte, ať už se týkají technických aspektů práce s překladačem, zajímavostí v datech, se kterými jste pracovali, nebo námětů, jak zlepšit úspěšnost překladače.

Odevzdávat budete kromě prezentace také podpůrné skripty, které při experimentech potřebujete. Měly by být spíše v Perlu než v shellu a spíše platformově nezávislé - přestože o samotném Mosesovi tohle říct nelze. V případě potřeby ale můžete využít externí programy běžně dostupné v Linuxu, které nelze snadno nahradit příkazy Perlu (např. gzip). Dokumentace ke skriptům stačí uživatelská, tj. seznam skriptů, ke každému způsob volání a jednou dvěma větami popsáno, k čemu slouží.

Odevzdávat budete také Mosesem přeložená testovací data a natrénovanou frázovou tabulku.

Poznámky k architektuře

Moses a ostatní zmíněné nástroje je směs skriptů v shellu, Perlu a programů v céčku. Lze ho rozchodit pod unixovými systémy, zejména pod Linuxem, ale i na MacIntoshích. Naopak ve Windows to velmi pravděpodobně nejde.

Otázky

  1. Jaké je BLEU skóre na vašich testovacích datech?
  2. Jaká je tzv. OOV (out-of-vocabulary rate), tj.:
    1. procento slov (slovních typů a slovních výskytů) cílového jazyka, která se vyskytla v testovacích datech, ale nevyskytla se v trénovacích datech (tj. slova, která Moses neměl šanci vygenerovat, ale požadovalo se to po něm)
    2. procento slov (slovních typů a slovních výskytů) zdrojového jazyka, která se vyskytla v testovacích datech, ale nevyskytla se v trénovacích datech (tj. slova, která Moses nemohl umět přeložit, i když je malá teoretická šance, že se to na kvalitě překladu nepodepíše: např. pokud neumí přeložit “Titanic” a prostě ho jen opíše na správné místo cílové věty, může být výsledek za určitých podmínek v pořádku)
  3. Prohlédněte si frázovou tabulku. Jsou tam nějaké zajímavosti, které stojí za to ukázat ostatním? Jsou tam systémové problémy, z nichž by bylo možné odvodit vylepšení celého překladového systému?
  4. Jaké jsou nejčastější druhy chyb při překladu testovacích dat? Jsou to především neznámá slova (OOV)? Nebo třeba špatně stanovené mluvnické číslo? Vyberte pár příkladů (trojice zdrojová věta - referenční překlad - překlad vygenerovaný systémem), které ukážete ostatním.

Data

Máte k dispozici paralelní korpus rozdělený na trénovací, vývojovou a testovací část. Každá část obsahuje dva zagzipované soubory označené ISO kódem jazyka (např. en.gz obsahuje angličtinu). Sobě odpovídající soubory jsou už zarovnané po větách, mají stejný počet řádků, co řádek, to segment. Texty jsou tokenizované a kódované v UTF-8.

Pozor, s jedním paralelním korpusem lze trénovat dva směry překladu, podle toho, který jazyk použijete jako zdrojový a který jako cílový. Věnujte proto pozornost vašemu osobnímu zadání (i když samozřejmě můžete vyzkoušet oba směry, máte-li na to čas a chuť).

Paralelní data si stáhněte zde:

Další informace

Tento úkol (včetně zadání konkrétního jazyka) si můžete zarezervovat vyplněním formuláře na http://quest.ms.mff.cuni.cz/cgi-bin/zeman/zapoctaky/rezervace_ukolu.pl (pokud ještě není rozebrán).

Termín odevzdání e-mailem je konec listopadu, prezentace programu proběhne v prosinci.