Strucne pokyny pro prekladatele Hlavnim cilem naseho projektu je pokusit se pomoci statistickych metod vytvorit system automatickeho prekladu mezi cestinou a anglictinou. Abychom meli pro statisticky modul dostatek trenovacich a testovacich dat, potrebujeme ziskat rozsahly soubor (korpus) textu, ve kterych vedle sebe paralelne existuji pary vet, z nichz ta ceska je prekladem puvodni anglicke vety. Protoze je pro ucely trenovani samozrejme lepsi, mame-li k dispozici nejen prosty preklad, ale plnou informaci o syntakticke strukture vsech vet v korpusu, rozhodli jsme se jako vhodna data pouzit korpus textu z University of Pennsylvania (znamejsi pod nazvem Penntreebank). Texty pochazeji z Wall Street Journalu, kazdy soubor obsahuje v zasade jeden clanek, v nekterych souborech vsak lze vyjimecne najit vice odstavcu s vlastnimi nadpisy (napr. Dopisy ctenaru apod.). Celkovy objem textu je asi 1 250 000 slov, v prvni fazi vsak mame v umyslu prelozit do konce kvetna letosniho roku alespon 300 000 slov. Preklad by mel vychazet z vyse uvedenych skutecnosti, tzn. mel by byt co nejvernejsi, i kdyz ne doslovny. Z formatu textu, ktery je dusledne rozdelen na jednotlive vety, z nichz kazda je uvozena specialni znackou (tuto znacku ponechte pri prekladu nedotcenou), vyplyva jednoznacny pozadavek na to, aby pri prekladu nedochazelo ke spojovani nebo rozdelovani vet. Soubory ukladejte jako prosty text v kodovani CP1250 (obvykle kodovani cestiny ve windows), kazda veta musi tvorit samostatny odstavec, uvnitr vety zadny znak konce odstavce nesmi byt. Je take prijetelne ukladat zcela neformatovany text v programu Microsoft Word. Pozadujeme, aby preklad byl jazykove a stylisticky spravne cesky. Nami pozadovana doslovnost je minena priblizne nasledovne: pri prekladu uzivejte prijatelne doslovne varianty prekladu i tam, kde by parafraze byla stylisticky vhodnejsi. Vyvarujte se proto jakychkoli anglicismu ci amerikanismu, at uz lexikalnich, nebo syntaktickych. Tento pozadavek se tyka i poradi slov ve vete: dbejte predevsim na to, aby poradi slov v ceske vete odpovidalo vyznamu vyjadrovaneho vetou anglickou, tj. prevadejte odpovidajicim zpusobem tzv. aktualni cleneni vety. V praxi to znamena, ze se poradi slov muze v ceske vete od jejich poradi ve vete anlicke znacne lisit, zejmena v postaveni ruznych prislovecnych urceni, ale napr. i slovesnych doplneni. Pravopis se dusledne ridi Pravidly ceskeho pravopisu, upozornujeme zejmena na interpunkcni znamenka (mj. vlozene vedlejsi vety), shodu koordinovaneho podmetu s prisudkem a spravne pouzivani grafickych symbolu, nemluve o tvaroslovi (napr. znak "%" se pise samostatne, zastupuje-li podstatne jmeno, a bez mezery navazuje na cislovku, tvori-li soucast pridavneho jmena). Pokud nebudete vedet, jak prelozit nejakou cast textu, nebo si nebudete prekladem zcela jisti, problematicke misto bud neprekladejte, nebo je prelozte a v zavorkach uvedte puvodni podobu, a cele problematicke misto oznacte na zacatku dvojici paragrafu (tj. ¤¤) a na konci dvojici znaku pro procenta (tj. %%). S uvozovkami zachazejte nasledovne: pokud pri prekladu pouzivate MS Word, muzete je psat jakkoli "automaticky" (tj. "cesky" i "anglicky"), jinak je prosim prepisujte pomoci znaku ", ktery v ASCII slouzi jako jediny znak pro dvojite uvozovky, nebo je nechejte tak, jak jsou v originalu. Pri prevadeni cizojazycnych zemepisnych nazvu vychazejte ze seznamu zemepisnych nazvu ve Slovniku spisovne cestiny, prip. akademickeho vydani Pravidel ceskeho pravopisu. Kvuli gramatickym vlastnostem anglictiny a castecne i jinym zvyklostem v psanem projevu je treba pri prekladu dbat mj. na nasledujici: nazvy spolecnosti apod. podle smyslu doplnit obecnym podstatnym jmenem nesoucim tvaroslovne informace (napr. "spolecnost Microsoft" misto "Microsoft") u jmen lidi vhodne uvadet osloveni nebo krestni jmeno nazvy instituci prelozit, kdyz to jenom rozumne jde, jinak nechat v originalnim zneni - je-li to nutne, uvest u prvniho vyskytu v zavorkach puvodni zkratku pro pozdejsi odvolavky (ale nenechavat preklad i original zaroven). Glosar obsahuje (vicemene pouze) podstatna jmena, prip. jmenne skupiny. Anglicke vyrazy se muzou vyskytnout v pluralu i tam, kde se preklad vztahuje k singularu - je tomu tak kvuli zpusobu, jimz jsme vybirali podklady pro vyvoreni glosare (takze Vami hledany vyraz muze v glosari byt pouze v pluralu). Pokud je preklad v singularu, odpovida anglickemu vyrazu v singularu, i kdyz v tabulce je samotny anglicky vyraz v pluralu. Pokud se preklad vztahuje na anglicky vyraz pouze v pluralu, je to vyznaceno (snad dostatecne dusledne), analogicky pro singular. Pokud narazite na preklad, ktery povazujete za chybny, pripadne budete-li chtit nejake vyrazy do glosare doplnit, poslete nam je prosim v samostatnem textovem souboru s navrhy prekladu. Pro ucely komunikace s prekladateli jsme si zavedli alias preklad@ufal.mff.cuni.cz, ktery emaily presila na Vladislava Kubone a Petra Homolu, abychom komunikaci s prekladateli mohli sledovat oba. Prosime Vas proto, abyste pouzival/a tuto adresu.