Hi, Philipp,

This is the most recent table of our Czech-English parallel data. The following
counts (running words, incl. punctuation) come from about 2 million 1-1
parallel sentences. Sentences not aligned 1-1 have been discarded, for phrase
extraction however, they could be used, too.

Czech English
EU Constitution 111954 (0.5 %) 143700 (0.5 %)
Books 2309813 (9.8 %) 2737748 (10.0 %)
Stories (Reader's Digest) 1460700 (6.2 %) 1746610 (6.4 %)
Microsoft glossaries 9640893 (41.0 %) 10893206 (39.9 %)
PCEDT-WSJ 495888 (2.1 %) 600935 (2.2 %)
CELEX (EU journal) 9065705 (38.6 %) 10713581 (39.3 %)
KDE 410923 (1.7 %) 451242 (1.7 %)
Total 23495876 (100.0 %) 27287022 (100.0 %)

We're not quite sure about the copyrights for the 'books' section, but I'd
personally experiment with everything and never make the data publicly
available, if not absolutely sure.

Microsoft glossaries include menus, dialog boxes etc., so it's not always real
sentences. Similarly for the KDE environment.

Cheers, Ondrej.

———- Forwarded message ———-
Date: Tue, 09 May 2006 17:38:59 +0200
From: Ondrej Bojar bojar@ufal.mff.cuni.cz
To: Jan Hajic hajic@ufal.mff.cuni.cz
Cc: “Zabokrtsky, Zdenek” zabokrtsky@ufal.mff.cuni.cz
Subject: Autorske pravo – zapisky z prednasky dr. Matejky

Dobry den.

Prednaska (ac udajne urcena pro stredoskolske publikum), byla hodne zajimava, o
slidy si poprosim mailem, tak je snad dostanu.
Celkove zpravy jsou asi v podstate spatne.

Pro uplatnovani autorskeho prava je podstatna legislativa zeme, kde dochazi k
“uziti autorskeho dila”.

Konkretne pro sber lingvistickych dat v CR plati, ze (pokud jiz texty nejsou ve
verejne domene [vice nez 70 let od smrti autora]) je *nutne* ziskat licenci od
drzitele autorskych prav. Formalne vzato totiz porusuji autorsky zakon jakmile
dilo pouziji jinak, nez na co mam licenci, otazka, jestli vysledek sirim (a
nebo na tom dokonce vydelavam), je druhotna. Cili kdyz si prelozim text cizi
pisne a preklad si schovam do supliku, porusil jsem zakon. Kdyz naskenuju
ceskou knihu a nasbiram z ni nejake statistiky, tak jsem taky nejspis porusil
zakon.

(Madarska praxe stahnout texty, zamichat vety, distribuovat, je zasadne
spatne.)

(Z ceskeho hlediska Google porusuje autorsky zakon tim, ze stahuje, cachuje a
indexuje stranky. K tomu nedostal od autoru licenci. V Cechach je tedy Google
zalovatelny [ale nema tu majetek, takze na nem nejde nic vysoudit], v USA je
pravni uprava jina a Google postupuje v souladu s “fair usage”.)

(V zahranici [Francie?, nepamatuju se presne] v praxi rada spolecnosti prava
spokojene porusuje a soucasne cast prostredku vyhrazuje na soudni procesy a
odskodnovani. V CR je tento postup velmi riskantni, protoze pripad od pripadu
muze byt cin vyhodnocen jako trestny [osobni odpovednost, vezeni], nebo jen
jako obchodni prestupek [financni odskodneni] – zmotal jsem pravni terminy,
ale vecne je to takhle.)

Technicka poznamka k udeleni licence: Podle dr. Matejky staci dotaz na autora,
jeho odpoved a pak nase potvrzeni prijeti jeho odpovedi mailem. (Podvrzene
maily jsou na stejne urovni jako podvrzene danove priznani – podvrhnout jde
vzdy vse.) Zasadni informaci tu ale pro mne bylo, ze licencni smlouva *neni*
uzavrena, dokud *obe strany nevedi, ze obe prijaly*. Cili bezna praxe tlacitka
“Accept” pod licenci k softwaru je z ceskeho hlediska neplatna, pokud software
soucasne nekontaktuje vyrobce, aby i vyrobce vedel, ze my jsme licenci prijali.

Obchvat: Jsou-li nejaka data volne pro osobni potrebu, smim napr. vyrobit
skript, ktery je vycisti a pripravi pro pouziti treti osobou. Ten skript mohu
rozsirit, treti osoba si data sama ziska od puvodniho zdroje a mym skriptem
obohati. Tento postup nepredstavuje poruseni autorskeho zakona, ale pouzit tuto
praxi v CR v obchodni cinnosti (pro ziskani zisku/vyhody…), je velmi
nebezpecne. Cin by mohl byt kvalifikovan jako nekala soutez (konkurence mne
zaluje, ze se chovam nemravne, nikoli, ze bych mel porusit nejaky zakon;
konkurence dosahne treba zakazu uvedeni produktu na trh ap.) Pro vedu a vyzkum
je to asi celkem bezpecne.

Z jinych dotazu jeste zajimave problemy:

- pokud zamestnavatel na svych webovych strankach uvede seznam zamestnancu a
*bez jejich souhlasu* prida odkaz na jejich soukromou domovskou stranku (nebo z
ni prilinkuje fotku ap.), porusil zakon na ochranu osobnich udaju

- pokud na sve strance udelam *bez souhlasu* odkaz nekam hluboko do nejakych
cizich stranek (napr. nejaky obrazek, neco ke stazeni… tzv. deep linking),
dopoustim se nekale souteze [pokud tedy nejak vydelavam na tom, ze u mne lide
ten odkaz vidi, tj. pokud se ucastnim obchodni souteze]

Kontakt na dr. Matejku: matejka@ilaw.cas.cz (osobni asi jan@matejka.us)
Mj. uci na MFF v zimnim semestru nejakou (pravni) bezpecnost v sitich.

Pro nase pralelni data: PCEDT je tedy na jednu stranu velmi nakladne ziskany
zdroj dat, na druhou stranu je pravne v poradku (si myslim). Texty z Evropske
unie jsou ve verejne domene, takze jsou take v poradku. Vsechno ostatni je vice
ci mene problematicke.

Pekny den, O.