Hi, Philipp, This is the most recent table of our Czech-English parallel data. The following counts (running words, incl. punctuation) come from about 2 million 1-1 parallel sentences. Sentences not aligned 1-1 have been discarded, for phrase extraction however, they could be used, too. ^ ^ Czech ^ English^ |EU Constitution | 111954 (0.5 %) | 143700 (0.5 %) | |Books | 2309813 (9.8 %) | 2737748 (10.0 %) | |Stories (Reader's Digest)| 1460700 (6.2 %) | 1746610 (6.4 %) | |Microsoft glossaries | 9640893 (41.0 %) | 10893206 (39.9 %) | |PCEDT-WSJ | 495888 (2.1 %) | 600935 (2.2 %) | |CELEX (EU journal) | 9065705 (38.6 %) | 10713581 (39.3 %) | |KDE | 410923 (1.7 %) | 451242 (1.7 %) | |Total | 23495876 (100.0 %)| 27287022 (100.0 %)| We're not quite sure about the copyrights for the 'books' section, but I'd personally experiment with everything and never make the data publicly available, if not absolutely sure. Microsoft glossaries include menus, dialog boxes etc., so it's not always real sentences. Similarly for the KDE environment. Cheers, Ondrej. ---------- Forwarded message ---------- Date: Tue, 09 May 2006 17:38:59 +0200 From: Ondrej Bojar To: Jan Hajic Cc: "Zabokrtsky, Zdenek" Subject: Autorske pravo -- zapisky z prednasky dr. Matejky Dobry den. Prednaska (ac udajne urcena pro stredoskolske publikum), byla hodne zajimava, o slidy si poprosim mailem, tak je snad dostanu. Celkove zpravy jsou asi v podstate spatne. Pro uplatnovani autorskeho prava je podstatna legislativa zeme, kde dochazi k "uziti autorskeho dila". Konkretne pro sber lingvistickych dat v CR plati, ze (pokud jiz texty nejsou ve verejne domene [vice nez 70 let od smrti autora]) je *nutne* ziskat licenci od drzitele autorskych prav. Formalne vzato totiz porusuji autorsky zakon jakmile dilo pouziji jinak, nez na co mam licenci, otazka, jestli vysledek sirim (a nebo na tom dokonce vydelavam), je druhotna. Cili kdyz si prelozim text cizi pisne a preklad si schovam do supliku, porusil jsem zakon. Kdyz naskenuju ceskou knihu a nasbiram z ni nejake statistiky, tak jsem taky nejspis porusil zakon. (Madarska praxe stahnout texty, zamichat vety, distribuovat, je zasadne spatne.) (Z ceskeho hlediska Google porusuje autorsky zakon tim, ze stahuje, cachuje a indexuje stranky. K tomu nedostal od autoru licenci. V Cechach je tedy Google zalovatelny [ale nema tu majetek, takze na nem nejde nic vysoudit], v USA je pravni uprava jina a Google postupuje v souladu s "fair usage".) (V zahranici [Francie?, nepamatuju se presne] v praxi rada spolecnosti prava spokojene porusuje a soucasne cast prostredku vyhrazuje na soudni procesy a odskodnovani. V CR je tento postup velmi riskantni, protoze pripad od pripadu muze byt cin vyhodnocen jako trestny [osobni odpovednost, vezeni], nebo jen jako obchodni prestupek [financni odskodneni] -- zmotal jsem pravni terminy, ale vecne je to takhle.) Technicka poznamka k udeleni licence: Podle dr. Matejky staci dotaz na autora, jeho odpoved a pak nase potvrzeni prijeti jeho odpovedi mailem. (Podvrzene maily jsou na stejne urovni jako podvrzene danove priznani -- podvrhnout jde vzdy vse.) Zasadni informaci tu ale pro mne bylo, ze licencni smlouva *neni* uzavrena, dokud *obe strany nevedi, ze obe prijaly*. Cili bezna praxe tlacitka "Accept" pod licenci k softwaru je z ceskeho hlediska neplatna, pokud software soucasne nekontaktuje vyrobce, aby i vyrobce vedel, ze my jsme licenci prijali. Obchvat: Jsou-li nejaka data volne pro osobni potrebu, smim napr. vyrobit skript, ktery je vycisti a pripravi pro pouziti treti osobou. Ten skript mohu rozsirit, treti osoba si data sama ziska od puvodniho zdroje a mym skriptem obohati. Tento postup nepredstavuje poruseni autorskeho zakona, ale pouzit tuto praxi v CR v obchodni cinnosti (pro ziskani zisku/vyhody...), je velmi nebezpecne. Cin by mohl byt kvalifikovan jako nekala soutez (konkurence mne zaluje, ze se chovam nemravne, nikoli, ze bych mel porusit nejaky zakon; konkurence dosahne treba zakazu uvedeni produktu na trh ap.) Pro vedu a vyzkum je to asi celkem bezpecne. Z jinych dotazu jeste zajimave problemy: - pokud zamestnavatel na svych webovych strankach uvede seznam zamestnancu a *bez jejich souhlasu* prida odkaz na jejich soukromou domovskou stranku (nebo z ni prilinkuje fotku ap.), porusil zakon na ochranu osobnich udaju - pokud na sve strance udelam *bez souhlasu* odkaz nekam hluboko do nejakych cizich stranek (napr. nejaky obrazek, neco ke stazeni... tzv. deep linking), dopoustim se nekale souteze [pokud tedy nejak vydelavam na tom, ze u mne lide ten odkaz vidi, tj. pokud se ucastnim obchodni souteze] Kontakt na dr. Matejku: matejka@ilaw.cas.cz (osobni asi jan@matejka.us) Mj. uci na MFF v zimnim semestru nejakou (pravni) bezpecnost v sitich. Pro nase pralelni data: PCEDT je tedy na jednu stranu velmi nakladne ziskany zdroj dat, na druhou stranu je pravne v poradku (si myslim). Texty z Evropske unie jsou ve verejne domene, takze jsou take v poradku. Vsechno ostatni je vice ci mene problematicke. Pekny den, O.