Differences
This shows you the differences between two versions of the page.
| — |
user:ptacek:autorska-prava-k-paralelnimu-korpusu [2006/05/15 09:49] (current) |
||
|---|---|---|---|
| Line 1: | Line 1: | ||
| + | Hi, Philipp, | ||
| + | |||
| + | This is the most recent table of our Czech-English parallel data. The following | ||
| + | counts (running words, incl. punctuation) come from about 2 million 1-1 | ||
| + | parallel sentences. Sentences not aligned 1-1 have been discarded, for phrase | ||
| + | extraction however, they could be used, too. | ||
| + | |||
| + | ^ ^ Czech ^ English^ | ||
| + | |EU Constitution | ||
| + | |Books | ||
| + | |Stories (Reader' | ||
| + | |Microsoft glossaries | ||
| + | |PCEDT-WSJ | ||
| + | |CELEX (EU journal) | ||
| + | |KDE | 410923 (1.7 %) | 451242 (1.7 %) | | ||
| + | |Total | ||
| + | |||
| + | We're not quite sure about the copyrights for the ' | ||
| + | personally experiment with everything and never make the data publicly | ||
| + | available, if not absolutely sure. | ||
| + | |||
| + | Microsoft glossaries include menus, dialog boxes etc., so it's not always real | ||
| + | sentences. Similarly for the KDE environment. | ||
| + | |||
| + | Cheers, Ondrej. | ||
| + | |||
| + | ---------- Forwarded message ---------- | ||
| + | Date: Tue, 09 May 2006 17:38:59 +0200 | ||
| + | From: Ondrej Bojar < | ||
| + | To: Jan Hajic < | ||
| + | Cc: " | ||
| + | Subject: Autorske pravo -- zapisky z prednasky dr. Matejky | ||
| + | |||
| + | Dobry den. | ||
| + | |||
| + | Prednaska (ac udajne urcena pro stredoskolske publikum), byla hodne zajimava, o | ||
| + | slidy si poprosim mailem, tak je snad dostanu. | ||
| + | Celkove zpravy jsou asi v podstate spatne. | ||
| + | |||
| + | Pro uplatnovani autorskeho prava je podstatna legislativa zeme, kde dochazi k | ||
| + | "uziti autorskeho dila". | ||
| + | |||
| + | Konkretne pro sber lingvistickych dat v CR plati, ze (pokud jiz texty nejsou ve | ||
| + | verejne domene [vice nez 70 let od smrti autora]) je *nutne* ziskat licenci od | ||
| + | drzitele autorskych prav. Formalne vzato totiz porusuji autorsky zakon jakmile | ||
| + | dilo pouziji jinak, nez na co mam licenci, otazka, jestli vysledek sirim (a | ||
| + | nebo na tom dokonce vydelavam), je druhotna. Cili kdyz si prelozim text cizi | ||
| + | pisne a preklad si schovam do supliku, porusil jsem zakon. Kdyz naskenuju | ||
| + | ceskou knihu a nasbiram z ni nejake statistiky, tak jsem taky nejspis porusil | ||
| + | zakon. | ||
| + | |||
| + | (Madarska praxe stahnout texty, zamichat vety, distribuovat, | ||
| + | spatne.) | ||
| + | |||
| + | (Z ceskeho hlediska Google porusuje autorsky zakon tim, ze stahuje, cachuje a | ||
| + | indexuje stranky. K tomu nedostal od autoru licenci. V Cechach je tedy Google | ||
| + | zalovatelny [ale nema tu majetek, takze na nem nejde nic vysoudit], v USA je | ||
| + | pravni uprava jina a Google postupuje v souladu s "fair usage" | ||
| + | |||
| + | (V zahranici [Francie?, nepamatuju se presne] v praxi rada spolecnosti prava | ||
| + | spokojene porusuje a soucasne cast prostredku vyhrazuje na soudni procesy a | ||
| + | odskodnovani. V CR je tento postup velmi riskantni, protoze pripad od pripadu | ||
| + | muze byt cin vyhodnocen jako trestny [osobni odpovednost, | ||
| + | jako obchodni prestupek [financni odskodneni] -- zmotal jsem pravni terminy, | ||
| + | ale vecne je to takhle.) | ||
| + | |||
| + | Technicka poznamka k udeleni licence: Podle dr. Matejky staci dotaz na autora, | ||
| + | jeho odpoved a pak nase potvrzeni prijeti jeho odpovedi mailem. (Podvrzene | ||
| + | maily jsou na stejne urovni jako podvrzene danove priznani -- podvrhnout jde | ||
| + | vzdy vse.) Zasadni informaci tu ale pro mne bylo, ze licencni smlouva *neni* | ||
| + | uzavrena, dokud *obe strany nevedi, ze obe prijaly*. Cili bezna praxe tlacitka | ||
| + | " | ||
| + | soucasne nekontaktuje vyrobce, aby i vyrobce vedel, ze my jsme licenci prijali. | ||
| + | |||
| + | Obchvat: Jsou-li nejaka data volne pro osobni potrebu, smim napr. vyrobit | ||
| + | skript, ktery je vycisti a pripravi pro pouziti treti osobou. Ten skript mohu | ||
| + | rozsirit, treti osoba si data sama ziska od puvodniho zdroje a mym skriptem | ||
| + | obohati. Tento postup nepredstavuje poruseni autorskeho zakona, ale pouzit tuto | ||
| + | praxi v CR v obchodni cinnosti (pro ziskani zisku/ | ||
| + | nebezpecne. Cin by mohl byt kvalifikovan jako nekala soutez (konkurence mne | ||
| + | zaluje, ze se chovam nemravne, nikoli, ze bych mel porusit nejaky zakon; | ||
| + | konkurence dosahne treba zakazu uvedeni produktu na trh ap.) Pro vedu a vyzkum | ||
| + | je to asi celkem bezpecne. | ||
| + | |||
| + | |||
| + | Z jinych dotazu jeste zajimave problemy: | ||
| + | |||
| + | - pokud zamestnavatel na svych webovych strankach uvede seznam zamestnancu a | ||
| + | *bez jejich souhlasu* prida odkaz na jejich soukromou domovskou stranku (nebo z | ||
| + | ni prilinkuje fotku ap.), porusil zakon na ochranu osobnich udaju | ||
| + | |||
| + | - pokud na sve strance udelam *bez souhlasu* odkaz nekam hluboko do nejakych | ||
| + | cizich stranek (napr. nejaky obrazek, neco ke stazeni... tzv. deep linking), | ||
| + | dopoustim se nekale souteze [pokud tedy nejak vydelavam na tom, ze u mne lide | ||
| + | ten odkaz vidi, tj. pokud se ucastnim obchodni souteze] | ||
| + | |||
| + | |||
| + | Kontakt na dr. Matejku: matejka@ilaw.cas.cz (osobni asi jan@matejka.us) | ||
| + | Mj. uci na MFF v zimnim semestru nejakou (pravni) bezpecnost v sitich. | ||
| + | |||
| + | |||
| + | Pro nase pralelni data: PCEDT je tedy na jednu stranu velmi nakladne ziskany | ||
| + | zdroj dat, na druhou stranu je pravne v poradku (si myslim). Texty z Evropske | ||
| + | unie jsou ve verejne domene, takze jsou take v poradku. Vsechno ostatni je vice | ||
| + | ci mene problematicke. | ||
| + | |||
| + | Pekny den, O. | ||
| + | |||
