Differences
This shows you the differences between two versions of the page.
user:ptacek:autorska-prava-k-paralelnimu-korpusu [2006/05/15 09:49] |
user:ptacek:autorska-prava-k-paralelnimu-korpusu [2006/05/15 09:49] (current) |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | Hi, Philipp, | ||
+ | |||
+ | This is the most recent table of our Czech-English parallel data. The following | ||
+ | counts (running words, incl. punctuation) come from about 2 million 1-1 | ||
+ | parallel sentences. Sentences not aligned 1-1 have been discarded, for phrase | ||
+ | extraction however, they could be used, too. | ||
+ | |||
+ | ^ ^ Czech ^ English^ | ||
+ | |EU Constitution | ||
+ | |Books | ||
+ | |Stories (Reader' | ||
+ | |Microsoft glossaries | ||
+ | |PCEDT-WSJ | ||
+ | |CELEX (EU journal) | ||
+ | |KDE | 410923 (1.7 %) | 451242 (1.7 %) | | ||
+ | |Total | ||
+ | |||
+ | We're not quite sure about the copyrights for the ' | ||
+ | personally experiment with everything and never make the data publicly | ||
+ | available, if not absolutely sure. | ||
+ | |||
+ | Microsoft glossaries include menus, dialog boxes etc., so it's not always real | ||
+ | sentences. Similarly for the KDE environment. | ||
+ | |||
+ | Cheers, Ondrej. | ||
+ | |||
+ | ---------- Forwarded message ---------- | ||
+ | Date: Tue, 09 May 2006 17:38:59 +0200 | ||
+ | From: Ondrej Bojar < | ||
+ | To: Jan Hajic < | ||
+ | Cc: " | ||
+ | Subject: Autorske pravo -- zapisky z prednasky dr. Matejky | ||
+ | |||
+ | Dobry den. | ||
+ | |||
+ | Prednaska (ac udajne urcena pro stredoskolske publikum), byla hodne zajimava, o | ||
+ | slidy si poprosim mailem, tak je snad dostanu. | ||
+ | Celkove zpravy jsou asi v podstate spatne. | ||
+ | |||
+ | Pro uplatnovani autorskeho prava je podstatna legislativa zeme, kde dochazi k | ||
+ | "uziti autorskeho dila". | ||
+ | |||
+ | Konkretne pro sber lingvistickych dat v CR plati, ze (pokud jiz texty nejsou ve | ||
+ | verejne domene [vice nez 70 let od smrti autora]) je *nutne* ziskat licenci od | ||
+ | drzitele autorskych prav. Formalne vzato totiz porusuji autorsky zakon jakmile | ||
+ | dilo pouziji jinak, nez na co mam licenci, otazka, jestli vysledek sirim (a | ||
+ | nebo na tom dokonce vydelavam), je druhotna. Cili kdyz si prelozim text cizi | ||
+ | pisne a preklad si schovam do supliku, porusil jsem zakon. Kdyz naskenuju | ||
+ | ceskou knihu a nasbiram z ni nejake statistiky, tak jsem taky nejspis porusil | ||
+ | zakon. | ||
+ | |||
+ | (Madarska praxe stahnout texty, zamichat vety, distribuovat, | ||
+ | spatne.) | ||
+ | |||
+ | (Z ceskeho hlediska Google porusuje autorsky zakon tim, ze stahuje, cachuje a | ||
+ | indexuje stranky. K tomu nedostal od autoru licenci. V Cechach je tedy Google | ||
+ | zalovatelny [ale nema tu majetek, takze na nem nejde nic vysoudit], v USA je | ||
+ | pravni uprava jina a Google postupuje v souladu s "fair usage" | ||
+ | |||
+ | (V zahranici [Francie?, nepamatuju se presne] v praxi rada spolecnosti prava | ||
+ | spokojene porusuje a soucasne cast prostredku vyhrazuje na soudni procesy a | ||
+ | odskodnovani. V CR je tento postup velmi riskantni, protoze pripad od pripadu | ||
+ | muze byt cin vyhodnocen jako trestny [osobni odpovednost, | ||
+ | jako obchodni prestupek [financni odskodneni] -- zmotal jsem pravni terminy, | ||
+ | ale vecne je to takhle.) | ||
+ | |||
+ | Technicka poznamka k udeleni licence: Podle dr. Matejky staci dotaz na autora, | ||
+ | jeho odpoved a pak nase potvrzeni prijeti jeho odpovedi mailem. (Podvrzene | ||
+ | maily jsou na stejne urovni jako podvrzene danove priznani -- podvrhnout jde | ||
+ | vzdy vse.) Zasadni informaci tu ale pro mne bylo, ze licencni smlouva *neni* | ||
+ | uzavrena, dokud *obe strany nevedi, ze obe prijaly*. Cili bezna praxe tlacitka | ||
+ | " | ||
+ | soucasne nekontaktuje vyrobce, aby i vyrobce vedel, ze my jsme licenci prijali. | ||
+ | |||
+ | Obchvat: Jsou-li nejaka data volne pro osobni potrebu, smim napr. vyrobit | ||
+ | skript, ktery je vycisti a pripravi pro pouziti treti osobou. Ten skript mohu | ||
+ | rozsirit, treti osoba si data sama ziska od puvodniho zdroje a mym skriptem | ||
+ | obohati. Tento postup nepredstavuje poruseni autorskeho zakona, ale pouzit tuto | ||
+ | praxi v CR v obchodni cinnosti (pro ziskani zisku/ | ||
+ | nebezpecne. Cin by mohl byt kvalifikovan jako nekala soutez (konkurence mne | ||
+ | zaluje, ze se chovam nemravne, nikoli, ze bych mel porusit nejaky zakon; | ||
+ | konkurence dosahne treba zakazu uvedeni produktu na trh ap.) Pro vedu a vyzkum | ||
+ | je to asi celkem bezpecne. | ||
+ | |||
+ | |||
+ | Z jinych dotazu jeste zajimave problemy: | ||
+ | |||
+ | - pokud zamestnavatel na svych webovych strankach uvede seznam zamestnancu a | ||
+ | *bez jejich souhlasu* prida odkaz na jejich soukromou domovskou stranku (nebo z | ||
+ | ni prilinkuje fotku ap.), porusil zakon na ochranu osobnich udaju | ||
+ | |||
+ | - pokud na sve strance udelam *bez souhlasu* odkaz nekam hluboko do nejakych | ||
+ | cizich stranek (napr. nejaky obrazek, neco ke stazeni... tzv. deep linking), | ||
+ | dopoustim se nekale souteze [pokud tedy nejak vydelavam na tom, ze u mne lide | ||
+ | ten odkaz vidi, tj. pokud se ucastnim obchodni souteze] | ||
+ | |||
+ | |||
+ | Kontakt na dr. Matejku: matejka@ilaw.cas.cz (osobni asi jan@matejka.us) | ||
+ | Mj. uci na MFF v zimnim semestru nejakou (pravni) bezpecnost v sitich. | ||
+ | |||
+ | |||
+ | Pro nase pralelni data: PCEDT je tedy na jednu stranu velmi nakladne ziskany | ||
+ | zdroj dat, na druhou stranu je pravne v poradku (si myslim). Texty z Evropske | ||
+ | unie jsou ve verejne domene, takze jsou take v poradku. Vsechno ostatni je vice | ||
+ | ci mene problematicke. | ||
+ | |||
+ | Pekny den, O. | ||
+ | |||