[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

user:ptacek:autorska-prava-k-paralelnimu-korpusu [2006/05/15 09:49] (current)
Line 1: Line 1:
 +Hi, Philipp,
 +
 +This is the most recent table of our Czech-English parallel data. The following
 +counts (running words, incl. punctuation) come from about 2 million 1-1
 +parallel sentences. Sentences not aligned 1-1 have been discarded, for phrase
 +extraction however, they could be used, too.
 +
 +^                         ^ Czech             ^ English^
 +|EU Constitution ​         | 111954 (0.5 %)    | 143700 (0.5 %)    |
 +|Books ​                   | 2309813 (9.8 %)   | 2737748 (10.0 %)  |
 +|Stories (Reader'​s Digest)| 1460700 (6.2 %)   | 1746610 (6.4 %)   |
 +|Microsoft glossaries ​    | 9640893 (41.0 %)  | 10893206 (39.9 %) |
 +|PCEDT-WSJ ​               | 495888 (2.1 %)    | 600935 (2.2 %)    |
 +|CELEX (EU journal) ​      | 9065705 (38.6 %)  | 10713581 (39.3 %) |
 +|KDE                      | 410923 (1.7 %)    | 451242 (1.7 %)    |
 +|Total ​                   | 23495876 (100.0 %)| 27287022 (100.0 %)|
 +
 +We're not quite sure about the copyrights for the '​books'​ section, but I'd
 +personally experiment with everything and never make the data publicly
 +available, if not absolutely sure.
 +
 +Microsoft glossaries include menus, dialog boxes etc., so it's not always real
 +sentences. Similarly for the KDE environment.
 +
 +Cheers, Ondrej.
 +
 +---------- Forwarded message ----------
 +Date: Tue, 09 May 2006 17:38:59 +0200
 +From: Ondrej Bojar <​bojar@ufal.mff.cuni.cz>​
 +To: Jan Hajic <​hajic@ufal.mff.cuni.cz>​
 +Cc: "​Zabokrtsky,​ Zdenek"​ <​zabokrtsky@ufal.mff.cuni.cz>​
 +Subject: Autorske pravo -- zapisky z prednasky dr. Matejky
 +
 +Dobry den.
 +
 +Prednaska (ac udajne urcena pro stredoskolske publikum), byla hodne zajimava, o
 +slidy si poprosim mailem, tak je snad dostanu.
 +Celkove zpravy jsou asi v podstate spatne.
 +
 +Pro uplatnovani autorskeho prava je podstatna legislativa zeme, kde dochazi k
 +"uziti autorskeho dila".
 +
 +Konkretne pro sber lingvistickych dat v CR plati, ze (pokud jiz texty nejsou ve
 +verejne domene [vice nez 70 let od smrti autora]) je *nutne* ziskat licenci od
 +drzitele autorskych prav. Formalne vzato totiz porusuji autorsky zakon jakmile
 +dilo pouziji jinak, nez na co mam licenci, otazka, jestli vysledek sirim (a
 +nebo na tom dokonce vydelavam), je druhotna. Cili kdyz si prelozim text cizi
 +pisne a preklad si schovam do supliku, porusil jsem zakon. Kdyz naskenuju
 +ceskou knihu a nasbiram z ni nejake statistiky, tak jsem taky nejspis porusil
 +zakon.
 +
 +(Madarska praxe stahnout texty, zamichat vety, distribuovat,​ je zasadne
 +spatne.)
 +
 +(Z ceskeho hlediska Google porusuje autorsky zakon tim, ze stahuje, cachuje a
 +indexuje stranky. K tomu nedostal od autoru licenci. V Cechach je tedy Google
 +zalovatelny [ale nema tu majetek, takze na nem nejde nic vysoudit], v USA je
 +pravni uprava jina a Google postupuje v souladu s "fair usage"​.)
 +
 +(V zahranici [Francie?, nepamatuju se presne] v praxi rada spolecnosti prava
 +spokojene porusuje a soucasne cast prostredku vyhrazuje na soudni procesy a
 +odskodnovani. V CR je tento postup velmi riskantni, protoze pripad od pripadu
 +muze byt cin vyhodnocen jako trestny [osobni odpovednost,​ vezeni], nebo jen
 +jako obchodni prestupek [financni odskodneni] -- zmotal jsem pravni terminy,
 +ale vecne je to takhle.)
 +
 +Technicka poznamka k udeleni licence: Podle dr. Matejky staci dotaz na autora,
 +jeho odpoved a pak nase potvrzeni prijeti jeho odpovedi mailem. (Podvrzene
 +maily jsou na stejne urovni jako podvrzene danove priznani -- podvrhnout jde
 +vzdy vse.) Zasadni informaci tu ale pro mne bylo, ze licencni smlouva *neni*
 +uzavrena, dokud *obe strany nevedi, ze obe prijaly*. Cili bezna praxe tlacitka
 +"​Accept"​ pod licenci k softwaru je z ceskeho hlediska neplatna, pokud software
 +soucasne nekontaktuje vyrobce, aby i vyrobce vedel, ze my jsme licenci prijali.
 +
 +Obchvat: Jsou-li nejaka data volne pro osobni potrebu, smim napr. vyrobit
 +skript, ktery je vycisti a pripravi pro pouziti treti osobou. Ten skript mohu
 +rozsirit, treti osoba si data sama ziska od puvodniho zdroje a mym skriptem
 +obohati. Tento postup nepredstavuje poruseni autorskeho zakona, ale pouzit tuto
 +praxi v CR v obchodni cinnosti (pro ziskani zisku/​vyhody...),​ je velmi
 +nebezpecne. Cin by mohl byt kvalifikovan jako nekala soutez (konkurence mne
 +zaluje, ze se chovam nemravne, nikoli, ze bych mel porusit nejaky zakon;
 +konkurence dosahne treba zakazu uvedeni produktu na trh ap.) Pro vedu a vyzkum
 +je to asi celkem bezpecne.
 +
 +
 +Z jinych dotazu jeste zajimave problemy:
 +
 +- pokud zamestnavatel na svych webovych strankach uvede seznam zamestnancu a
 +*bez jejich souhlasu* prida odkaz na jejich soukromou domovskou stranku (nebo z
 +ni prilinkuje fotku ap.), porusil zakon na ochranu osobnich udaju
 +
 +- pokud na sve strance udelam *bez souhlasu* odkaz nekam hluboko do nejakych
 +cizich stranek (napr. nejaky obrazek, neco ke stazeni... tzv. deep linking),
 +dopoustim se nekale souteze [pokud tedy nejak vydelavam na tom, ze u mne lide
 +ten odkaz vidi, tj. pokud se ucastnim obchodni souteze]
 +
 +
 +Kontakt na dr. Matejku: matejka@ilaw.cas.cz (osobni asi jan@matejka.us)
 +Mj. uci na MFF v zimnim semestru nejakou (pravni) bezpecnost v sitich.
 +
 +
 +Pro nase pralelni data: PCEDT je tedy na jednu stranu velmi nakladne ziskany
 +zdroj dat, na druhou stranu je pravne v poradku (si myslim). Texty z Evropske
 +unie jsou ve verejne domene, takze jsou take v poradku. Vsechno ostatni je vice
 +ci mene problematicke.
 +
 +Pekny den, O.
 +
  

[ Back to the navigation ] [ Back to the content ]