[ Skip to the content ]

Institute of Formal and Applied Linguistics Wiki


[ Back to the navigation ]

This is an old revision of the document!


Autorské právo

Tato stránka obsahuje naše otázky na právníky ohledně toho, co si můžeme a nemůžeme dovolit při získávání a šíření dat, softwaru atd.

Pro snazší porozumění otázek

Otázky

  1. Natrénovaný model. Mějme anotovaný korpus. ÚFAL má právo ho používat k vědeckým účelům, nemá však právo ho dále šířit (a to ani díla z něj odvozená (derivative works)). S využitím tohoto korpusu natrénujeme model pro tagger nebo parser. Původní dílo (korpus) se z modelu nedá nijak zrekonstruovat, nicméně je evidentní, že bez využití původního díla bychom model vyrobit nemohli. Např. jsou v modelu vidět morfologické značky, jejichž sada se používá pouze v původním korpusu. Můžeme takovýto model šířit bez ohledu na licenci korpusu? To by znamenalo, že model nepovažujeme za odvozené dílo. Chováme se k němu spíš jako k produktu, který jsme vytvořili s použitím nějakého softwaru. Např. když vyrobíme dokument ve Wordu, můžeme pak ten dokument taky šířit dle libosti a nepovažuje se to za software odvozený z Wordu.
    • Konkrétní příklad: z webu jde volně stáhnout Stanford tagger a Stanford parser, oba nástroje jsou pod licencí GNU GPL a obsahují i modely natrénované na anotovaném korpusu PennTB. Můžeme udělat to samé s našimi taggery a parsery?
  2. Rekonstrukce anotovaného korpusu. Pomocí parseru (natrénovaného na modelu popsaném výše) zpracujeme texty z Wikipedie. Můžeme takto vzniklý anotovaný korpus dát volně ke stažení (pod licencí, pod jakou je daná Wikipedie, většinou CC-BY-SA)?
  3. HamleDT. Aktuálně je možné od nás stáhnout harmonizované verze pouze několika korpusů (tj. těch, kterým to jejich licence dovoluje). Pro jiné korpusy, např. anglický PennTB, stačí, když uživatel odklikne ve webovém formuláři, že má práva na původní korpusy, a mi mu pak nabídneme ke stažení jejich harmonizované verze?
  4. Google Translate Přeložili jsme všechny korpusy z HamleDT pomocí akademické verze Google Translate. Můžeme takto vzniklé překlady zveřejnit?
  5. Data bez licence Co je možné dělat s korpusem, který člověk najde někde polo-anonymně na webu a nemá žádnou přiloženou licenci?
  6. Data vytvořená na Univerzitě Karlově (UK) nebo Akademii věd (AV) Existuje řada zdrojů, hlavně slovníků, často publikovaných, které vznikly na půdě UK, nebo AV, případně dalších veřejných výzkumných a akademických pracovišť, kde autoři působili. Je možno takové slovníky využívat k výzkumu, případně co je k tomu potřeba? Musí např. souhlasit všichni autoři, případně jejich dědicové? Nejsou takové slovníky a jiná díla dílem zaměstnaneckým? http://www.ujc.cas.cz/sd/novinky/lexikologie-odd-publikace/lexikologie-slovniky/slovnik-spisovne-cestiny-pro-skolu-a-verejnost.html, http://ssjc.ujc.cas.cz/search.php?db=ssjc, http://bara.ujc.cas.cz/psjc/,
  7. Akademické časopisy Analogicky k výše uvedenému, co časopisy vydávané za veřejné peníze: máme přístup k jejich obsahu a právo jej užít k výzkumným účelům?
  8. Data stažená z webu Jakým právem se řídí texty na webu? Země, kde žije autor, kde má sídlo vydavatel (je to majitel domény?), nebo naším, když si to stáhneme a uložíme v Praze? Pokud právem autora či vydavatele, znamená to, že na vše, co stáhneme z USA platí Fair Use, co z Estonska, na to jejich rozsah výjimky pro výzkum i u nás?
  9. Naše NC data Často si naše data, která mají podmínku nekomerčního užití, licencují (stahují) firmy jako Microsoft Research, Bell Labs, IBM, nebo Yahoo. Je možné, že je to pro jejich základní výzkum, který má ke konkrétní aplikaci relativně daleko. Je to tím v pořádku?
  10. Zamíchání korpusu Je možné zveřejnit korpus, ve kterém jsou texty “znečitelněny” tím, že jsou proházeny odstavce (napříč obrovským množstvím textu, takže není prakticky možno text vrátit zpět), věty, nebo dokonce menší části (kousky vět)? Jakou licenci je možno takovým datům dát?
    • Konkrétní příklad: česko-anglický anotovaný korpus CzEng obsahuje mimo jiné texty stažené z webu. Při stahování jsme respektovali soubory robots.txt, ale nekontrolovali jsme, zda je na stránkách uvedena nějaká licence.
    • Zajímalo by nás, zda by to bylo možné vydat třeba pod nějakou volnější licencí CC-BY-NC, ale to asi nejde říct, když neznáme smlouvu, kterou ČNK podepsalo s jednotlivými poskytovateli textů (na webu tu smlouvu nemohu najít). Další otázka je, zda to zamíchání z právního hlediska něco mění.
  11. Webové aplikace a služby Pokud máme data s ND (no distribution) podmínkou, smíme zpřístupňovat tato data na webu v aplikaci (např. webové prohlížení)? Smíme tato data použít např. v systému strojového překladu, který je pak na webu přístupný jako služba?
  12. Model podruhé. Pokud budeme statisticky vytěžovat korpus nebo jiná autorská díla, lze nalézt nějakou prakticky definovatelnou hranici, za kterou už je zaručeno, že se toto užití nijak nedotýká autorských práv k původním dílům? (tato otázka je pokusem o zobecnění několika předchozích otázek, zejm. 1,2,10). Zřejmě bude existovat nějaká škála, kde na jednom konci je získaný statistický model tak obecný, že autorská práva k původním dílům zjevně dotčena nejsou (např. pokud zveřejním počet textů v mém souboru, nebo jejich nejobecnější charakteristicky jako např. frekvence užití jednotlivých písmen). Na druhém konci škály je pak např. model, který obsahuje celý původní text, a zveřejnění takového modelu je tedy zjevně užitím ve smyslu AZ. Lze např. tuto hranici definovat podmínkou, že původní dílo ani jeho podstatnější části nelze z modelu technickými prostředky zrekonstruovat? Anebo podmínkou, že model popisuje jen tak malé jednotky (např. slova nebo krátké posloupnosti slov), které se běžně vyskytují i v dalších dílech a tudíž nejsou samy o sobě výsledkem jedinečné tvůrčí činnosti ve smyslu § 2 odst. 1 AZ?
  13. Modelové situace Na čtyřech posledních slidech z této prezentace studentům představujeme několik modelových situací souvisejících s autorskými právy. Obsahují tyto slidy správné informace?
  14. NC a úspora nákladů Je použití vedoucí k úspoře nákladů ještě NC? Pokud organizace použije náš produkt licencovaný jako CC NC a sice jí z toho neplyne žádný příjem (např. nemá v té souvislosti žádného platícího zákazníka), ale ušetří jí to náklady (např. potřebuje něco otestovat a bez našich dat by to musela dělat pracněji ručně nebo koupit řešení odjinud), je to OK? Toto se týká také státních institucí, které žádný zisk z principu negenerují, ale úspora u nich nastat může - je to NC?
  15. NC a firmy (souvisí s bodem 9) Je vůbec možné, aby firma deklarovala, že nějaký náš produkt používá pod nekomerční licencí, když smyslem firmy je z principu vytváření zisku?

[ Back to the navigation ] [ Back to the content ]