Datawhale 组队学习之大模型理论基础Task9 大模型法律

第11章 大模型法律

11.1 简介

此内容主要探讨法律对大型语言模型的开发和部署有何规定。

先看看法律的特点:

法律就如我国法律教材所给出的一样,有依靠国家强制力保证实施的特点。

而法律在大模型中也是不可或缺的,缺少了法律的约束,一切数据的使用、用户隐私的保护等等都会出现各种各样的问题。

11.2 版权法

大型语言模型或任何机器学习模型,都是基于数据进行训练的,而这些数据是人类劳动的结果(例如,作者,程序员,摄影师等)。除了创作者外,其他人可以对这些创作(例如,书籍,代码,照片等)进行何种使用,属于知识产权法的范畴。

11.2.1 知识产权法

使用版权作品有两种方式:获取许可或依赖公平使用条款。

11.2.2 许可

许可(来自合同法)是由许可人授予许可使用者的。

11.2.3 公平使用(第107条)

自1840年代以来,公平使用一直是普通法。决定是否适用公平使用的四个因素是:

  1. 使用的目的和性质(教育用途优于商业用途,转型用途优于复制);
  2. 版权作品的性质(虚构作品优于事实作品,创新性的程度);
  3. 使用的原作部分的数量和实质性;和
  4. 使用对原作市场(或潜在市场)的影响。

注意:事实和想法不受版权保护。如果策划/安排被视为表达,事实数据库可以受版权保护。复制数据(训练的第一步)就已经是侵权,即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元(版权法第504条)。

11.3 案例研究

接下来,我们将回顾一些已经裁定公平使用或反对公平使用的案件。

11.3.1 作家协会诉Google

Google Book Search扫描了印刷书籍并使其在线可搜索(显示片段),始于2002年。作家协会抱怨Google没有寻求他们对仍受版权保护的书籍的许可。2013年,地区法院判定Google公平使用。

11.3.2 Google诉Oracle

Google在Android操作系统中复制了Oracle(原Sun Microsystems)所有的37个Java API。Oracle以版权侵权起诉Google。2021年4月,最高法院裁定Google的使用Java API属于公平使用。

11.4 公平学习与机器学习

公平学习主张机器学习属于公平使用。机器学习系统的数据使用是变革性的,它不会改变作品,但会改变目的。机器学习系统对想法感兴趣,而不是具体的表达。

对于将机器学习视为公平使用的论据:训练数据的广泛访问会为社会创造更好的系统。如果不允许使用,那么大部分作品无法用来产生新

的价值。使用版权数据可能更公平。

反对将机器学习视为公平使用的论据:认为机器学习系统不会产生创意的“最终产品”,而只是赚钱。生成模型(例如,语言模型)可以与创意专业人士竞争。机器学习系统的问题(传播假信息,实现监控等),因此不应该给予机器学习系统利益的怀疑。

在版权法下,很难分离可保护的(例如,表达)和不可保护的(例如,想法)。虽然构建机器学习系统可能有很多原因不妥,但版权是阻止它的正确工具吗?对于训练大型语言模型是否属于公平使用的问题正在迅速发展。

11.5 阶段性结论

查看信息技术的历史,我们可以看到三个阶段:

  1. 第一阶段:文本数据挖掘(搜索引擎),基于简单的模式匹配。
  2. 第二阶段:分类(例如,分类停止标志或情感分析),推荐系统。
  3. 第三阶段:学习模仿表达的生成模型。

上次,我们看到从GPT-2中提取训练数据可能会出现隐私问题。如果语言模型直接复制哈利·波特,那么这对公平使用来说是有问题的。然而,即使语言模型不直接生成以前的作品,版权仍然相关,因为以前的受版权保护的作品被用来训练语言模型。

事实上,语言模型可以与作家竞争。例如,作家写了3本书,语言模型在这3本书上进行训练,并自动生成第4本。

因此,面对大型语言模型,版权和机器学习的未来还未知。

11.6 隐私法律教程

在本教程中,我们将简要讨论一些隐私法律的例子,包括Clearview AI、加利福尼亚消费者隐私法案(2018)、加利福尼亚隐私权法案(2020)以及欧盟的一般数据保护条例(GDPR)。

11.6.1 Clearview AI

Clearview AI是一家成立于2017年的公司。2019年,纽约时报曝光了它。到2021年10月,该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构(例如,FBI)和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私,该公司已被起诉。

11.6.2 伊利诺伊州生物识别信息隐私法(2008)

这项法律通过私人实体对生物识别标识符进行监管(不包括政府实体)。Clearview删除了伊利诺伊州的数据。欧盟汉堡数据保护机构(DPA)认为该行为违法。

11.6.3 加利福尼亚消费者隐私法案(2018)

这项法案赋予加利福尼亚居民以下权利:

  • 了解收集他们的哪些个人数据。
  • 了解他们的个人数据是否被出售或公开,以及给了谁。
  • 拒绝个人数据的销售。
  • 访问他们的个人数据。
  • 请求业务删除从消费者处收集的任何个人信息。
  • 不因行使他们的隐私权利而被歧视。

个人数据包括:真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。

该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同,这项法律不允许用户更正数据。

11.6.4 加利福尼亚隐私权法案(2020)

这项法案创立了加利福尼亚隐私保护机构,将于2023年1月1日生效,适用于2022年1月1日之后收集的数据。

11.6.4.1 意图
  • 了解谁在收集他们及其孩子的个人信息,如何使用,以及向谁公开。
  • 控制他们个人信息的使用,包括
    • 限制他们敏感个人信息的使用。
    • 访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。
    • 通过易于获取的自助工具行使他们的隐私权利。
    • 行使他们的隐私权利而不受罚款。
    • 将未采取合理信息安全预防措施的企业追究责任。
    • 从企业使用他们的个人信息中受益。
    • 作为员工和独立承包商也能保护他们的隐私利益。

11.7 GDPR(欧盟一般数据保护条例)

该规定是欧盟法律关于数据隐私的一部分,于2016年通过,2018年可执行。其范围比CCPA更广泛。不适用于处理个人数据的国家安全活动或执法行为。数据主体可以同意处理个人数据,并可以随时撤回。人们应有权访问自己的个人数据。因为在Android手机设置过程中未获得广告个性化的同意,Google被罚款5700万美元。

11.8 其他法律

11.8.1 加利福尼亚的机器人披露法案:

如果使用机器人与人进行通信,而不披露它是一个机器人,这是违法的。限制:只适用于激励销售或影响选举投票的情况。限制:只适用于每月在美国有1000万访问者的公开网站。

11.9 总结

比如大模型的训练、数据的收集和使用等都需要考虑到法律的问题,法律如同一个现存的事物,用哲学的角度来说就是一个无限发展过程中的一个点,因此需要不断完善和发展,这种发展是随着法律制定者的认识而不断进行的。

声明:以上内容部分节选自Datawhale课程内容,加入了一定的博主本人的理解。如有侵权,联系立删!

觉得有用的话给个一键三连哦,欢迎关注无神一起学AI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/656268.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chromedriver安装和环境变量配置

chromedriver 1、安装2、【重点】环境变量配置(1)包的复制:(2)系统环境变量配置 3、验证 1、安装 网上随便搜一篇chromedriver的安装文档即可。这里是一个快速链接 特别提醒:截止2024.1.30,chr…

LeetCode.209. 长度最小的子数组

题目 题目链接 分析 本题的题意就是让我们找最短的子数组和 > target 的子数组的长度。 首先最能想到的就是暴力方法,外层循环以数组每一个元素都作为起点,内存循环累加元素,当大于等于 target 的时候记录当前元素个数,更新…

力扣(leetcode)第119题杨辉三角II(Python)

119.杨辉三角II 题目链接:119.杨辉三角II 给定一个非负索引 rowIndex,返回「杨辉三角」的第 rowIndex 行。 在「杨辉三角」中,每个数是它左上方和右上方的数的和。 示例 1: 输入: rowIndex 3 输出: [1,3,3,1] 示例 2: 输入: rowIndex 0…

机器人顶会IROS,ICRA论文模板下载及投稿须知,以及机器人各大会议查询

一、背景 机器人方向,不止期刊TRO,TASE,RAM,RAL上的成果被认可,机器人顶会上的成果也是非常好的。当决定要写一篇IROS论文时,结果IROS论文模板和投稿须知找了半天才找到,且意外发现了一个特别好…

Consul容器服务自动发现和更新

目录 前瞻 什么是服务注册与发现 什么是consul Docker-consul实现过程 Docker-consul集群部署 实验准备 实验流程 前瞻 什么是服务注册与发现 服务注册与发现是微服务架构中不可或缺的重要组件。起初服务都是单节点的,不保障高可用性,也不考虑服…

企业到底怎么选择PaaS服务?

近年来,云计算一直保持着强大的生产力和创造力,为科技的进步和社会的发展提供了强大的平台。 企业在使用云的时候,会选不同的模式,而PaaS方案,可以为企业的业务需求提供更有效的云计算支持。 PaaS意为平台即服务&…

Web3创业:去中心化初创公司的崛起

随着Web3时代的到来,去中心化技术的崛起不仅令人瞩目,也为创业者带来了前所未有的机遇。在这个新的时代,一批去中心化初创公司正崭露头角,重新定义着商业和创新的边界。本文将深入探讨Web3创业的趋势,以及去中心化初创…

基于数字签名技术的挑战/响应式认证方式

挑战/响应式认证方式简便灵活,实现起来也比较容易。当网络需要验证用户身份时,客户端向服务器提出登录请求;当服务器接收到客户端的验证请求时,服务器端向客户端发送一个随机数,这就是这种认证方式的“冲击&#xff08…

OpenCV 8 - 模糊处理(均值滤波,高斯滤波,中值滤波,双边滤波)

模糊处理原理: Blur是图像处理中最简单和常用的操作之一,使用该操作的原因为了给图像预处理时候减低噪声使用,Blur操作其背后是数学的卷积计算, 通常这些卷积算子计算都是线性操作,所以又出线性虑波。 假设有6x6的图像像素点矩阵。卷积过程:6x6上面是个3x3的窗口,从左向右,…

秒级响应,显著增效:明日控股携手奇点云,打造大宗贸易的数据中台标杆

业务流程复杂、场景个性化、交易金额大、高度依赖人工的大宗贸易行业也能做到业务实时分析,甚至还能自动化? 这样的图景在三年前,只是不太现实的假想。 明日控股集团(浙江明日控股集团股份有限公司)IT团队曾坦言&…

使用WAF防御网络上的隐蔽威胁之反序列化攻击

​ 什么是反序列化 反序列化是将数据结构或对象状态从某种格式转换回对象的过程。这种格式通常是二进制流或者字符串(如JSON、XML),它是对象序列化(即对象转换为可存储或可传输格式)的逆过程。 反序列化的安全风险 反…

多线程(Day22)

死锁 概述 死锁是指两个或两个以上的进程在执行过程中,由于竞争资源或由于彼此通信而造成的一种阻塞现象。若无外力作用,他们将无法进行下去,此时称系统处于死锁状态,这些永远在互相等待的进程称为死锁进程。 原理 1 某个线程执行…

Docker(第三部分)

1,Docker复杂安装说明 今天的优势会被明天趋势所取代 一切在云端 安装mysql主从复制 主从复制原理,默认你懂 主从搭建步骤 1,新建主从服务器容器实例3307 docker run -p 3307:3306 --name mysql-master\ -v /mydata/mysql-master/log:…

一二三应用开发平台文件处理设计与实现系列之7——minio多节点共享磁盘模式验证

背景 在不了解minio架构设计之前,我根据既往经验推测minio是将文件读写封装实现了一个应用系统,如要实现高可用,则需要部署两个minio节点,共享同一块磁盘。两个minio节组成一个集群,使用nginx实现负载均衡&#xff0c…

【C深度解剖】const关键字

简介:本系列博客为C深度解剖系列内容,以某个点为中心进行相关详细拓展 适宜人群:已大体了解C语法同学 作者留言:本博客相关内容如需转载请注明出处,本人学疏才浅,难免存在些许错误,望留言指正 作…

菜单栏应用管理 -- Bartender 4

Bartender 4是一款旨在优化和简化Mac菜单栏管理的强大工具。它具有以下特色功能: 组织和管理菜单栏图标:Bartender 4允许用户轻松组织和管理菜单栏中的图标,可以隐藏不常用的图标,保持菜单栏的整洁和简洁。同时,用户还…

雾锁王国多人联机专用服务器推荐!最高支持16人联机

Steam平台24日新上线一款奇幻生存冒险建造动作RPG游戏《ENSHROUDED雾锁王国》,玩家将置身于一个广阔的可编辑改造的体素世界中,在被灾祸笼罩的先祖之地上展开生存之旅。在《雾锁王国》中,玩家可以独自冒险,也可以与最多16名玩家联…

Ajax入门与使用

目录 ◆ AJAX 概念和 axios 使用 什么是 AJAX? 怎么发送 AJAX 请求? 如何使用axios axios 函数的基本结构 axios 函数的使用场景 1 没有参数的情况 2 使用params参数传参的情况 3 使用data参数来处理请求体的数据 4 上传图片等二进制的情况…

漫画图解 Go 并发编程之:Channel

当谈到并发时,许多编程语言都采用共享内存/状态模型。然而,Go 通过实现 Communicating Sequential Processes(CSP)而与众不同。在 CSP 中,程序由不共享状态的并行处理器组成;相反,他们使用 Chan…

基于Redis实现短信登录

首先我们要思考一下利用redis来存储数据,那么到底使用哪种结构呢?由于存入的数据比较简单,我们可以考虑使用String,或者是使用哈希,如下图,如果使用String,同学们注意他的value,用多…