LLM 05-大模型法律

LLM 05-大模型法律

5.1 简介

在这个教程中,我们将探讨法律对大型语言模型的开发和部署有何规定。我们将会按照以下的步骤进行讨论:

  1. 新技术与现有法律的关系

    与我们之前的讲座一样,比如关于社会偏见的讲座,我们将要讨论的很多内容并不一定特指大型语言模型(并没有特别的大型语言模型法律条例)。然而,每当有新的强大的技术出现,它都会引发很多关于现有法律是否仍然适用或有意义的问题。例如,随着互联网的重要性日益提高,互联网法律(或称为网络法)应运而生。它从现有的领域中汲取知识,如知识产权法,隐私法,和合同法等。

  2. 互联网的独特挑战

    法律通常有明确的管辖范围(例如,州,联邦),但互联网并不受地理限制。在互联网上可以保持匿名,任何人都可以发布一段内容,理论上可以被任何人查看。

  3. 法律与道德的区别

    法律可以由政府强制执行,而道德无法强制执行,可以由任何组织创立。例如医师的希波克拉底誓言、ACM的道德与职业行为准则、NeurIPS的行为准则和斯坦福的荣誉准则等。

  4. 法律的管辖权问题

    根据你所在的地方(哪个国家,哪个州等),适用的法律会有所不同。例如,欧盟的数据隐私法GDPR比美国的法律更全面。法律可以在联邦、州或地方级别存在。

  5. 法律的类型

    常见的法律类型包括普通法(司法)、成文法(立法)和监管法(行政)。

  6. 大型语言模型

    我们将会把注意力转向大型语言模型。回忆一下大型语言模型的生命周期:收集训练数据,训练大型语言模型,将其适应到下游任务,向用户部署语言模型。

    在大型语言模型的生命周期中,有两个主要领域与法律交叉:数据和应用。

  7. 数据

    所有的机器学习都依赖于数据。语言模型依赖于大量的数据,尤其是为其他目的制作的他人的数据,这些数据往往在未经许可的情况下被抓取。知识产权法保护数据的创作者,那么在这些数据上训练语言模型是否构成侵犯版权?隐私法保护个人隐私权,那么在公开或私密数据上训练语言模型是否可能侵犯隐私?对于私密数据,何时可以收集和汇总这些数据?

  8. 应用

    语言模型可以被用于广泛的下游任务(例如,问答,聊天机器人)。技术可能被有意用于伤害(例如,垃圾邮件,网络钓鱼攻击,骚扰,假新闻)。现有的互联网欺诈和滥用法律可能覆盖其中的一部分。他们可以被部署在各种高风险的环境(例如,医疗,贷款,教育)。现有的在相关领域的规定(例如,医疗)可能覆盖其中的一部分。

    大型语言模型的扩展能力(例如,真实文本生成,聊天机器人)将带来新的挑战。

5.2 版权法

大型语言模型或任何机器学习模型,都是基于数据进行训练的,而这些数据是人类劳动的结果(例如,作者,程序员,摄影师等)。除了创作者外,其他人可以对这些创作(例如,书籍,代码,照片等)进行何种使用,属于知识产权法的范畴。

5.2.1 知识产权法

其动机是鼓励创建各种类型的知识产品。如果任何人都可以利用你的辛勤劳动并从中获利,人们就会对创造或分享失去动力。知识产权包括:版权,专利,商标,商业秘密。

在美国,决定版权的关键法规是1976年的《版权法》。版权保护适用于“已经以某种可以感知、复制或以其他方式直接或通过机器或设备传达的有形媒介中固定下来的原创性作者作品”。1976年版权法扩大了版权保护范围,从“已发布”(1909年)扩大到“已固定”。虽然不需要登记就可以获得版权保护,但在起诉他人侵犯版权之前,创作者必须注册版权。版权保护期限为75年,然后版权到期,作品成为公有领域的一部分(如莎士比亚、贝多芬的作品等)。

使用版权作品有两种方式:获取许可或依赖公平使用条款。

5.2.2 许可

许可(来自合同法)是由许可人授予许可使用者的。实际上,“许可就是承诺不起诉”。创作共享许可,允许免费分发版权作品。例如,维基百科、开放课程、可汗学院、免费音乐档案、来自Flickr的307百万图像、来自MusicBrainz的39百万图像、来自YouTube的1000万视频等。

5.2.3 公平使用(第107条)

自1840年代以来,公平使用一直是普通法。决定是否适用公平使用的四个因素是:

  1. 使用的目的和性质(教育用途优于商业用途,转型用途优于复制);
  2. 版权作品的性质(虚构作品优于事实作品,创新性的程度);
  3. 使用的原作部分的数量和实质性;
  4. 使用对原作市场(或潜在市场)的影响。

服务条款可能会增加额外的限制。例如,YouTube的服务条款禁止下载视频,即使视频在创作共享下许可。

注意:事实和想法不受版权保护。如果策划/安排被视为表达,事实数据库可以受版权保护。复制数据(训练的第一步)就已经是侵权,即使你不做任何事情。法定损害赔偿可以高达每件作品150,000美元(版权法第504条)。

5.3 案例研究

接下来,我们将回顾一些已经裁定公平使用或反对公平使用的案件。

5.3.1 作家协会诉Google

Google Book Search扫描了印刷书籍并使其在线可搜索(显示片段),始于2002年。作家协会抱怨Google没有寻求他们对仍受版权保护的书籍的许可。2013年,地区法院判定Google公平使用。

5.3.2 Google诉Oracle

Google在Android操作系统中复制了Oracle(原Sun Microsystems)所有的37个Java API。Oracle以版权侵权起诉Google。2021年4月,最高法院裁定Google的使用Java API属于公平使用。

5.3.3 Fox News诉TVEyes

TVEyes记录电视节目,创建了一项服务,使人们可以搜索(通过文本)并观看10秒片段。Fox News起诉TVEyes。2018年,第二区裁定赞成Fox News,不是公平使用。

5.3.4 Kelly诉Arriba

Arriba创建了一个显示缩略图的搜索引擎。Kelly(个人)起诉Arriba。2003年,第九巡回法庭裁定赞成Arriba,认为其属于公平使用。

5.3.5 Sega诉Accolade

1989年,Sega Genesis游戏主机发布。Accolade想要在Genesis上发布游戏,但Sega收取额外费用,希望成为独家发行商。Accolade反向工程Sega的代码,制作新版本,绕过安全锁。Sega在1991年起诉Accolade。1992年,第九巡回法庭裁定赞成Accolade,认为其属于公平使用。

5.4 公平学习与机器学习

公平学习主张机器学习属于公平使用。机器学习系统的数据使用是变革性的,它不会改变作品,但会改变目的。机器学习系统对想法感兴趣,而不是具体的表达。

对于将机器学习视为公平使用的论据:训练数据的广泛访问会为社会创造更好的系统。如果不允许使用,那么大部分作品无法用来产生新的价值。使用版权数据可能更公平。

反对将机器学习视为公平使用的论据:认为机器学习系统不会产生创意的“最终产品”,而只是赚钱。生成模型(例如,语言模型)可以与创意专业人士竞争。机器学习系统的问题(传播假信息,实现监控等),因此不应该给予机器学习系统利益的怀疑。

在版权法下,很难分离可保护的(例如,表达)和不可保护的(例如,想法)。虽然构建机器学习系统可能有很多原因不妥,但版权是阻止它的正确工具吗?对于训练大型语言模型是否属于公平使用的问题正在迅速发展。

5.5 阶段性结论

查看信息技术的历史,我们可以看到三个阶段:

  1. 第一阶段:文本数据挖掘(搜索引擎),基于简单的模式匹配。
  2. 第二阶段:分类(例如,分类停止标志或情感分析),推荐系统。
  3. 第三阶段:学习模仿表达的生成模型。

上次,我们看到从GPT-2中提取训练数据可能会出现隐私问题。如果语言模型直接复制哈利·波特,那么这对公平使用来说是有问题的。然而,即使语言模型不直接生成以前的作品,版权仍然相关,因为以前的受版权保护的作品被用来训练语言模型。

事实上,语言模型可以与作家竞争。例如,作家写了3本书,语言模型在这3本书上进行训练,并自动生成第4本。

因此,面对大型语言模型,版权和机器学习的未来还未知。

5.6 隐私法律教程

在本教程中,我们将简要讨论一些隐私法律的例子,包括Clearview AI、加利福尼亚消费者隐私法案(2018)、加利福尼亚隐私权法案(2020)以及欧盟的一般数据保护条例(GDPR)。

5.6.1 Clearview AI

Clearview AI是一家成立于2017年的公司。2019年,纽约时报曝光了它。到2021年10月,该公司已经从Facebook、Twitter、Google、YouTube、Venmo等网站抓取了100亿张人脸图片。该公司将数据销售给执法机构(例如,FBI)和商业组织。该公司辩称有权使用公开的信息。由于侵犯隐私,该公司已被起诉。

5.6.2 伊利诺伊州生物识别信息隐私法(2008)

这项法律通过私人实体对生物识别标识符进行监管(不包括政府实体)。Clearview删除了伊利诺伊州的数据。欧盟汉堡数据保护机构(DPA)认为该行为违法。

5.6.3 加利福尼亚消费者隐私法案(2018)

这项法案赋予加利福尼亚居民以下权利:

  • 了解收集他们的哪些个人数据。
  • 了解他们的个人数据是否被出售或公开,以及给了谁。
  • 拒绝个人数据的销售。
  • 访问他们的个人数据。
  • 请求业务删除从消费者处收集的任何个人信息。
  • 不因行使他们的隐私权利而被歧视。

个人数据包括:真实姓名、别名、邮寄地址、唯一个人标识符、在线标识符、IP地址、电子邮件地址、账户名称、社会保障号码、驾驶执照号码、车牌号码、护照号码等。

该法适用于在加利福尼亚经营且年收入至少为2500万美元的企业。美国联邦尚无相应法律。与GDPR不同,这项法律不允许用户更正数据。

5.6.4 加利福尼亚隐私权法案(2020)

这项法案创立了加利福尼亚隐私保护机构,将于2023年1月1日生效,适用于2022年1月1日之后收集的数据。

5.6.4.1 意图:

  • 了解谁在收集他们及其孩子的个人信息,如何使用,以及向谁公开。
  • 控制他们个人信息的使用,包括限制他们敏感个人信息的使用。
  • 访问他们的个人信息并有能力纠正、删除和转移他们的个人信息。
  • 通过易于获取的自助工具行使他们的隐私权利。
  • 行使他们的隐私权利而不受罚款。
  • 将未采取合理信息安全预防措施的企业追究责任。
  • 从企业使用他们的个人信息中受益。
  • 作为员工和独立承包商也能保护他们的隐私利益。

5.7 GDPR(欧盟一般数据保护条例)

该规定是欧盟法律关于数据隐私的一部分,于2016年通过,2018年可执行。其范围比CCPA更广泛。不适用于处理个人数据的国家安全活动或执法行为。数据主体可以同意处理个人数据,并可以随时撤回。人们应有权访问自己的个人数据。因为在Android手机设置过程中未获得广告个性化的同意,Google被罚款5700万美元。

5.8 其他法律

5.8.1 加利福尼亚的机器人披露法案:

如果使用机器人与人进行通信,而不披露它是一个机器人,这是违法的。限制:只适用于激励销售或影响选举投票的情况。限制:只适用于每月在美国有1000万访问者的公开网站。

5.9 总结

在我们训练大型语言模型时,我们必须面对版权和公平使用的问题。由于网络爬取的未筛选性质,你必须诉诸公平使用(从每个人那里获得许可证将非常困难)。模型的生成性可能会对争论公平使用提出挑战(可以与人类竞争)。在什么水平上进行调控(语言模型还是下游应用)是有意义的?这个领域正在迅速发展,需要深入的法律和人工智能专业知识才能做出明智的决定!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/79516.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2.10 PE结构:重建重定位表结构

Relocation(重定位)是一种将程序中的一些地址修正为运行时可用的实际地址的机制。在程序编译过程中,由于程序中使用了各种全局变量和函数,这些变量和函数的地址还没有确定,因此它们的地址只能暂时使用一个相对地址。当…

虚幻动画系统概述

本文主要整理一下高层次的概述,方便后续查阅 1.动画流程 DCC产出动画文件 -> UE动画导入 -> 动画蓝图驱动(类似unity的动画状态机) ->动画后处理蓝图驱动(例如修型骨,骨骼矫正等后期处理) 2.动…

Ubuntu 出现 Failed to Fetch的解决办法

在使用apt install XXX时出现问题: E: Failed to fetch http://archive.ubuntu.com/ubuntu/pool/universe/f/fyba/libfyba0_4.1.1-6build1_amd64.deb Connection failed [IP: 185.125.190.39 80]E: Failed to fetch http://archive.ubuntu.com/ubuntu/pool/univers…

数据结构与算法:树

目录 树 定义 结构 二叉树 定义 结构 形式 满二叉树 完全二叉树 存储 链式存储结构 数组 孩子节点 父节点 应用 查找 维持相对顺序 遍历 深度优先遍历 前序遍历 中序遍历 后序遍历 广度优先遍历 层序遍历 二叉堆 定义 自我调整 操作 插入加点 删…

左神算法之中级提升班(9)

目录 【案例1】 【题目描述】 【思路解析】 【代码实现】 【案例2】 【题目描述】 【思路解析 平凡解技巧 从业务中分析终止条件 重点】 【代码实现】 【案例3】 【题目描述】 【思路解析】 【案例4】 【题目描述】 【思路解析】 【代码实现】 【动态规划代码】…

使用SSH地址拉取远程仓库代码报下面的错误

说明:配置了SSH秘钥后,使用SSH地址克隆代码,依旧无法拉取代码,提示下面这个信息。 Their offer:ssh-rsa,ssh-dss fatal:Could not read from remote repository. Please make sure you have the…

【计算机网络】 RTT和RTO

文章目录 RTT——往返时延RTO(Retransmission Timeout)——超时重传时间 RTT——往返时延 RTT(Round-Trip Time)是计算机网络中的一个重要的性能指标,表示从发送端发送数据开始,到发送端接收到来自接收端的…

【深度学习】 Python 和 NumPy 系列教程(一):Python基本数据类型:1、数字(整数、浮点数)及相关运算;2、布尔值

目录 一、前言 二、实验环境 三、Python基本数据类型 1. 数字 a. 整数(int) b. 浮点数(float) c. 运算 运算符 增强操作符 代码整合 d. 运算中的类型转换 e. 运算函数abs、max、min、int、float 2. 布尔值&#xff08…

sqlserver2012性能优化配置:设置性能相关的服务器参数

前言 sqlserver2012 长时间运行的话会将服务器的内存占满 解决办法 通过界面设置 下图中设置最大服务器内存 通过执行脚本设置 需要先开发开启高级选项配置才能设置成功 设置完成之后将高级选择配置关闭,还原成跟之前一样 --可以配置高级选项 EXEC sp_conf…

开源库源码分析:Okhttp源码分析(一)

开源库源码分析:OkHttp源码分析 导言 接下来就要开始分析一些常用开源库的源码了,作为最常用的网络请求库,OkHttp以其强大的功能深受Android开发者的喜爱(比如说我),还有对该库进行二次封装而成的热门库&a…

前端设计模式基础笔记

前端设计模式是指在前端开发中经常使用的一些解决问题的模式或思想。它们是经过实践证明的最佳实践,可以帮助我们更好地组织和管理我们的代码。 一、单例模式(Singleton Pattern) 单例模式是一种创建型模式,它保证一个类只有一个…

⑩ vue新特性

ref 或者reactive ref相当于data methods props和context props !!!setup中没有this关键字,使用context(简写:ctx)就是this 在steup中使用生命周期函数 Provide / Inject 1、原来是 a传…

SpringBoot @Conditional注解

AutoConfigureBefore 在指定配置类初始化前加载 AutoConfigureAfter 在指定配置类初始化后加载 AutoConfigureOrder 指定配置类初始化顺序,越小初始化越早 选择器 Conditional,当指定的条件都满足时,组件才被注册 ConditionalOnBean&#x…

基于YOLOv2和传感器的多功能门禁系统

文章和项目源码已经归档至【Github仓库:https://github.com/timerring/face-recognition-door 】或者公众号【AIShareLab】回复 人脸识别门禁 也可获取。 文章目录 1.系统制作方案概述1.1系统设计的立意1.2系统的主要组成1.3系统的制作方案1.3.1制作方案框图1.3.2制…

python-xpath语法-爬取彼岸图4k高清动漫壁纸

安装 pip install lxml导入 from lxml import etreexpath使用路径表达式提取html文档中的元素或元素集,然后元素通过沿路径path或步steps来选取数据 XPath常用语法格式 表达式描述div选取div元素的所有子元素/div选取根元素divul//li选取ul元素下的所有li子元素…

大数据-玩转数据-oracel字符串分割转化为多列

一、建表 create table split_string_test(id integer primary key,test_string varchar2(500) );二、插入测试数据 insert into split_string_test values(1, 10,11,12,13,14,22); insert into split_string_test values(2, 22,23,24); insert into split_string_test valu…

Spring集成XxlJob核心初始化类,对应版本:2.4.1-SNAPSHOT

XxlJobSpringExecutor: 继承了XxlJobExecutor父类,实现了ApplicationContextAware,SmartInitializingSingleton,DisposableBean接口 在Spring容器启动后根据是否是单例Bean来执行SmartInitializingSingleton接口的afterSingletonsInstantiated()方法调用 1、从Sprin…

TMS320F280049最小系统原理图

TMS320F280049最小系统原理图 1.概述2. 典型的 F2800x 系统方框图3. 最小系统原理图设计3.1 封装和器件决策3.2 电源及去耦电容3.3 晶振3.4 GPIO3.5 ADC模块3.6 JTAG 最近做了个新车规项目,第一次接触TMS320F280049,记录一下,最小系统原理图设…

PostgreSQL 事务并发锁

文章目录 PostgreSQL 事务大家都知道的 ACID事务的基本使用保存点 PostgreSQL 并发并发问题MVCC PostgreSQL 锁机制表锁行锁 总结 PostgreSQL 事务 大家都知道的 ACID 在日常操作中,对于一组相关操作,通常要求要么都成功,要么都失败。在关系…

Linux下运行Jmeter压测

一、在Linux服务器先安装SDK 1、先从官网下载jdk1.8.0_131.tar.gz,再从本地上传到Linux服务器 2、解压:tar -xzf jdk1.8.0_131.tar.gz,生成文件夹 jdk1.8.0_131 3、在/usr/目录下创建java文件夹,再将 jdk1.8.0_131目录移动到/u…