大模型互相“薅羊毛”背后,行业基本操作,规范化势在必行

最近,字节跳动被曝调用 OpenAI API 接口训练大模型的争议,以及谷歌大模型 Gemini 被曝使用百度文心一言进行中文语料训练等事件,在行业里引发了不小的关注和讨论。

不明真相的网友们一边热情吃瓜,一边也在感叹 AI 大厂之间互相“薅羊毛”的奇葩操作,属实是给大家整不会了。

Drawing 0

不过,透过现象看本质。IT之家倒认为,这几件颇受关注的事件或许可以成为一个契机,引导行业走向 AI 大模型训练过程中数据使用版权走向规范化的道路上。

AI 领域数据版权问题是行业通病

前面说的关于字节跳动和 OpenAI 之间的“争议”,目前双方都做出了回应。OpenAI 方面称需要进一步调查字节跳动是否存在违规。而字节跳动则表示仅在初期探索阶段使用 OpenAI 的 API,4 月份的时候已经停止。

而就在外媒报道字节与 OpenAI 事件后不久,谷歌的 Gemini 大模型也被曝出中文语料是使用文心一言进行训练。

有很多用户发现,ZAI Poe 平台上询问谷歌 Gemini-Pro 大模型 “你是谁”?Gemini-Pro 直接就回答:“我是百度文心大模型”,而接着问它“你的创始人是谁”,他也回答是“李彦宏”。

Drawing 1

同时国内媒体“量子位”在 Gemini 官方的开发环境入口进行测试时,Gemini-Pro 也直接声称自己在中文数据的训练上使用了百度文心一言。

截至小编发稿,谷歌方面还没有针对这件事做出回应。

但可以看到,AI 领域数据版权侵权,其实一直是行业的共性问题,也是大模型发展早期很难避免的现象。

比如小编还注意到,今年三月,谷歌就已经被曝出旗下 Bard 聊天机器人通过 ShareGPT 网站捕获用户与 ChatGPT 的对话数据来训练模型。

Drawing 2

除了谷歌,同为科技巨头的 Meta 最近也陷入大模型训练的数据版权风波,根据路透社的报道,由喜剧演员 Sarah Silverman、普利策奖得主 Michael Chabon 等著名作家于今年夏天联合发起诉讼,他们指控 Meta 未经许可使用他们的书籍作品训练人工智能语言模型 Llama。

Meta 于今年 2 月发布了其第一版 Llama 大型语言模型,并公布了用于训练的数据集列表,其中包括“ThePile”数据集的“Books3”部分。根据诉讼文件,该数据集的创建者曾表示,其中包含 196,640 本书籍,Meta 在明知使用其中数千本盗版书籍训练其 AI 模型存在法律风险的情况下,仍然这么做了。

Drawing 3

与之类似的,还有这次事件中的“受害者”OpenAI,今年 9 月,包括《权力的游戏》原著作者乔治・马丁在内的 17 位美国著名作家指控 OpenAI 未经许可使用他们受版权保护的作品,并将这些作品用于训练 ChatGPT 等大模型,还能生成与其作品相似的内容。

Drawing 4

还有今年 11 月,OpenAI 和微软又被一群非小说类作品作家对 OpenAI 和微软提起了诉讼,指控这两家公司在训练其大型语言模型时,未经允许使用了他们的书籍和学术期刊,而且没有给予任何补偿。

诸多案例都显示,在眼下这个 AI 大模型发展的早期,模型训练过程中的数据侵权问题可以说是行业的通病,是普遍现象,并且关于 AI 训练过程中的数据使用问题目前还存在较大的争议性,有待行业规范的进一步完善。

大模型的“无性繁殖”,究竟是咋回事?

我们知道,AI 大模型的基本原理是根据上文的内容输出下一个最有可能出现的 token(语素),那么它怎么保证输出的就是我们想要的呢?答案就是靠训练。

这里我们要先简单介绍一些大语言模型训练的主要阶段:预训练、有监督的精调和人类的反馈学习。

预训练阶段是不需要人工干预的,只要喂给 AI 足够多的数据,AI 就能通过训练获得强大的通用语言能力。

接下来在有监督的精调这一步,就需要解决让大模型输出我们想要的结果的问题。

比如当我们提出“水的沸点是多少度?”这个问题,AI 可能会觉得有很多类型的回复,比如“我也很想知道”,但对人类来说,最合理的回复自然是“100 度”。

所以就需要人类引导 AI 输出我们认为合理的标准答案,这个过程中我们会人为地喂给 AI 大量问题的标准答案,来微调它的模型参数,因此叫监督学习。类似的情况还有很多,比如我们不希望大模型输出不符合人类价值观的内容,所有这些,都需要对模型进行精调,换句话说,就是要对我们想要的数据进行标注。

可想而知,数据标注这件事,是个非常海量且庞大的工程,需要投入非常多的人力和时间。在商业竞争争分夺秒的环境下,对后来进入大模型领域的企业来说,独自且重复地去完成这些事,显然不符合发展的需求。因此,很多大模型使用 GPT 生成标注数据其实已经是行业公开的秘密。

例如之前有些国内的 GPT 镜像站,完全免费,就是某些公司自己花钱调用 OpenAI 的接口,然后拿用户当劳力生成训练数据。

Drawing 5

例如比较知名的开源数据集 Alpaca,也是用 GPT4 生成的。这种用 GPT 的标注数据训练小模型的方法也叫做“蒸馏”。

ChatGPT 爆火之后,不少公司能够这么快地跟进并推出自己的 AI 大模型,其实主要就是两个路径。

其一是使用 Meta 的开源大型语言模型 Llama 来训练。

其二就是 ChatGPT 里面蒸馏一些数据,再结合开源数据集和自己爬的数据,训练自己的大模型。

因此,尽管 OpenAI 在其 API 服务条款中有给出“不可以用 Output 来开发与 OpenAI 竞争的模型”这样的条款,但其实这一政策一直以来都很有争议。

支持的人认为 OpenAI 为训练模型做了大量前期投入,借助他们的服务走捷径是不正确的。而反对的人则认为,OpenAI 的前期训练过程吃了 AI 训练早期外部环境无戒备的红利,且同样存在数据侵权的控诉,此后的模型很难获得同样量级和规模的训练数据,阻止其他企业调用其模型违背“Open”的精神。

在此背景下,我们再看字节跳动的回应:

  • 今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在 4 月公司引入 GPT API 调用规范检查后,这种做法已经停止。

  • 早在今年 4 月,字节大模型团队已经提出了明确的内部要求,不得将 GPT 模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用 GPT 时遵守服务条款。

  • 9 月,公司内部又进行了一轮检查,采取措施进一步保证对 GPT 的 API 调用符合规范要求。例如分批次抽样模型训练数据与 GPT 的相似度,避免数据标注人员私自使用 GPT。

  • 未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。

对于字节跳动的回应,小编想提炼两个重点,其一,字节跳动只是在探索大模型初期时,有部分工程师将 GPT 的 API 服务应用于较小模型的实验性项目研究中,而实验性项目并不违反服务条款。比如微软也曾利用 OpenAI 的合成数据做微调训练,训练出了一个 130 亿参数的模型 Orca,还达到了 chatGPT 3.5 的水平。这个和字节跳动一样,也是实验和研究的用途,并未将模型对外商用。

其二,就是字节跳动在回应中已经明确指出,他们已经在内部反复做出规范和限制,不能使用 GPT 生成数据训练模型,其实,这不仅是遵守服务条款,更是技术发展的必要,因为如果一直使用 Open AI 的模型输出,表面上是走捷径,但实际上相当于是将自己的大模型能力天花板给锁死了,无论模型本身、训练数据还是输出方式,都只是 GPT 的延续,这一点,字节跳动一定比谁都清楚。

AI 大模型训练中的核心版权问题亟待规范和完善

其实,任何新兴行业在发展初期都会存在各种各样的乱象和不合规问题,事物的发展总是一个过程,而标准和规范的介入,也往往是在行业发展规律完全呈现后,在一个合适的契机下发生的。

因此,这次字节跳动和 OpenAI、谷歌 Gemini 和文心一言相继发生的事件,小编认为,我们与其在争议中过多纠结于“对或错”,更值得关注的,应该是关于 AI 领域数据使用的行业规范是否到了进一步规范和完善的时候?

根据工业和信息化部赛迪研究院近日的数据,今年,我国生成式人工智能市场规模有望突破 10 万亿元。专家预测,2035 年生成式人工智能有望为全球贡献近 90 万亿元的经济价值,其中我国将突破 30 万亿元,占比超过四成。

一方面,生成式 AI 的发展势头可谓如火如荼,另一方面,大模型训练的问题处于生成式 AI 生命周期的开始,如果不能从源头上尽早规范,AIGC 大模型的研发就会始终处于侵权和不确定的状态。这对于行业发展显然是不利的。

同时应该注意到,传统的授权许可以及版权法在生成式 AI 训练的领域内会存在很多主体、条件、可行性等难以界定的问题,比如 AIGC 训练的数据量过于庞大众多、来源各异,如果使用事先授权许可的方式,很难将具体的作品从海量数据中进行分离提取,再加上版权界定、付费等一系列操作,几乎不可行。也就是说,AI 时代的数据侵权问题对于现有的版权法律和规范本身就是一项挑战,需要从头开始一点一点完善的地方很多,但又不能不完善,因此必须尽早尽快地推进规范化体系。

好消息是,这个问题正在得到行业的重视。比如今年 6 月,就有中文在线、同方知网、中国工人出版社等 26 家单位共同发布了国内首份有关 AIGC 训练数据版权的倡议书,就针对引导 AI 生成内容的合理使用、提升版权保护意识、优化内容授权渠道等方面提出了倡议。

同时,我们也希望这次字节跳动和 OpenAI 以及 Gemini 与文心一言的事件也能成为一个契机,推动生成式 AI 训练数据核心版权问题的规范化,从“倡议”迈向实际的“落地”。

只有这样,生成式 AI 才能更好的服务于人类,服务于千行百业。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/235856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文解读】Efficient SAO Coding Algorithm for x265 Encoder

时间:2015年 级别:IEEE 机构:上海交通大学 摘要 x265是一款开源的HEVC编码器,采用了多种优化技术,具有较快的编码速度和优良的编码性能。作为HEVC的一项关键技术,x265还采用了样本自适应偏移(sample adap…

工作流引擎的架构设计与对比

所谓工作流引擎是指 workflow 作为应用系统的一部分,并为之提供对各应用系统有决定作用的,根据角色、分工和条件的不同决定信息传递路由、内容等级 等核心解决方案。工作流引擎可以灵活地配置工作流程,并且可以自动化的根据配置进行状态变更和…

WebRPC开发基础流程

一、WebRTC 使用入门 WebRTC(全称 Web Real-Time Communication),即网页即时通信。 是一个支持网页浏览器进行实时语音对话或视频对话的技术方案。从前端技术开发的视角来看,是一组可调用的API标准。 WebRTC API 官网&#xff1…

Observability:捕获 Elastic Agent 和 Elasticsearch 之间的延迟

在现代 IT 基础设施的动态环境中,高效的数据收集和分析至关重要。 Elastic Agent 是 Elastic Stack 的关键组件,通过促进将数据无缝摄取到 Elasticsearch 中,在此过程中发挥着至关重要的作用。 然而,显着影响此过程整体有效性的关…

金融CRM有用吗?金融行业CRM有哪些功能

市场形式波诡云谲,金融行业也面临着资源体系分散、竞争力后继不足、未知风险无法规避等问题。金融企业该如何解决这些问题,或许可以了解一下CRM管理系统,和其提供的金融行业CRM解决方案。 金融行业是银行业、保险业、信托业、证券业和租赁业…

Windows 终端与 PowerShell:它们有何不同?

如果您使用的是 Windows 11 或 Windows 10,你会发现预安装了 PowerShell 和 Windows 终端。两者都是命令行界面,允许您输入文本命令来执行各种任务,但它们有何不同? PowerShell 是对命令提示符的改进 Windows 11 中的 Windows Po…

基于SSM的双减后初小教育课外学习生活活动平台的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

odoo17核心1——概述

odoo17发布了,如果说odoo16是一个承前启后的版本,那么odoo17则完全抛弃了历史包袱,全面简化了前端代码,是一个里程碑式的版本。 在学习odoo的过程中,结合对源码的阅读,对odoo的设计哲学有了一些自己的感悟…

分享一些实用工具和学习网站

1 前言 虽然已经工作过几年的时间了,但是学习的脚步是不能停止的,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。…

BSWM 模式管理(二)ESH

BSWM 模式管理 ESH 1 ECU State Handling (ESH)2 BSWM ESH 五大模式与六大通用状态机3 状态机对应的切换条件 conditions or rules4 默认主要的 ACTION 或者 ACTION LIST1 ECU State Handling (ESH) 与 ECUM 相关,整个 ECU 状态管理的状态机制 2 BSWM ESH 五大模式与六大通…

时间序列预测模型全家桶-最全教程

时序预测:LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较-CSDN博客 风速预测(二)基于Pytorch的EMD-LSTM模型-CSDN博客 风速预测(三)EMD-LSTM-Attention模型-CSDN博客 风速预测(四)基于P…

Spring Boot学习随笔- 文件上传和下载(在线打卡、附件下载、MultipartFile)

学习视频:【编程不良人】2021年SpringBoot最新最全教程 第十二章、文件上传、下载 文件上传 文件上传是指将文件从客户端计算机传输到服务器的过程。 上传思路 前端的上传页面:提交方式必须为post,enctype属性必须为multipart/form-data开发…

Maven将Jar包打入本地仓库

Maven将Jar包打入本地仓库 Maven将Jar包打入本地仓库嘚吧嘚下载Maven配置Maven新建MAVEN_HOME编辑Path验证Maven配置 Jar包打入Maven仓库 Maven将Jar包打入本地仓库 嘚吧嘚 最近项目用到一个Jar包,不能从远程仓库拉取,只有一个Jar包,所以需…

IDEA Community html文件里的script标签没有syntax highlighting的解决方案

在网上找到的解决方法有的是针对Ultimate版本才可以下载的plugin,对我所用的Community版本无法生效,找了一圈最后在stackoverflow上找到一个有效的方案,给需要的小伙伴分享一下:IntelliJ Community Edition: Javascript syntax hi…

还在用nvm?来试试更快的node版本管理工具——fnm

前言 📫 大家好,我是南木元元,热衷分享有趣实用的文章,希望大家多多支持,一起进步! 🍅 个人主页:南木元元 目录 什么是node版本管理 常见的node版本管理工具 fnm是什么 安装fnm …

优维科技荣获第二届中国赛宝信息技术应用创新优秀解决方案三等奖

近日,“第二届中国赛宝信息技术应用创新优秀解决方案”评选活动圆满结束。优维科技所提交的《Hyperlnsight超融合持续观测解决方案》、《EasyOps一体化运维平台》从全国近300份申报方案中脱颖而出,荣获2023中国赛宝信息技术应用创新优秀解决方案奖。 本…

持续集成交付CICD:HELM 自动化完成前端项目应用发布与回滚

目录 一、实验 1.环境 2. GitLab 共享库新建HELM CI流水线 3.Jenkins新建HELM CI流水线 5.Jenkins构建前端项目 6.GitLab 共享库新建HELM CD流水线 7.Jenkins新建HELM CD流水线 8.HELM完成前端项目应用发布与回滚 9.Jenkins再次构建前端项目 10.HELM再次完成前端项目…

Leetcode—179.最大数【中等】

2023每日刷题&#xff08;六十五&#xff09; Leetcode—179.最大数 算法思想 实现代码 其中sort的lambda自定义排序策略参考自官方文档 class Solution { public:string largestNumber(vector<int>& nums) {string ans;vector<string> strs;for(auto num: …

【离散数学】——期末刷题题库(图论应用题)

&#x1f383;个人专栏&#xff1a; &#x1f42c; 算法设计与分析&#xff1a;算法设计与分析_IT闫的博客-CSDN博客 &#x1f433;Java基础&#xff1a;Java基础_IT闫的博客-CSDN博客 &#x1f40b;c语言&#xff1a;c语言_IT闫的博客-CSDN博客 &#x1f41f;MySQL&#xff1a…

10 Vue3中v-html指令的用法

概述 v-html主要是用来渲染富文本内容&#xff0c;比如评论信息&#xff0c;新闻信息&#xff0c;文章信息等。 v-html是一个特别不安全的指令&#xff0c;因为它会将文本以HTML的显示进行渲染&#xff0c;一旦文本里面包含一些恶意的js代码&#xff0c;可能会导致整个网页发…