人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

人工智能对聊天机器人训练数据的“淘金热”可能会耗尽人类编写的文本

在这里插入图片描述像ChatGPT这样的人工智能系统可能很快就会耗尽让它们变得更聪明的东西——人们在网上写下和分享的数万亿字。

Epoch AI研究集团发布的一项新研究预计,科技公司将在大约十年之交——2026年至2032年之间的某个时候——耗尽人工智能语言模型公开可用的训练数据。

该研究的作者之一塔梅·贝西罗格鲁(Tamay Besiroglu)将其与耗尽有限自然资源的“字面上的淘金热”相提并论,他表示,一旦人工智能领域耗尽了人类生成的文字储备,它可能会面临保持目前发展速度的挑战。

在短期内,像chatgpt制造商OpenAI和谷歌这样的科技公司正在竞相获得高质量的数据源,有时还会花钱购买它们的人工智能大型语言模型——例如,通过签署协议,利用来自Reddit论坛和新闻媒体的稳定的句子流。

从长期来看,不会有足够多的新博客、新闻文章和社交媒体评论来维持目前的人工智能发展轨迹,这将给企业带来压力,迫使它们利用现在被视为私人的敏感数据——比如电子邮件或短信——或者依赖聊天机器人自己提供的不太可靠的“合成数据”。

Besiroglu说:“这是一个严重的瓶颈。“如果你开始触及数据量的限制,那么你就不能再有效地扩展你的模型了。扩大模型规模可能是扩大其能力和提高产出质量的最重要方式。

”两年前,在ChatGPT首次亮相之前不久,研究人员在一份工作论文中首次做出了他们的预测,预测高质量文本数据将于2026年即将停止。自那以后,很多事情都发生了变化,包括新技术使人工智能研究人员能够更好地利用他们已有的数据,有时还会对同一来源进行多次“过度训练”。

但也有限制,经过进一步的研究,Epoch现在预计在未来两到八年的某个时候,公共文本数据将会耗尽。

该团队的最新研究经过同行评审,并将于今年夏天在奥地利维也纳举行的国际机器学习会议上发表。Epoch是一家非营利机构,由总部位于旧金山的Rethink Priorities主办,由有效利他主义的支持者资助。有效利他主义是一个慈善运动,为减轻人工智能最坏的风险投入了大量资金。

Besiroglu说,人工智能研究人员在十多年前就意识到,积极扩展两个关键因素——计算能力和大量互联网数据存储——可以显著提高人工智能系统的性能。

LLM训练数据集正在增长

自2017年以来,用于训练关键机器学习模型的数据集的规模迅速增加。

在这里插入图片描述
根据Epoch的研究,输入人工智能语言模型的文本数据量每年增长约2.5倍,而计算量每年增长约4倍。Facebook的母公司Meta平台最近声称,他们即将推出的最大版本的羊驼3模型(尚未发布)已经接受了多达15万亿个代币的训练,每个代币可以代表一个单词的一部分。

但是数据瓶颈到底有多少值得担心,这是有争议的。

“我认为重要的是要记住,我们不一定需要训练越来越大的模型,”多伦多大学(University of Toronto)计算机工程助理教授、非营利组织矢量人工智能研究所(Vector Institute for Artificial Intelligence)研究员尼古拉斯·佩珀诺特(Nicolas Papernot)说。

Papernot没有参与Epoch的研究,他说,构建更熟练的人工智能系统也可以来自于更专门于特定任务的训练模型。但他担心,在生成式人工智能系统正在产生的相同输出上进行训练,会导致性能下降,被称为“模型崩溃”。

在人工智能生成的数据上进行训练“就像你复印一张纸,然后再复印一份复印件。你丢失了一些信息,”Papernot说。不仅如此,Papernot的研究还发现,它可以进一步编码已经融入信息生态系统的错误、偏见和不公平。

如果真正的人工句子仍然是一个关键的人工智能数据源,那么那些最受欢迎的数据库——像Reddit和维基百科这样的网站,以及新闻和图书出版商——的管理者们就不得不认真思考它们是如何被使用的。

运营维基百科的维基媒体基金会(Wikimedia Foundation)首席产品和技术官赛琳娜•德克尔曼(Selena Deckelmann)开玩笑说:“也许你不会砍掉每座山的山顶。”“现在,我们正在就人类创造的数据进行自然资源对话,这是一个有趣的问题。我不应该嘲笑它,但我确实觉得它有点神奇。”

虽然有些人试图将他们的数据与人工智能训练隔离开来——通常是在这些数据已经被无偿获取之后——但维基百科对人工智能公司如何使用其志愿者撰写的条目几乎没有限制。尽管如此,Deckelmann表示,她希望继续有激励人们继续贡献,特别是在大量廉价和自动生成的“垃圾内容”开始污染互联网的情况下。

她说,人工智能公司应该“关注人类生成的内容如何继续存在,以及如何继续被访问”。

Epoch的研究表明,从人工智能开发者的角度来看,雇佣数百万人来生成人工智能模型所需的文本,“不太可能是”提高技术性能的“经济方式”。

随着OpenAI开始训练下一代GPT大型语言模型,该公司首席执行官萨姆·奥特曼(Sam Altman)上个月在联合国的一次活动上告诉听众,该公司已经在进行“生成大量合成数据”的试验。

“我认为你需要的是高质量的数据。有低质量的合成数据。有低质量的人类数据,”奥特曼说。但他也对过度依赖合成数据而不是其他技术方法来改进人工智能模型持保留态度。

奥特曼说:“如果训练一个模型的最好方法是生成一千万亿的合成数据,然后把它们反馈进去,那就太奇怪了。”“从某种程度上说,这似乎效率低下。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/26274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】ls命令

这个命令主要是用于显示指定工作目录下之内容(列出目前工作目录所含的文件及子目录)。 掌握几个重点的常使用的就可以: ls -l # 以长格式显示当前目录中的文件和目录 ls -a # 显示当前目录中的所有文件和目录&am…

Go使用https

一、服务端 1. 生成私钥和证书 安装OpenSSL windows安装OpenSSL生成CA证书创建证书 以上两个步骤,参考:Go http2 和 h2c 2. 代码 package mainimport ("log""net/http""time""golang.org/x/net/http2" )co…

TCP四次挥手全过程详解

TCP四次挥手全过程 有几点需要澄清: 1.首先,tcp四次挥手只有主动和被动方之分,没有客户端和服务端的概念 2.其次,发送报文段是tcp协议栈的行为,用户态调用close会陷入到内核态 3.再者,图中的情况前提是双…

【递归、搜索与回溯】穷举vs暴搜vs深搜vs回溯vs剪枝

穷举vs暴搜vs深搜vs回溯vs剪枝 1.全排列2.子集 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励,我们一起努力吧!😃😃 管他什么深搜、回溯还是剪枝,画出决…

使用API有效率地管理Dynadot域名,创建文件夹管理域名

关于Dynadot Dynadot是通过ICANN认证的域名注册商,自2002年成立以来,服务于全球108个国家和地区的客户,为数以万计的客户提供简洁,优惠,安全的域名注册以及管理服务。 Dynadot平台操作教程索引(包括域名邮…

李廉洋:6.11黄金原油持续震荡上行,今日行情走势分析策略。

黄金消息面分析:上周黄金市场的走势受到了PCE通胀数据和美联储政策预期的显着影响。尽管市场对黄金的长期看涨情绪依然存在,但短期内金价的波动性预计将持续。4月份的PCE通胀数据显示价格压力有所降温,这一结果与分析师预期一致,但…

分享一些班组长日常管理工作的经验

在企业管理中,班组长作为基层的管理者和执行者,扮演着至关重要的角色。他们不仅要确保生产任务的顺利完成,还要负责团队建设、员工激励和沟通协调等工作。本文,深圳天行健精益管理咨询公司旨在分享一些班组长日常管理工作的经验&a…

【c语言】文件操作,解开你的疑惑

文件操作 为什么使用文件什么是文件文件的分类文件名 二进制文件和文本文件文件的打开与关闭流与标准流流标准流 文件指针文件的打开与关闭 文件的顺序读写文件的随机读写文件读取结束的判定文件缓冲区 为什么使用文件 我们程序运行的数据是运行在内存中的,当成程序…

品牌渠道健康发展的关键与方法

一个品牌的渠道健康与否对其长期发展至关重要。品牌虽多,但并非所有产品都能成为品牌,创建品牌需大量精力,而让品牌长久健康发展则需多方面努力。 力维网络服务众多知名品牌,总结出一些渠道治理方法供品牌参考。首先,管…

分享5款让大家电脑更好用的软件

​ 电脑是我们日常生活和工作中不可缺少的工具,今天给大家推荐了五款让电脑更好用的软件。 1.系统清理——CCleaner ​ CCleaner是一款系统优化和隐私保护工具,可以清理无用文件、浏览器缓存、回收站内容等,释放磁盘空间,提升系…

【linux网络(二)】网络基础之套接字编程

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:Linux从入门到精通⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学更多操作系统知识   🔝🔝 Linux网络 1. 前言2. 端口号详…

任何成为一名优秀的AI产品经理,看完这篇就懂了

(背景:之前做AI咨询,对接公司内部AI产品经理经理,外部也对接过很多甲方AI产品经理。后来出来也拿过好几家公司AI产品经理的offer) 1.AI产品经理是什么 回答这个问题前我们首先得理清楚什么是AI产品经理,它和传统的互…

半导体光电子学最后总结(3)光子晶体

Matrix theory 波传输矩阵 (Wave-Transfer Matrix) 散射矩阵 (Scattering Matrix) 光在均匀介质中的传播公式矩阵化 Relation between Scattering Matrix and Wave-Transfer Matrix 级联系统的投射/反射系数:艾里公式 (Airy Formulas) 无损对称系统 斜入射波的传输…

❤vue2项目webpack打包的优化策略

❤ vue2项目webpack打包的优化策略 (优化前) 现在我们的打包时间为: >打包体积大小为: 1、去除开发环境和生产环境提示以及日志 开发环境和生产环境的打印处理 生产环境去除console.log打印的两种方式 通过环境变量控制co…

终成大流:CDM+AI彻底重塑数据备份市场

进入2024年,CDM市场又迎来高光时刻。 先有Cohesity上演“蛇吞象”并购Veritas数据备份与数据管理业务,并在新一轮融资中获得IBM、NVIDIA两大巨头的战略投资;后有Rubrik获得资本市场认可,以64亿美元市值成功登陆纽交所。两大CDM明…

免费!快速!干货!手把手教你如何在个人电脑上搭建你自己的大模型服务!

大模型发展如火如荼,虽然大模型的能力强大,但是大模型也是非常昂贵的!不管是训练还是推理,都需要耗费大量的机器,而且机器的硬件资源,比如GPU、TPU等都有一定的要求。 因此,业界的同行们&#x…

Lua搭建网站后台教程

本文讲解如何使用二进制发布包和FastWeb网站管理工具搭建站点 FastWeb网站管理工具 使用该工具可快速在Windows平台部署。支持官方或三方模块的自动安装、日志调试、版本更新等。 1、下载最新版本压缩包 2、解压到任意目录(建议英文) 3、运行 ①点击 [设置]->[安装] 部…

macOS 15 beta (24A5264n) Boot ISO 原版可引导镜像下载

macOS 15 beta (24A5264n) Boot ISO 原版可引导镜像下载 iPhone 镜像、Safari 浏览器重大更新、备受瞩目的游戏和 Apple Intelligence 等众多全新功能令 Mac 使用体验再升级 请访问原文链接:https://sysin.org/blog/macOS-Sequoia-boot-iso/,查看最新版…

[手游] 三色绘恋S Mobile Link

语音合成TTS: 文字转成语音的工具 WPS免登录一键修改器: 去除烦人的登录且能正常使用 故事简介: 深秋的雨季即将到来,正值那个为人所熟知的故事发生的前一年—— 地点:湖北省的重点高中,武汉师贰高校。 新学年开始,各…

LeetCode | 2879.显示前三行

在 pandas 中,可以使用 head() 方法来读取 DataFrame 的前几行数据。如果想读取指定数量的行,可以在 head() 方法中传入一个参数 n,读取前 n 行 import pandas as pddef selectFirstRows(employees: pd.DataFrame) -> pd.DataFrame:retur…