ChatGPT等模型：到2026年，将消耗尽高质量训练数据

ChatGPT等模型：到2026年，将消耗尽高质量训练数据

news/2025/4/27 5:38:40/文章来源:https://blog.csdn.net/weixin_57291105/article/details/134644978

《麻省理工技术评论》曾在官网发表文章表示，随着ChatGPT等大模型的持续火热，对训练数据的需求越来越大。大模型就像是一个“网络黑洞”不断地吸收，最终会导致没有足够的数据进行训练。

而知名AI研究机构Epochai直接针对数据训练问题发表了一篇论文，并指出，到2026年，大模型将消耗尽高质量数据；到2030年—2050年，将消耗尽所有低质量数据；

到2030年—2060年，将消耗尽所有图像训练数据。（这里的数据指的是，没有被任何标记、污染过的原生数据）

论文地址：https://arxiv.org/pdf/2211.04325.pdf

事实上，训练数据的问题已经显现。OpenAI表示，缺乏高质量训练数据将成为开发GPT-5的重要难题之一。这就像人类上学一样，当你的知识水平达到博士级别时，再给你看初中的知识对学习毫无帮助。

所以，OpenAI为了增强GPT-5的学习、推理和AGI通用能力，已建立了一个“数据联盟”，希望大面积搜集私密、超长文本、视频、音频等数据，让模型深度模拟、学习人类的思维和工作方式。

目前，冰岛、Free Law Project等组织已加入该联盟，为OpenAI提供各种数据，帮助其加速模型研发。

此外，随着ChatGPT、Midjourney、Gen-2等模型生成的AI内容进入公共网络，这对人类构建的公共数据池将产生严重污染，会出现同质化、逻辑单一等特征，加速高质量数据消耗的进程。

高质量训练数据，对大模型研发至关重要

从技术原理来看，可以把大语言模型看成“语言预测机器”，通过学习大量文本数据,建立起单词之间的关联模式,然后利用这些模式来预测文本的下一个单词或句子。

Transformer便是最著名、应用最广泛的架构之一，ChatGPT等借鉴了该技术。

简单来说，大语言模型就是“照葫芦画瓢”，人类怎么说它就怎么说。所以，当你使用ChatGPT等模型生成文本时，会感觉这些文本内容的叙述模式在哪里见过。

因此,训练数据的质量直接决定了大模型学习的结构是否准确。如果数据中包含了大量语法错误、措辞不当、断句不准、虚假内容等,那么模型预测出来的内容自然也包含这些问题。

例如，训练了一个翻译模型，但使用的数据都是胡编乱造的低劣内容，AI翻译出来的内容自然会非常差。

这也是为什么我们经常会看到很多参数很小，性能、输出能力却比高参数还强的模型，主要原因之一便是使用了高质量训练数据。

大模型时代，数据为王

正因数据的重要性，高质量的训练数据成为OpenAI、百度、Anthropic、Cohere等厂商必争的宝贵资源，成为大模型时代的“石油”。

早在今年3月，国内还在疯狂炼丹研究大模型时，百度已经率先发布了对标ChatGPT的生成式AI产品——文心一言生。

除了超强的研发能力之外，百度通过搜索引擎积累的20多年庞大的中文语料数据帮了大忙，并在文心一言的多个迭代版本中发挥重要作用，遥遥领先国内其他厂商。

高质量数据通常包括出版书籍、文学作品、学术论文、学校课本、权威媒体的新闻报道、维基百科、百度百科等，经过时间、人类验证过的文本、视频、音频等数据。

但研究机构发现，这类高质量数据的增长非常缓慢。以出版社书籍为例，需要经过市场调研、初稿、编辑、再审等繁琐流程，耗费几个月甚至几年时间才能出版一本书，这种数据产出速度，远远落后大模型训练数据需求的增长。

从大语言模型过去4年的发展趋势来看,其年训练数据量的增速超过了50%。也就是说,每过1年就需要双倍的数据量来训练模型,才能实现性能、功能的提升。

所以，你会看到很多国家、企业严格保护数据隐私以及制定了相关条例，一方面，是保护用户的隐私不被第三方机构搜集，出现盗取、乱用的情况；

另一方面，便是为了防止重要数据被少数机构垄断和囤积，在技术研发时无数据可用。

到2026年，高质量训练数据可能会用光

为了研究训练数据消耗问题，Epochai的研究人员模拟了从2022年—2100年,全球每年产生的语言和图像数据,然后计算这些数据的总量。

又模拟了ChatGPT等大模型对数据的消耗速率。最后,比较了数据增长速度和被消耗的速度,得出了以下重要结论:

在当前大模型的高速发展趋势下, 到2030年—2050年将消耗尽所有低质量数据；高质量数据,极有可能在2026年就会消耗完。

到2030年—2060年，将消耗尽所有图像训练数据；到2040年，由于缺乏训练数据，大模型的功能迭代可能会出现放缓的迹象。

研究人员使用了两个模型进行了计算：第一个模型，通过大语言和图像模型两个领域实际使用的数据集增长趋势,再利用历史统计数据进行外推,预测它们何时会达到消耗峰值和平均消耗。

第二个模型：预测未来每年全球范围内将产生多少新数据。该模型基于三个变量，全球人口数量、互联网普及率和平均每个网民每年产生的数据。

同时研究人员使用联合国数据拟合出人口增长曲线,用一个S型函数拟合互联网使用率,并做出每人每年产数据基本不变的简单假设，三者相乘即可估算全球每年的新数据量。

该模型已经准确预测出Reddit（知名论坛）每个月产出的数据，所以，准确率很高。

最后，研究人员将两个模型进行相结合得出了以上结论。

研究人员表示，虽然这个数据是模拟、估算出来的，存在一定的不确定性。但为大模型界敲响了警钟，训练数据可能很快成为制约AI模型扩展和应用的重要瓶颈。

AI厂商们需要提前布局数据再生、合成的有效方法,避免在发展大模型的过程中出现断崖式数据短缺。‍

本文素材来源麻省理工科技评论官网、Epochai论文，如有侵权请联系删除

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/174921.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python Subprocess教程：创建和管理子进程的完整指南

Python Subprocess教程：创建和管理子进程的完整指南

更多Python学习内容：ipengtao.com 在Python中，Subprocess模块为我们提供了强大的工具，使得创建和管理子进程变得十分便捷。本文将深入探讨Subprocess的各种功能和用法，通过丰富的示例代码，带你领略其强大的子进程管理能…

阅读更多...

s_v_web_id或fp协议过签名，dy滑块

s_v_web_id或fp协议过签名，dy滑块

某音s_web_id或fp协议过签名 ‘h5_sdk_version’, ‘2.36.0’ "search_impr":{"entity_id":"1135137973613200"},"link_item_list":null,"user_permissions":null,"offline_info_list":null,"is_cf":…

阅读更多...

迁移redis数据库中的数据到另一台服务器

迁移redis数据库中的数据到另一台服务器

方案一下面我使用的redis是用docker安装的，不是通过下载安装包安装的，所以和我安装方式不一样的小伙伴可以不看，因为很多操作是基于docker的话不多说，直接开搞！ 1.首先一定要确保两台服务器上面的redis版本要一致…

阅读更多...

C++:OJ练习(每日练习系列)

C++:OJ练习(每日练习系列)

编程题： 题一：把字符串转换成整数把字符串转换成整数_牛客题霸_牛客网示例1 输入： "2147483647" 返回值： 2147483647思路一： 第一步：it从str的第一个字符开始遍历，定义一个最后输…

阅读更多...

搭建自己的wiki知识库【转】

搭建自己的wiki知识库【转】

有前端基础，会Markdown、会HTML和CSS，选择 Hexo 有Vue基础可以选择 vuePress 或者 vitePress 会Go可以选择 Hugo 会Rust可以选择 Zola 会Ruby可以选择 Jekyll 会PHP可以考虑使用 WordPress 其他开源项目：docsify、GitBook 详见：如…

阅读更多...

使用 SIEM 管理安全事件

使用 SIEM 管理安全事件

每家公司都必须处理检测、管理和解决安全事件，未能制定事件响应计划可能会对任何组织产生重大的影响，无论是在财务损失还是声誉损害方面。本文探讨了事件响应的重要性、检测和管理事件的关键要素，以及帮助组织处理安全事件的最佳实践。安全…

阅读更多...

arm-eabi-gcc 和 arm-none-eabi-gcc 都是基于 GCC 的交叉编译器

arm-eabi-gcc 和 arm-none-eabi-gcc 都是基于 GCC 的交叉编译器

arm-eabi-gcc 和 arm-none-eabi-gcc 都是基于 GCC 的交叉编译器，用于编译 ARM 架构的嵌入式系统。它们的命名规则如下： arm 表示目标架构是 ARM。eabi 表示嵌入式应用程序二进制接口（Embedded Application Binary Interface）&…

阅读更多...

使用conan包 - 使用配置文件

使用conan包 - 使用配置文件

使用conan包 - 使用配置文件主目录 conan Using packagesUsing profiles 本文是基于对conan官方文档Using profiles的翻译而来， 更详细的信息可以去查阅conan官方文档。 This section shows how to setup your project and manage dependencies (i.e., install ex…

阅读更多...

感染了后缀为.404mckay-V-XXXXXXXX勒索病毒如何应对？数据能够恢复吗？

感染了后缀为.404mckay-V-XXXXXXXX勒索病毒如何应对？数据能够恢复吗？

导言： 近年来，网络安全威胁日益严峻，其中之一便是V系列的勒索病毒之.404mckay-V-XXXXXXXX勒索病毒和.ad3for-V-XXXXXXXX勒索病毒。本文将深入介绍这一威胁的特点、感染方式，并提供详尽的数据恢复方法和有效的预防措施&#xff0c…

阅读更多...

背包9讲系列1-01背包问题

背包9讲系列1-01背包问题

一、前言最近打算出一个背包问题的专栏，详细介绍一下常见的几种不同类型的背包问题及其解题思路和方法，欢迎各位留言探讨。二、什么是背包问题？ 背包问题是动态规划中的一个分支，其目标是在给定的一组物品中选择一些物品放入…

阅读更多...

flink消费kafka限制消费速率

flink消费kafka限制消费速率

flink版本1.14 别的版本类似需要速率限制的情况 1.任务异常在停止的时间内大量数据挤压 2.新任务上线需要铺底数据，消费几天前的数据在不增加内存和并行度的情况下，如果任务启动可能会造成oom，这时需要进行速率限制。前提漏桶算法（Leaky Bucket Algorithm）：原…

阅读更多...

基于IDEA+SpringBoot+Mysql开发的在线考试系统

基于IDEA+SpringBoot+Mysql开发的在线考试系统

基于springboot的在线考试系统项目介绍💁🏻 项目背景： 随着互联网的普及和技术的发展，传统的考试方式已经无法满足人们的需求。为了提高考试的效率和准确性，我们决定开发一个在线考试系统。该系统将提供登录、试卷列表…

阅读更多...

UniApp 中的 u-input 属性讲解

UniApp 中的 u-input 属性讲解

在 UniApp 中，u-input 是一个常用的组件，用于接收用户的输入。它具有多种属性，用于控制输入框的样式和行为。下面我将为您讲解一些常用的 u-input 属性。基本属性 value：表示输入框的初始值，可以使用 v-model 进行双…

阅读更多...

CMake add_subdirectory

CMake add_subdirectory

文章目录简介基本语法举例目录结构根目录CMakeLists子目录CMakeLists 简介 add_subdirectory 是 CMake 命令之一，用于在当前 CMakeLists.txt 文件中引入另一个子目录的 CMake 构建。这样，你可以在一个项目中组织多个子项目或子模块的构建。基本语法…

阅读更多...

lua完整学习笔记

lua完整学习笔记

lua注释 －－ 单行注释 －－[[ 多行注释 ]]-- lua数据结构 nil 无效值与Java的Null类似，但是在条件表示中是false boolean 布尔值，ture或者false number 双精度类型的浮点数 string 字…

阅读更多...

【Android知识笔记】性能优化专题（四）

【Android知识笔记】性能优化专题（四）

App 线程优化线程调度原理任意时刻，只有一个线程占用CPU，处于运行状态多线程并发：轮流获取CPU使用权JVM负责线程调度：按照特定机制分配CPU使用权线程调度模型分时调度模型：轮流获取、均分CPU时间抢占式调度模型：优先级高的获取，JVM采用Android线程调度 nice值：Proc…

阅读更多...

.NET6实现破解Modbus poll点表配置文件

.NET6实现破解Modbus poll点表配置文件

📢欢迎点赞：👍 收藏 ⭐留言 📝 如有错误敬请指正，赐人玫瑰，手留余香！📢本文作者：由webmote 原创📢作者格言：新的征程，我们面对的不仅仅是技术还有人心，人心不可测，海水不可量，唯有技术，才是深沉黑夜中的一座闪烁的灯塔！序言 Modbus 协议是工控领域常见…

阅读更多...

11. Mysql 子查询

11. Mysql 子查询

Mysql 函数参考和扩展：Mysql 常用函数和基础查询、 Mysql 官网 Mysql 语法执行顺序如下，一定要清楚！！！运算符相关，可前往 Mysql 基础语法和执行顺序扩展。 (8) select (9) distinct (11)<columns_name…

阅读更多...

beanFactory和Factorybean有啥区别

beanFactory和Factorybean有啥区别

BeanFactory和FactoryBean是Spring框架中的两个重要概念，它们有一些区别和不同的用途。 BeanFactory： BeanFactory是Spring框架的核心接口，它是一个工厂模式的实现。它负责创建、管理和获取应用程序中的各种对象（也称为bean&#…

阅读更多...

C语言线性表的实现（详解）

C语言线性表的实现（详解）

数据结构之线性表线性表的基本概念：线性表是由0个或者多个数据元素的有限序列特性是： 1：数据元素之间都是有顺序的 2：数据元素的个数是有限的， 3：数据元素的类型是相同的性质是&…

阅读更多...

最新文章