AI界的信仰危机:单靠“规模化”智能增长的假设,正在面临挑战

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

过去四年间,AI领域几乎将“智能来自规模”奉为金科玉律:神经网络越大、数据量越多、计算能力越强,模型就会变得更智能。这一理念催生了ChatGPT等产品,也成为当前AI革命的核心驱动力。然而,随着ChatGPT迎来两周年,这一信仰却与现实碰撞出新的火花:仅凭蛮力式的规模化扩展,似乎不再能持续带动AI能力的提升。

信仰动摇的关键时刻

眼下,全球科技巨头正押下前所未有的赌注。OpenAI正在寻求万亿美元的资金,以推动全球芯片生产;谷歌、Meta、微软和亚马逊也在大幅增加AI计算能力和基础设施的投资。这些举措——预计在2027年前总投资将超1万亿美元——都基于一个共同假设:对变压器模型的规模化扩展能够持续带来稳定的性能增长。

这种“规模化福音”的理论基础,可以追溯到2019年加拿大计算机科学家理查德·萨顿的经典论文《苦涩的教训》。他总结,AI 70年的历史表明,依赖计算力的技术往往优于试图模仿人类知识的方式。换句话说,重现智能并不需要彻底理解它,只需要更大的计算机即可。

一年后,OpenAI的研究证明了萨顿的假设:变压器模型的能力会随着模型规模、数据量和训练计算量的同步扩展而稳定提升,呈现出平滑的幂律曲线。这一发现被GPT-3及其后续模型如GPT-4、Claude 3.5和Gemini等验证,让“智能”从晦涩难懂的概念,变成了一场资源投入的工程问题。

OpenAI的CEO山姆·阿尔特曼更是坚定地宣传这一观点,他在近期发表的文章《智能时代》中简明总结了多年的进展:“深度学习起效了,规模化带来了可预测的提升,我们因此加大了资源投入。”他甚至预言,超级智能AI将在未来“几千天内”降临。基于这一信念,OpenAI已成功融资220亿美元。

第一道裂缝

然而,现实情况正变得复杂。

以OpenAI的新一代模型Orion为例:训练初期,Orion的性能与GPT-4相当,符合规模化定律的预期。但随着训练的深入,性能提升却不如预期,尤其在编程能力方面,几乎没有显著进步——即便消耗了远超前代的资源。

类似的情况也出现在其他公司身上。谷歌最新的Gemini模型未达内部预期,Anthropic的下一代Claude模型开发也一再延期。尽管现有基准测试可能信号不足,但曾经的指数式增长如今更像一条“S曲线”,数据、计算和模型规模的每一次增加带来的增益变得愈发有限。

OpenAI前首席科学家苏茨克维尔的最新表态或许最耐人寻味。他对路透社表示:“2010年代是规模化的时代,而现在,我们又回到了奇思妙想与探索的时代。每个人都在寻找下一个突破。”这番话,来自曾经最坚定的规模化倡导者,无疑是对行业发展路径的深刻反思。

三面“高墙”

规模化面临的挑战,大致可以分为数据、计算和架构三大类。这些问题共同构成了规模化模式下无法突破的障碍。

数据瓶颈

根据2022年的Chinchilla论文,数据和计算需要成比例增长,才能达到模型性能的最佳平衡。然而,目前可用的高质量人类创作内容已几近耗尽,剩余的大多是低质量、重复性或不适合训练的数据。

为了达到某些目标,例如让AI能自主撰写学术论文,可能需要训练模型消耗的浮点运算量(FLOPs)比现有水平高出100,000倍,而这需要远超当前可用高质量数据的规模。尽管有研究尝试利用“合成数据”(即AI生成的数据)来弥补,但这容易陷入“镜厅效应”:新模型继承甚至放大前代模型的偏见和缺陷。

计算与能源壁垒

规模化对计算力和能源的需求正变得难以承受。当前训练一个顶尖模型的能耗,已经接近小型城市的规模。而未来一代的AI模型,可能需要与国家级电力消耗相当的资源。

此外,计算需求的指数增长也带来了物理层面的限制,例如计算产生的热量和能源需求本身,正逐渐成为“无法逾越的墙”。

架构局限

当前的AI模型在处理“长尾问题”时表现尤为不足。这些问题中的特殊情况多到无法通过训练数据完全覆盖。变压器架构虽然在模式识别上表现卓越,但本质上是基于“下一个词预测”,无法真正理解或推理出更广泛的现实情境。

超越规模:新方向的探索

工程问题的解决在于优化现有技术,而科学问题则需要全新的突破。目前,AI领域的研究正试图跳出变压器架构的限制,例如开发更高效的推理机制或全新架构。

  • 测试时计算:OpenAI的o1模型通过在推理阶段进行复杂推算,实现了极大效率提升。这种方法被认为比现有模型扩展规模的效率高出“100,000倍”。
  • 新架构探索:包括状态空间模型(SSM)和RWKV在内的新架构正得到关注。前者擅长处理长期依赖和连续性数据,后者则显著降低了计算成本。
  • “世界模型”:一些专家主张,未来的AI需要摆脱文本模型的局限,转向具备因果推理和物理交互能力的“世界模型”。

多元化的未来

正如AI研究者François Chollet所言,过于专注于LLM的规模化,可能实际上让AI迈向通用智能的步伐倒退了5到10年。当前AI领域的单一化研究方向,迫切需要更多元的探索。

ChatGPT的出现让人类重新思考AI的潜力,而下一个转折点,或许将不再依赖于计算能力的简单叠加,而是基于对“智能”本质更深层次的理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/62241.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity类银河战士恶魔城学习总结(P149 Screen Fade淡入淡出菜单)

【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili 教程源地址:https://www.udemy.com/course/2d-rpg-alexdev/ 本章节实现了进入游戏和死亡之后的淡入淡出动画效果 UI_FadeScreen.cs 1. Animator 组件的引用 (anim) 该脚本通过 Animator 控制 UI 元…

【C语言篇】探索 C 语言结构体:从基础语法到数据组织的初体验

我的个人主页 我的专栏:C语言,希望能帮助到大家!!!点赞❤ 收藏❤ 目录 什么是结构体结构体的定义与使用结构体内存布局嵌套结构体与指针结构体数组的操作结构体与函数结构体内存对齐机制位域与结构体的结合动态内存分…

COMSOL工作站:配置指南与性能优化

COMSOL Multiphysics 求解的问题类型相当广泛,提供了仿真单一物理场以及灵活耦合多个物理场的功能,供工程师和科研人员来精确分析各个工程领域的设备、工艺和流程。 软件内置的#模型开发器#包含完整的建模工作流程,可实现从几何建模、材料参数…

大语言模型LLM的微调代码详解

代码的摘要说明 一、整体功能概述 这段 Python 代码主要实现了基于 Hugging Face Transformers 库对预训练语言模型(具体为 TAIDE-LX-7B-Chat 模型)进行微调(Fine-tuning)的功能,使其能更好地应用于生成唐诗相关内容的…

qt5.14.2跟vs2022配置

1.qt6要在线安装,安装时间比较长,要求网络要稳定,不适合快速安装 2.使用qt5.14.2离线安装包,安装速度快,可以快速安装。 3.安装完qt.5.14.2后打开QtCreate4.0.1,打开 工具->选项->Kits,发现如下图: 没…

【拥抱AI】RAG(Retrieval-Augmented Generation)知识库的切片策略及其改进

1. RAG简介 RAG是一种结合了信息检索和文本生成的技术,它通过从一个外部的知识库中检索相关信息来增强生成模型的能力。这种方法可以提高生成内容的相关性和准确性,特别是在处理长文档时,有效的文本切片策略对于提升检索效率和质量至关重要。…

webrtc ios h264 硬编解码

webrtc ios h264 硬编解码 一 ios 系统支持 从ios8开始,苹果公司开放了硬解码和硬编码API(即 VideoToolbox.framework API) 二 主要api 1 主要解码函数 VTDecompressionSessionCreate // 创建解码 session VTDecompressionSession…

深入解析 MySQL 启动方式:`systemctl` 与 `mysqld` 的对比与应用

目录 前言1. 使用 systemctl 启动 MySQL1.1 什么是 systemctl1.2 systemctl 启动 MySQL 的方法1.3 应用场景1.4 优缺点优点缺点 2. 使用 mysqld 命令直接启动 MySQL2.1 什么是 mysqld2.2 mysqld 启动 MySQL 的方法2.3 应用场景2.4 优缺点优点缺点 3. 对比分析结语 前言 MySQL …

Ubuntu20.04运行LARVIO

文章目录 1.运行 Toyish 示例程序2.运行 ROS Nodelet参考 1.运行 Toyish 示例程序 LARVIO 提供了一个简化的toyish示例程序,适合快速验证和测试。 编译项目 进入 build 文件夹并通过 CMake 编译项目: mkdir build cd build cmake -D CMAKE_BUILD_TYPER…

[2024年3月10日]第15届蓝桥杯青少组stema选拔赛C++中高级(第二子卷、编程题(2))

方法一&#xff08;string&#xff09;&#xff1a; #include <iostream> #include <string> using namespace std;// 检查是否为回文数 bool isPalindrome(int n) {string str to_string(n);int left 0, right str.size() - 1;while (left < right) {if (s…

HTML 中 a 标签跳转问题总结:从框架页面跳转的困境与突破

在 HTML 网页开发过程中&#xff0c;a 标签作为超链接的常用标记&#xff0c;其跳转功能看似简单&#xff0c;实则在一些特定场景下会遇到诸多复杂问题。本文将围绕一个具体的案例展开&#xff0c;深入探讨在框架页面中使用 a 标签跳转时所面临的挑战以及相应的解决方案&#x…

【Db First】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列 &#x1f…

课题组自主发展了哪些CMAQ模式预报相关的改进技术?

空气污染问题日益受到各级政府以及社会公众的高度重视&#xff0c;从实时的数据监测公布到空气质量数值预报及预报产品的发布&#xff0c;我国在空气质量监测和预报方面取得了一定进展。随着计算机技术的高速发展、空气污染监测手段的提高和人们对大气物理化学过程认识的深入&a…

扫雷-完整源码(C语言实现)

云边有个稻草人-CSDN博客 在学完C语言函数之后&#xff0c;我们就有能力去实现简易版扫雷游戏了&#xff08;成就感满满&#xff09;&#xff0c;下面是扫雷游戏的源码&#xff0c;快试一试效果如何吧&#xff01; 在test.c里面进行扫雷游戏的测试&#xff0c;game.h和game.c…

uniapp在App端定义全局弹窗,当打开关闭弹窗会触发onShow、onHide生命周期怎么解决?

在uniapp(App端)中实现自定义弹框&#xff0c;可以通过创建一个透明页面来实现。点击进入当前页面时&#xff0c;页面背景会变透明&#xff0c;用户可以根据自己的需求进行自定义&#xff0c;最终效果类似于弹框。 遇到问题&#xff1a;当打开弹窗(进入弹窗页面)就会触发当前页…

【C++】C++新增特性解析:Lambda表达式、包装器与绑定的应用

V可变参数模板与emplace系列 C语法相关知识点可以通过点击以下链接进行学习一起加油&#xff01;命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C内存管理模板初阶String使用String模拟实现Vector使用及其模拟实现List使用及其模拟实现…

HTB:Chatterbox[WriteUP]

目录 Connect to the HackTheBox server and spawn target machine Infomation Collection Use Rustscan to perform oepn scanning on the TCP port of the target Use Nmap to perform script and service scanning on the TCP port of the target Use Curl accessing p…

远程视频验证如何改变商业安全

如今&#xff0c;商业企业面临着无数的安全挑战。尽管企业的形态和规模各不相同——从餐厅、店面和办公楼到工业地产和购物中心——但诸如入室盗窃、盗窃、破坏和人身攻击等威胁让安全主管时刻保持警惕。 虽然传统的监控摄像头网络帮助组织扩大了其态势感知能力&#xff0c;但…

【C++】static修饰的“静态成员函数“--静态成员在哪定义?静态成员函数的作用?

声明为static的类成员称为类的静态成员&#xff0c;用static修饰的成员变量&#xff0c;称之为静态成员变量&#xff1b;用 static修饰的成员函数&#xff0c;称之为静态成员函数。静态成员变量一定要在类外进行初始化 一、静态成员变量 1)特性 所有静态成员为所有类对象所共…

Springboot捕获全局异常:MethodArgumentNotValidException

1.控制器 方法上添加Valid注解 PostMapping("/update")RequiresPermissions("user:update")public R update(RequestBody Valid UserEntity user) {userService.update(user);return R.ok();}2.实体类 public class UserEntity implements Serializable …