GPT-4 即将亮相?聊聊目前已知的一切

55b41253dfbe0e963e68d53669195936.png

来源:AI 前线

作者:Alberto Romero

GPT-3 首度亮相于大约两年之前的 2020 年 5 月,当时正值 GPT-2 发布的一年之后。而 GPT-2 距离最初 GPT 研究论文的发表也是相隔一年。如果这种周期性趋势继续保持不变,那 GPT-4 肯定也快跟大家见面了。但 OpenAI 公司 CEO Sam Altman 几个月前已经打过预防针,表示 GPT-4 预计会在 2022 年年内推出,具体可能是在 7 月到 8 月左右。

虽然备受瞩目,但 GPT-4 目前的公开消息确实相当有限:它会是什么样子、带来怎样的特性或能力,一概不知。Altman 去年曾在一场问答中谈到过 OpenAI 对于 GPT-4 项目的规划,但同时也提醒与会者尽量保持冷静、不要过度乐观。如今七个月已经过去,咱们可以回头看看他的发言了。Altman 首先确认,GPT-4 的参数量不会达到 100 万亿,毕竟规模真到那个程度、今年年内也就不用指望了。

OpenAI 很有一段时间没聊过 GPT-4 的事了,但结合 AI 领域、特别是 NLP 领域获得高度关注的热门趋势,我们倒是可以推断一下 GPT-4 的开发思路。考虑到这些方法大获成功、OpenAI 又都有参与其中,咱们可以从 Altman 的发言中整理出点线索。先说结论:我觉得 GPT-4 不会继续走模型越来越大的老路。

下面来看关于 GPT-4 的具体预测。

模型大小:GPT-4 不会走越来越大的老路

GPT-4 不会在规模上刷新语言模型的新纪录。Altman 提到 GPT-4 不会比 GPT-3 大多少。虽然跟前几代神经网络相比,GPT-4 肯定也不算小,但其发展思路应该有所改变。我猜 GPT-4 可能介于 GPT-3 和 Gopher(1750 亿到 2800 亿参数)之间。

这可不是乱说的,我有恰当的理由。

英伟达和微软去年建立的 Megatron-Turing NLG 以 5300 亿参数获得了最大密集神经网络的称号,体量已经达到 GPT-3 的 3 倍。直到最近,谷歌的 PaLM 才以 5400 亿参数将其挤下宝座。但值得注意的是,MT-NLG 之后相继出现了一些体量较小、但性能水平更高的新模型。

时代变了,更大不再等于更好。

这些更小却更好的模型,给我们带来了两个启示。

首先,企业们意识到用做大模型的方式提高代理性能既不是唯一的方法、也不再是最好的方法。2020 年,OpenAI 的 Jared Kaplan 和同事们就已经得出结论,当算力规模的增加主要用于根据幂律关系扩展参数数量时,性能提升效果最佳。谷歌、英伟达、微软、OpenAI、DeepMind 等语言模型开发公司明显走的都是这个路子。

然而,MT-NLG 的出现证明参数更多并不一定代表性能更好。事实上,它在任何单一基准测试类别中都拿不到最高分。反而是 Gopher(2800 亿参数)或 Chinchilla(700 亿参数)等相对较小的模型,在实际表现上远超 MT-NLG。

这就带来了第二点启发。

企业开始对“越大越好”的僵化教条说不。事实证明,参数量的增加只是提高性能的多种因素之一。而由此带来的负面影响(例如碳排放增加、计算成本膨胀、准入门槛过高)已经让这种看似简单的方法不再简单。于是乎,各家企业只会在没法通过较小模型获得相似或更佳表现时,才考虑构建巨大模型。

Altman 表示,他们也决定由此转型、探索怎样让更小的模型发挥更佳效能。OpenAI 的研究人员们曾经是“规模扩张”派的早期支持者,但现在他们可能也意识到还有其他模型改进路线值得探索。

正因为如此,GPT-4 才不会比 GPT-3 大很多。OpenAI 将把关注重点转向其他方面——例如数据、算法、参数化或者对齐,这些反而更有希望带来显著改进。所以传说中的 100 万亿参数模型恐怕暂时没戏喽。

优化:发掘 GPT-4 的全部潜能

语言模型优化一直是个恼人的问题。因为模型的训练成本过高,企业不得不在准确性与成本之间做出权衡,这又往往导致模型优化程度不够理想。

GPT-3 只训练过一次,后续只会在特殊情况下针对错误进行重新训练。OpenAI 决定不这么搞了,因为成本太过高昂、研究人员也没办法找到模型的最佳超参数集(例如学习率、批次大小、序列长度等)。

高训练成本带来的另一个后果,就是难以对模型行为开展分析。当初 Kaplan 团队认定模型大小将成为性能提升的关键变量时,并没有考虑到训练 token 的数量——即模型输入的数据量。这明显需要消耗大量计算资源。

而科技巨头们之所以走上 Kaplan 的这条道路,就是因为自己手里掌握着大量算力。讽刺的是,谷歌、微软、Facebook 等大厂在这些硕大无比的模型身上“浪费”了数百万美元,由此造成的污染更是难以估计,但最初的目的却是为了省钱。

如今,以 DeepMind 和 OpenAI 为代表的企业开始探索其他方法,希望找到最佳、而非最大的模型。

最优参数化

上个月,微软和 OpenAI 已经证明只要用最佳超参数训练模型,GPT-3 还有进一步改进的空间。他们发现 GPT-3 的 67 亿参数版本能够借此实现性能飞跃,表现甚至不逊于最早 130 亿参数的版本。由此可见,在大型模型中根本不可行的超参数调优其实前景光明,完全能够实现相当于参数倍增的性能提升。

双方还发现一种新的参数化方法 (μP),证明小模型中的最佳超参数在同家族的较大模型中同样适用。μP 能够以更低的训练成本对任意大小的模型进行优化,之后以几乎零成本方式将得出的超参数迁移至更大的模型当中。

最优计算模型

几周之前,DeepMind 重新审查了 Kaplan 的发现,并意识到与人们的普遍认知相反,训练 token 数量对于性能的影响基本等同于模型大小。他们由此得出结论,认为随着算力资源的提升,最好是把这些资源平均分配给新增的参数和数据。他们还通过训练 Chinchilla 来验证这一假设——Chinchilla 是一个包含 700 亿参数的模型(相当于 Gopher 的四分之一),但训练用的数据量却是自 GPT-3 以来所有大型语言模型的 4 倍(共使用 1.4 万亿个 token,远超常规的 3000 亿水平)。

结果令人欣喜。Chinchilla 在众多语言基准测试中“稳定且显著”优于 Gopher、GPT-3、MT-NLG 等因体量过大而无法充分训练的其他语言模型。

考虑到 GPT-4 终归还是要比 GPE-3 略大,所以让它达到最优计算水平所需要的训练 token 量应该在 5 万亿左右(根据 DeepMind 的发现),这要比当前数据集高出一个量级。而达成最小训练损失所需要的算力总量则相当于 GPT-3 的约 10 至 20 倍(按 Gopher 的算力消耗来推断)。

Altman 在问答中提到 GPT-4 占用的算力总量要超过 GPT-3,也许说的就是这个意思。

OpenAI 肯定会在 GPT-4 中充分发掘最优方案,但由于不知道他们划定了多少资源预算,所以很难给出确切的推断。不过可以肯定的是,OpenAI 一定会专注于优化除模型大小之外的其他变量。只要能找到最优超参数集、计算模型大小以及参数数量,那 GPT-4 完全有希望在全部基准测试中带来超出想象的优异表现。如果它真能获得这样集万千优势于一身的形态,那么 GPT-4 就是毫无疑问的语言模型之王。

Altman 还提到,人们一直觉得更大的模型肯定就更好,言下之意可能是规模扩张的道路将由此终结。

多模态:GPT-4 将是一个纯文本模型

深度学习的未来在于多模态模型。人类的大脑包含多种感官系统,为的正是适应现实中的多模世界。但只能支持一种模态、理解一种感知的 AI 模型,明显无法在理解与分析能力方面再上一个台阶。

必须承认,良好的多模态模型要比纯语言或纯视觉模型更难构建。光是把视觉和文本信息组成成单一表示本身,就已经是项异常艰巨的任务。我们甚至不清楚人脑是怎么做到这一点的(当然,深度学习社区其实也没有深入钻研认知学意义上的大脑结构和功能分区),当然没办法在神经网络中重现这种能力。

Altman 在问答中提到,GPT-4 不会是像 DALL·E 或者 LaMDA 那样的多模态模型,而是一个纯文本模型。我猜他们希望把语言模型推到极致,在转向下一代多模态 AI 之前先搞定模型调优与数据集大小等问题。

稀疏性:GPT-4 将是个密集模型

稀疏模型采取的是有条件计算思路,即使用模型中的不同部分来处理不同类型的输入。这种方法近期取得了巨大成功,相关模型甚至能够轻松扩展到超万亿参数规模,却又不会受到高计算成本的影响。这相当于是在模型大小和算力预算之间找到了理想的平衡点。然而,这种 MoE 方法的优势在超大规模模型中往往会急剧减弱。

考虑到 OpenAI 多年来一直坚持探索密集语言模型,所以我们有理由相信未来的 GPT-4 也会是密集模型。Altman 还提到 GPT-4 不会比 GPT-3 大太多,所以我们认为 OpenAI 不会在 GPT-4 上走稀疏模型的道路——至少这次内不会。

但人脑其实就高度依赖于稀疏处理,所以跟多模态相似,稀疏模型也很可能在未来几代神经网络中成为主流。

对齐:GPT-4 对齐度将高于 GPT-3

OpenAI 在 AI 对齐问题上做出了诸多努力,其核心在于探索如何让语言模型遵循人类的意图、符合人类价值观。这不只是个数学难题(即如何让 AI 准确理解我们想要的结果),同时也属于哲学挑战(由于不同人类群体间的价值观存在巨大差异、甚至相互矛盾,所以不可能存在一种能让 AI 与人类永远保持一致的通用方法)。

但 OpenAI 仍然勇敢做出了尝试,最初的探索就是 InstructGPT。这是一个经过更新的 GPT-3 模型,能够接收人工反馈以学会遵循指令(但暂不考虑这些指令是否友善)。

InstructGPT 的核心突破,在于无论它在语言基准测试上得分如何,生成的结果都更符合人类评判者的喜好(但 OpenAI 员工基本都说英语,所以这个结论也仍然不完全可靠)。从这个角度看,也许我们未来不该单纯用基准测试作为 AI 能力评估的唯一指标。人类的感受可能同样重要、甚至更加重要。

之前 Altman 与 OpenAI 都曾经对有益人工通用智能(AGI)发表过严肃承诺,所以我相信 GPT-4 肯定会借用一部分从 InstructGPT 中获得的发现。

他们会改进模型的对齐方式,突破只顺应“说英语的内部员工”的樊篱。真正的对齐必须能够顺应不同性别、不同种族、不同国籍、不同宗教信仰等各类群体的习惯。这当然是个严苛挑战,而朝这个目标迈出的任何一步都将是可喜的进展。

情报总结

模型大小:GPT-4 会比 GPT-3 更大,但应该小于当前最大的语言模型(5300 亿参数的 MT-NLG 与 5400 亿参数的 PaLM)。总之,GPT-4 不再强调以大取胜。

优化:GPT-4 消耗的算力比 GPT-3 更多。它将在参数化(最优超参数)与规模扩展(训练 token 数量与模型大小同等重要)方面做出新的最优性探索。

多模态:GPT-4 将是一个纯文本模型(而非多模态模型)。OpenAI 正努力将语言模型发挥到极致,之后再逐步转向 DALL·E 等有望全面超越单模态系统的多模态模型。

稀疏性:GPT-4 将延续 GPT-2 与 GPT-3 的趋势,仍然保持密集模型的身份(使用全部参数来处理任何给定输入)。但未来稀疏性可能逐渐占据主导地位。

对齐:GPT-4 的对齐程度将高于 GPT-3。借助从 InstructGPT 中总结出的知识,GPT-4 也将获得由人工反馈训练得出的宝贵经验。但 AI 对齐难题的彻底解决还有很长的路要走,目前仍在探索阶段、不宜大肆宣扬。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

1aeb1ee0586b7a71319c5fbd8c037473.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全职加入清华,丘成桐:为祖国、为全球数学界培养数学人才

王希勤校长为丘先生颁发聘书(照片来源:清华大学)来源:数据实战派4 月 20 日,清华大学宣布,“菲尔兹奖”首位华人得主丘成桐从哈佛大学退休,受聘清华大学讲席教授,将全职任教清华。清…

11 计算机组成原理第七章 输入/输出系统 I/O系统基本概念 外部设备

文章目录1 I/O系统基本概念1.1 I/O系统演变过程1.2 I/O系统基本组成1.3 I/O方式简介1.4 I/O系统基本概念小结2 外部设备1-输入设备 输出设备2.1 外部设备2.2 输入设备2.3 输出设备2.3.1 显示器2.3.2 打印机2.4 输出设备小结3 外部设备2-外存储器3.1 外存储器3.2 磁盘存储器3.2.…

重庆大学刘礼:因果学习与应用

来源:AI科技评论作者:刘礼编辑:维克多因果学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。4月9日,在AI TIME青年科学家——AI 2000学者专场论坛上,重庆大学大数据与软件学院教授刘礼…

12 计算机组成原理第七章 输入/输出系统 中断系统

文章目录1 中断的基本概念2 中断请求的分类3 中断请求标记4 中断判优-实现5 中断处理过程5.1 中断处理过程-中断隐指令5.2 中断处理过程-硬件向量法5.3 中断处理过程-中断服务程序6 单重中断与多重中断6.1 单重中断与多重中断比较7 中断屏蔽技术中断屏蔽字例题8 中断系统小结1 …

神经形态计算的物理学

来源: 集智俱乐部作者:张晓雨编辑:邓一雪 摘要神经形态计算(neuromorphic computing)从脑科学汲取灵感来为信息处理创造节能硬件,并能适应高度复杂的任务。2020年发表在 Nature Reviews Physics 上的一篇文…

13 计算机组成原理第七章 输入/输出系统 I/O方式 I/O接口

文章目录1 I/O接口1.1 接口定义1.2 I/O接口的功能(以单总线为例)1.3 I/O接口的基本结构1.4 接口与端口1.5 I/O端口及其编址1.6 I/O接口的类型1.7 I/O接口小结2 I/O方式2.1 I/O方式1-程序查询方式2.1.1 程序查询方式流程图2.1.2 程序查询方式接口2.1.3 程…

参与全球人工智能创新链竞争

来源:社科院工业经济研究所作者:郭朝先,中国社会科学院工业经济研究所研究员、产业组织研究室主任、中国社会科学院大学教授、博士生导师、中国可持续发展研究会理事;方澳,中国社会科学院大学经济学院。本文首发《经济…

4 计算机组成原理第三章 存储系统 高速缓冲存储器 虚拟存储器

文章目录1 局部性原理性能分析2 Cache工作原理(简易版)3 地址映射4 替换算法4.1 替换算法(十进制)举例4.2 Cache工作原理(加强版)4.2.1写策略-命中4.2.2 写策略-未命中4.3 替换算法(二进制&…

CICC城市大脑专委会获批成立,欢迎参加专委会共同探索和研究

CICC 城市大脑专委会中国指挥与控制学会(CICC)是经国家民政部正式注册的我国指挥与控制科学技术领域的国家一级学会,是全国性科技社会组织;是中国科学技术协会的正式团体会员,接受中国科学技术协会的直接领导&#xff…

讲座文稿 | 人工智能与因果推理

来源:本文为中国人民大学明德讲坛第23期暨服务器艺术人工智能哲学第11期讲座文稿。主持人:朱锐 嘉宾:邱德钧、秦曾昌、Vincent Luizzi、袁园 主办:中国人民大学哲学与认知科学跨学科交叉平台、服务器艺术 协办:神经现…

顺序栈的介绍及实现

1 栈 从数据结构角度来讲,栈也是线性表,其操作是线性表操作的子集,属操作受限的线性表。 但从数据类型的角度看,它们是和线性表大不相同的重要抽象数据类型。 ◆ 栈是只准在一端进行插入和删除操作的线性表,该端称为栈…

内排序算法一览

文章目录1 插入排序2 希尔(shell)排序3 冒泡排序4 快速排序5 选择排序6 堆排序7 归并排序8 内排序代码一览运行结果常用排序算法时间复杂度和空间复杂度一览表排序:将一组杂乱无章的数据按一定的规律顺次排列起来,可以看作是线性表的一种操作…

Nature:神经元在大脑中的起点并不一定是它们的终点

来源:生物通虽然人体有30亿个DNA碱基和超过30万亿细胞,格里森和他的同事们发现只有几百DNA突变可能出现在头几个细胞分裂后的受精胚胎或在大脑的早期发展。通过在死者的大脑中跟踪这些突变,他们第一次能够重建人类大脑的发育。胎儿大脑的发育…

扎克伯格Meta元宇宙被质疑:年均烧百亿美元,货要等十年

来源:新智元公司内部业务混乱、公司外部观感酷似曾经的雅虎,这些与扎克伯格的元宇宙发力结合在一起,让Meta的新老员工都怨声载道。不少Meta的员工,现在都在抱怨老板的元宇宙项目顾头不顾腚、在公司内部徒增业务困扰但并无法带来收…

链栈的介绍与实现

文章目录1 链栈定义2 链栈基本操作3 链栈代码实现1 链栈定义 链栈:采用链式存储的栈称为链栈 在一个链栈中,栈底就是链表的最后一个结点,而栈顶总是链表的第一个结点。因此,新入栈的元素即为链表新的第一个结点,只要…

栈与递归

文章目录1 递归的概念2 递归算法3 递归数据结构4 递归实现5 递归与循环差别1 递归的概念 递归是指在定义自身的同时又出现了对自身的调用。如果一个函数在其定义体内直接调用自己,则称直接递归函数;如果一个函数经过一系列的中间调用语句,通过…

马斯克与推特达成收购协议 专家警告称这一步迈得过大

来源:网易智能4月26日消息,当地时间周一,在特斯拉首席执行官埃隆马斯克(Elon Musk)敲定将以440亿美元的价格收购个人社交媒体平台推特后,特斯拉股价盘中一度下跌超2%,最终收于每股998.02美元&am…

循环队列的介绍与实现

文章目录1 循环队列定义2 循环队列基本操作3 循环队列代码实现4 补充1 循环队列定义 循环队列:即顺序存储的队列,是为了避免“假溢出”而利用%运算符将队列首尾相接连成一个环状的队列,称为循环队列。 引入循环队列克服顺序队列中存在的“假…

5年内开炸第一颗小行星,改变其轨道!中国计划建立小行星预警监测系统

来源:大数据文摘不知道多少科幻片中,小行星成为了人类灭绝的罪魁祸首。在超高的速度加持下,直径只有十几公里的小行星撞击地球,都有可能造成人类毁灭。为了提前预警这样的事件发生,人类做出了不少努力。美国航天局NASA…

算术逻辑单元设计

文章目录1 基本逻辑符号1.1 ALU1.2 逻辑符号1.3 复合逻辑2 加法器设计2.1 一位加法器2.2 进位产生原理2.2 多位二进制位加法器1 基本逻辑符号 1.1 ALU ALU功能: 算术运算:加、减、乘、除等 逻辑运算:与、或、非、异或等 辅助功能&#xff1a…