GPT-3会做小学应用题了!60亿击败1750亿,并非参数越大越好

0804a7fd49fde8192a838069e69e70fd.png

来源:机器之心

简单的小学数学应用问题,对于人类来说不算什么,但对于模型来说,可能是有难度的。

比如问题:安东尼有 50 支铅笔。他把 1/2 的铅笔给了布兰登,剩下的 3/5 铅笔给了查理。他保留了剩下的铅笔。问安东尼保留了多少支铅笔?

像 GPT-3 这样的大型语言模型虽然取得了许多令人印象深刻的技能,包括模仿人的多种写作风格、20 分钟内完成论文等等。然而,类似 GPT-3 这样的模型很难执行需要进行准确多步推理的任务。就如上述问题让模型给出准确答案还是困难的。

尽管类似 GPT-3 这样的模型可以推导出正确解决方案大致内容,但也经常会产生严重的逻辑错误。

为了在复杂逻辑领域可以达到与人类相媲美的性能,模型必须具有判别自身错误的能力,并谨慎地执行之后的过程。但是,模型如何判别解决方案是否正确,来自 OpenAI 的研究者提出了一个训练验证器(verifier)来判断模型完成的正确性。

在测试阶段会生成许多候选解决方案并选择排名最高的一个。证明验证(verification)显着提高了 GSM8K 的性能,此外也为这一观点(随着数据的增加,验证比微调基线更有效)提供了强有力证据。

具体来说,该研究训练了一个解决小学数学问题的系统,其准确率约是经过微调的 GPT-3 模型的两倍。它能像真正的学生一样可以解决 90% 的数学应用问题:在提供的数据集中进行了小样本测试,结果表明 9-12 岁的学生测试得分为 60%,该研究所提系统在相同的问题上测试得分 55%。

这一结果非常重要,因为今天的 AI 在常识性多步推理方面仍然很弱,即使对小学生来说也很容易,但 AI 还是存在很大的缺陷。该研究通过训练模型来识别其错误,以便它可以反复试错,直到找到可行的解决方案。

731629c5827a428ce79c1e4af79f8453.png

  • 论文地址:https://arxiv.org/pdf/2110.14168.pdf

  • 数据集地址:https://github.com/openai/grade-school-math

下面展示了该研究所提新方法生成的解决方案其中一个案例:

Tim 种了 5 棵树。他每年从每棵树上收集 6 个柠檬。他十年能得到多少柠檬?

175B Verification:正确 

d2ff714c4efcd7eeb7fbbc1efe26109b.png

175B Fine-tuning:错误 

3d9d7a16f2e72707d632a6f365d76015.png

6B Verification:正确 

9f4c786dc50598746ec92ee0c0ffec7f.png

6B Fine-tuning:正确 

ce5cb1394966d29852c88c84b9539158.png

GSM8K 数据集

OpenAI 基于四个设计原则创建了 GSM8K 数据集:高质量、高多样性、中等难度和自然语言解决方案。

GSM8K 数据集由 8.5K 个高质量小学数学应用题组成。每个问题需要 2 到 8 步解决,解决方案主要涉及使用加减乘除等基本算术运算执行一系列基础计算以获得最终答案。微调后的 SOTA 模型在该数据集上表现不佳,主要是问题的高度多样性导致的。与此同时,GSM8K 解决方案仅依赖于基本概念,因此实现高测试性能是一个容易实现的目标。

19e11f8f580dd6d34001ca3237ea1fa5.png

GSM8K 数据集中的三个示例问题。

值得注意的是,GSM8K 中的解决方案是用自然语言而不是纯数学表达式编写的。通过坚持使用自然语言,模型生成的解决方案更容易被人类解释。OpenAI 的方法保持相对领域不可知。

 方法

OpenAI 研究了两种解决 GSM8K 问题的方法:微调和验证。微调是基线方法,它使用与 GPT-3 中生成式预训练相同的语言建模目标(Brown 等人,2020 年)。在测试时,OpenAI 通过自回归采样单个低温解决方案并检查最终答案是否正确来判断性能。相比之下,验证包括对多个高温解决方案进行采样,为每个解决方案分配一个分数,并输出排名最高的解决方案。验证器被训练来判断解决方案的正确性,其中训练信号完全取决于解决方案是否获得了正确的最终答案

对于这两种方法,OpenAI 使用 GPT-3 系列模型作为初始化,主要关注 175B 和 6B 大小的模型。175B 模型最大,产生的结果最令引人瞩目,而 6B 模型更易于实现研究目。

 微调

OpenAI 通过更新模型参数来进行微调,以最小化所有训练 token 的交叉熵损失。下图 2 显示了对 20 个 epoch 时不同大小的训练集进行微调后的测试性能。

结果不出所料,可以看到 175B 模型明显优于较小的模型。假设一个对数线性趋势,我们可以简单地推断这些结果,以估计当使用完整的 GSM8K 训练集时,需要具有 10^16 个参数的模型才能达到 80% 的求解率。尽管如此,175B 模型似乎需要至少两个额外数量级的训练数据才能达到 80% 的求解率。

70c6573d10c680a087421e5f6bd4452c.png

在下图 3 中,OpenAI 展示了 6B 模型测试性能在 100 个训练 epoch 的过程中如何变化。当允许模型对每个问题进行 N 个单独的猜测时,OpenAI 使用 test@N 表示至少一次正确解决的问题的百分比。尽管很快开始过拟合测试损失,但 Test@1 的性能几乎单调地提高。并且,随着 epoch 次数的增加,test@100 的性能比 test@1 下降得更快。

95f2ba59fd2e57f619a5e416d537373d.png

选择具有良好覆盖性的模型对于成功训练验证器至关重要。从实证角度来看,test@100 性能在前几个 epoch 内达到峰值。出于这个原因,OpenAI 使用训练了 2 个 epoch 的模型来生成用于训练验证器的样本。如果改为微调 6B 模型以直接输出最终答案而无需任何中间步骤,则性能会从 20.6% 急剧下降至 5.2%。

 验证

为了改进微调基准,OpenAI 训练验证器判断模型生成的解决方案的正确性,并在测试时搜索这些验证器。以问题和候选解决方案为条件,验证器输出解决方案正确的概率。仅根据它们是否达到正确的最终答案,将训练解决方案标记为正确或不正确。不过,在实践中,一些解决方案会使用有缺陷的推理得出正确的最终答案,从而导致误报。

如下图 4 所示,OpenAI 按如下方式训练验证器: 

  • 在训练集上对模型(生成器)进行 2 个 epoch 的微调;

  • 从生成器中为每个训练问题抽取 100 个完成样本,并将每个解决方案标记为正确或不正确;

  • 在数据集上训练一个单一 epoch 的验证器。

21b3fc13165af4829354968512d548ca.png

在测试时,OpenAI 对每个测试问题采样了 100 个完成情况,用验证器对它们进行排名,然后返回得分最高的那个。下图 5 展示了 6B 和 175B 模型的验证和微调两种方法之间的对比情况,结果发现在低数据集下使用验证方法是没有好处的。有趣的是,175B 验证器比 6B 验证器更早「起飞」,超越微调基线需要的时间更少。

在完整的训练集上,随着 epoch 的增加,使用验证方法的 6B 模型最终略优于微调的 175B 模型,性能提升大约相当于模型大小增加 30 倍。

c3a394dddc5bfd00d06856d3cf6af8fe.png

训练验证器既可以在全部的生成解决方案里进行单个标量预测(single scalar prediction),也可以在解决方案的每个 token 后进行单个标量预测,OpenAI 选择后者,即训练验证器在每个 token 之后进行预测。实验结果如图 6a 所示,它们分别标记为「解决方案级别」和「token 级别」。

在图 6b 中,通过消融实验验证训练验证器中使用目标(objective)的作用, OpenAI 将使用两个目标与仅使用验证目标进行比较。

在图 6c 中,OpenAI 对生成器和验证器的大小进行了实验,研究发现使用大的生成器、小的验证器组合性能显著优于小的生成器、大的验证器组合。

7893a8513155a4c3826bcd18b247fcd5.png

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

1b4b920cea53bdca6e58d787d728c31a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483408.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

操作系统 —— 设备管理

目录1. I/O 设备1.1. I/O 设备的分类1.1.1. 按使用特性1.1.2. 按传输速率1.1.3. 按信息交换的单位2. I/O 控制器2.1. 机械部件 vs 电子部件2.2. I/O 控制器的功能2.3. I/O 控制器的组成3. I/O 控制方式3.1. 程序直接控制方式3.2. 中断驱动方式3.3. DMA方式3.4. 通道控制方式4. …

元宇宙深度报告,共177页!

来源: 中信证券Hi听说元宇宙最近火得不得了这里有一份元宇宙深度报告内容超级详实丰富绝对值得收藏分享给大家未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大…

计算机网络——奈氏准则和香农定理

1. 失真 2.影响失真的因素 \qquad传输速率,传输距离,噪声干扰,传输媒体质量 3.一种失真现象——码间串扰 \qquad信道带宽:信道所能通过信号的最高频率和最低频率之差。 \qquad码间串扰:接收端收到的信号波形失去了码元…

VMware安装CentOS7超详细版

个人网站 博客园 个人学习笔记在线文档 欢迎访问 ! 写在前面 云计算与分布式这门课程的老师让我们使用vmware安装好centos7.6并配置好Java编译环境,刚好复习一波,下面是详细的安装过程。 准备工作 VMware,我用的是VMware Worksta…

转 Java jar (SpringBoot Jar)转为win可执行的exe程序

原文链接&#xff1a;http://voidm.com/2018/12/29/java-jar-transform-exe/打包Jar工程将java项目打包成jar工程,可以是文章以SpringBoot为例pom文件下的packaging改为jar, 之后执行package打包获得项目jar文件<groupId>com.voidm</groupId><artifactId>mav…

从引力波探测到RNA测序,AI如何加速科学发现

来源&#xff1a;AI科技评论编译:眉钉编辑:琰琰越来越复杂的实验和日益增长的数据为科学探索带来了新的挑战&#xff0c;而实验表明&#xff0c;机器学习&#xff0c;尤其是深度神经网络架构的通用性能够解决广泛且复杂的问题&#xff0c; ImageNet 等大型数据集的激增&#xf…

计算机网络——编码和调制

1.什么叫编码&#xff1f;什么叫调制&#xff1f; \qquad将数据变为数字信号&#xff0c;叫编码&#xff1b;将数据变为模拟信号&#xff0c;叫调制。 2.将数字数据编码为数字信号 \qquad将数字数据编码为数字信号的方式有&#xff1a;1&#xff09;非归零编码&#xff1b;2&…

Cisco Packet Tracer的安装与汉化

同个人网站 https://www.serendipper-x.cn/&#xff0c;欢迎访问 &#xff01; 一、下载 1、官网下载 首先去思科官网下载对应的压缩包。 点击图中所示注册下载按钮按照提示步骤完成注册 注册之后登陆&#xff0c;点击导航栏中资源->所有资源&#xff0c;即可看到各版本压…

物理学家发现粒子是如何自我组装的

来源&#xff1a;诸平科学网博客作者&#xff1a;诸平链接地址&#xff1a;http://blog.sciencenet.cn/blog-212210-1310642.html据美国纽约大学&#xff08;New York University简称NYU&#xff09;2021年11月1日提供的消息&#xff0c;一组物理学家发现了DNA分子是如何根据组…

计算机网络——物理层传输介质

1.什么是传输介质&#xff1f; \qquad传输介质&#xff0c;也称为传输媒体/传输媒介&#xff0c;它是数据传输系统中在发送设备和接收设备之间的物理通路。传输介质不是物理层。 2.传输介质的分类 \qquad导向性传输介质&#xff1a;电磁波被导向沿着固体媒介&#xff08;铜线或…

计算机网络——物理层设备

1.中继器 \qquad信号在传输过程中会有衰减&#xff0c;导致数据失真&#xff0c;所以我们需要对信号进行再生和还原&#xff0c;使其与原数据相同。这就需要中继器的发挥作用。 2.中继器的结构 \qquad中继器的两端&#xff1a;两端的网络部分是网段而不是子网&#xff0c;适用…

重磅!2020国家科学技术奖全名单公布!

来源&#xff1a;软科 2021年11月3日&#xff0c;2020年度国家科学技术奖励大会在人民大会堂正式召开。备受关注的国家最高科学技术奖&#xff0c;授予了中国航空工业集团有限公司顾诵芬院士和清华大学王大中院士。国家最高科学技术奖自2000年正式设立&#xff0c;是中国科技界…

计算机网络——数据链路层的概述

1.数据链路层的基本概念 \qquad结点&#xff1a;主机、路由器 \qquad链路&#xff1a;网络中两个结点之间的物理通道&#xff0c;链路的传输介质主要有双绞线&#xff0c;光纤&#xff0c;微波。分为有线链路和无线链路。 \qquad数据链路&#xff1a;网络中两个结点之间的逻辑通…

中国科学家证明凯勒几何两大核心猜想

来源&#xff1a;中国科学报中国科学技术大学几何物理中心创始主任陈秀雄与合作者程经睿在偏微分方程和复几何领域取得“里程碑式结果”。他们解出了一个四阶完全非线性椭圆方程&#xff0c;成功证明了“强制性猜想”和“测地稳定性猜想”这两个国际数学界60多年悬而未决的核心…

基于交换机的PC端网络通信

1. 通信环境 \qquad两台电脑&#xff1a;一台是windows10操作系统&#xff0c;一台是Ubuntu操作系统&#xff1b; \qquad一个5口的交换机和配套的交换机电源线 \qquad两根网线 2.实现的目的 \qquad通过上述的通信环境&#xff0c;基于交换机&#xff0c;可以实现两台不同操作系…

深度学习发展下的“摩尔困境”,人工智能又将如何破局?

来源&#xff1a;AI科技大本营编译&#xff1a;禾木木前不久&#xff0c;微软和英伟达推出包含5300亿参数的语言模型MT-NLG&#xff0c;这是一款基于 Transformer 的模型被誉为“世界上最大、最强的生成语言模型”。毫无疑问&#xff0c;这是一场令人印象深刻的机器学习工程展示…

计算机网络——差错控制

1.传输过程中出现错误的原因&#xff1f; \qquad传输中的差错主要是由噪声引起的&#xff0c;噪声主要分为&#xff1a;全局性噪声&#xff0c;比如线路电气特性所产生的随机噪声&#xff1b;局部性噪声&#xff0c;比如短暂性的冲击噪声。 2.差错的原因&#xff1f; \qquad差…

Exp8 Web基础

一、实验过程 1.Web前端&#xff1a;HTML基础 &#xff08;1&#xff09;kali默认已安装Apache&#xff0c;使用 service apache2 start 命令打开Apache服务 &#xff08;2&#xff09;在浏览器输入 127.0.0.1 &#xff0c;如果可以打开Apache的默认网页 &#xff08;3&#xf…

linux的基础知识——模型结构和数据包的封装

1.OSI参考模型和TCP/IP参考模型 2.TCP/IP模型 TCP/IP网络协议分为四层&#xff1a;应用层&#xff0c;传输层&#xff0c;网络层&#xff0c;链路层 3.数据包的封装 数据要想传输必须经过封装。两台电脑通过TCP/IP协议通讯过程如下&#xff1a;

人工智能发展时间轴

来源&#xff1a;人机与认知实验室时间人物事件意义1633Rene Descartes发表著作《论人》提出灵魂存在于大脑的松果体中1714Gottfried Wilhelm Leibniz《单子论》一切知识都能通过理性思考获得。发现微积分&#xff0c;并开发了一套更为适用的记号方法。1739David Hume《人性论》…