GPT-3会做小学应用题了!60亿击败1750亿,并非参数越大越好

0804a7fd49fde8192a838069e69e70fd.png

来源:机器之心

简单的小学数学应用问题,对于人类来说不算什么,但对于模型来说,可能是有难度的。

比如问题:安东尼有 50 支铅笔。他把 1/2 的铅笔给了布兰登,剩下的 3/5 铅笔给了查理。他保留了剩下的铅笔。问安东尼保留了多少支铅笔?

像 GPT-3 这样的大型语言模型虽然取得了许多令人印象深刻的技能,包括模仿人的多种写作风格、20 分钟内完成论文等等。然而,类似 GPT-3 这样的模型很难执行需要进行准确多步推理的任务。就如上述问题让模型给出准确答案还是困难的。

尽管类似 GPT-3 这样的模型可以推导出正确解决方案大致内容,但也经常会产生严重的逻辑错误。

为了在复杂逻辑领域可以达到与人类相媲美的性能,模型必须具有判别自身错误的能力,并谨慎地执行之后的过程。但是,模型如何判别解决方案是否正确,来自 OpenAI 的研究者提出了一个训练验证器(verifier)来判断模型完成的正确性。

在测试阶段会生成许多候选解决方案并选择排名最高的一个。证明验证(verification)显着提高了 GSM8K 的性能,此外也为这一观点(随着数据的增加,验证比微调基线更有效)提供了强有力证据。

具体来说,该研究训练了一个解决小学数学问题的系统,其准确率约是经过微调的 GPT-3 模型的两倍。它能像真正的学生一样可以解决 90% 的数学应用问题:在提供的数据集中进行了小样本测试,结果表明 9-12 岁的学生测试得分为 60%,该研究所提系统在相同的问题上测试得分 55%。

这一结果非常重要,因为今天的 AI 在常识性多步推理方面仍然很弱,即使对小学生来说也很容易,但 AI 还是存在很大的缺陷。该研究通过训练模型来识别其错误,以便它可以反复试错,直到找到可行的解决方案。

731629c5827a428ce79c1e4af79f8453.png

  • 论文地址:https://arxiv.org/pdf/2110.14168.pdf

  • 数据集地址:https://github.com/openai/grade-school-math

下面展示了该研究所提新方法生成的解决方案其中一个案例:

Tim 种了 5 棵树。他每年从每棵树上收集 6 个柠檬。他十年能得到多少柠檬?

175B Verification:正确 

d2ff714c4efcd7eeb7fbbc1efe26109b.png

175B Fine-tuning:错误 

3d9d7a16f2e72707d632a6f365d76015.png

6B Verification:正确 

9f4c786dc50598746ec92ee0c0ffec7f.png

6B Fine-tuning:正确 

ce5cb1394966d29852c88c84b9539158.png

GSM8K 数据集

OpenAI 基于四个设计原则创建了 GSM8K 数据集:高质量、高多样性、中等难度和自然语言解决方案。

GSM8K 数据集由 8.5K 个高质量小学数学应用题组成。每个问题需要 2 到 8 步解决,解决方案主要涉及使用加减乘除等基本算术运算执行一系列基础计算以获得最终答案。微调后的 SOTA 模型在该数据集上表现不佳,主要是问题的高度多样性导致的。与此同时,GSM8K 解决方案仅依赖于基本概念,因此实现高测试性能是一个容易实现的目标。

19e11f8f580dd6d34001ca3237ea1fa5.png

GSM8K 数据集中的三个示例问题。

值得注意的是,GSM8K 中的解决方案是用自然语言而不是纯数学表达式编写的。通过坚持使用自然语言,模型生成的解决方案更容易被人类解释。OpenAI 的方法保持相对领域不可知。

 方法

OpenAI 研究了两种解决 GSM8K 问题的方法:微调和验证。微调是基线方法,它使用与 GPT-3 中生成式预训练相同的语言建模目标(Brown 等人,2020 年)。在测试时,OpenAI 通过自回归采样单个低温解决方案并检查最终答案是否正确来判断性能。相比之下,验证包括对多个高温解决方案进行采样,为每个解决方案分配一个分数,并输出排名最高的解决方案。验证器被训练来判断解决方案的正确性,其中训练信号完全取决于解决方案是否获得了正确的最终答案

对于这两种方法,OpenAI 使用 GPT-3 系列模型作为初始化,主要关注 175B 和 6B 大小的模型。175B 模型最大,产生的结果最令引人瞩目,而 6B 模型更易于实现研究目。

 微调

OpenAI 通过更新模型参数来进行微调,以最小化所有训练 token 的交叉熵损失。下图 2 显示了对 20 个 epoch 时不同大小的训练集进行微调后的测试性能。

结果不出所料,可以看到 175B 模型明显优于较小的模型。假设一个对数线性趋势,我们可以简单地推断这些结果,以估计当使用完整的 GSM8K 训练集时,需要具有 10^16 个参数的模型才能达到 80% 的求解率。尽管如此,175B 模型似乎需要至少两个额外数量级的训练数据才能达到 80% 的求解率。

70c6573d10c680a087421e5f6bd4452c.png

在下图 3 中,OpenAI 展示了 6B 模型测试性能在 100 个训练 epoch 的过程中如何变化。当允许模型对每个问题进行 N 个单独的猜测时,OpenAI 使用 test@N 表示至少一次正确解决的问题的百分比。尽管很快开始过拟合测试损失,但 Test@1 的性能几乎单调地提高。并且,随着 epoch 次数的增加,test@100 的性能比 test@1 下降得更快。

95f2ba59fd2e57f619a5e416d537373d.png

选择具有良好覆盖性的模型对于成功训练验证器至关重要。从实证角度来看,test@100 性能在前几个 epoch 内达到峰值。出于这个原因,OpenAI 使用训练了 2 个 epoch 的模型来生成用于训练验证器的样本。如果改为微调 6B 模型以直接输出最终答案而无需任何中间步骤,则性能会从 20.6% 急剧下降至 5.2%。

 验证

为了改进微调基准,OpenAI 训练验证器判断模型生成的解决方案的正确性,并在测试时搜索这些验证器。以问题和候选解决方案为条件,验证器输出解决方案正确的概率。仅根据它们是否达到正确的最终答案,将训练解决方案标记为正确或不正确。不过,在实践中,一些解决方案会使用有缺陷的推理得出正确的最终答案,从而导致误报。

如下图 4 所示,OpenAI 按如下方式训练验证器: 

  • 在训练集上对模型(生成器)进行 2 个 epoch 的微调;

  • 从生成器中为每个训练问题抽取 100 个完成样本,并将每个解决方案标记为正确或不正确;

  • 在数据集上训练一个单一 epoch 的验证器。

21b3fc13165af4829354968512d548ca.png

在测试时,OpenAI 对每个测试问题采样了 100 个完成情况,用验证器对它们进行排名,然后返回得分最高的那个。下图 5 展示了 6B 和 175B 模型的验证和微调两种方法之间的对比情况,结果发现在低数据集下使用验证方法是没有好处的。有趣的是,175B 验证器比 6B 验证器更早「起飞」,超越微调基线需要的时间更少。

在完整的训练集上,随着 epoch 的增加,使用验证方法的 6B 模型最终略优于微调的 175B 模型,性能提升大约相当于模型大小增加 30 倍。

c3a394dddc5bfd00d06856d3cf6af8fe.png

训练验证器既可以在全部的生成解决方案里进行单个标量预测(single scalar prediction),也可以在解决方案的每个 token 后进行单个标量预测,OpenAI 选择后者,即训练验证器在每个 token 之后进行预测。实验结果如图 6a 所示,它们分别标记为「解决方案级别」和「token 级别」。

在图 6b 中,通过消融实验验证训练验证器中使用目标(objective)的作用, OpenAI 将使用两个目标与仅使用验证目标进行比较。

在图 6c 中,OpenAI 对生成器和验证器的大小进行了实验,研究发现使用大的生成器、小的验证器组合性能显著优于小的生成器、大的验证器组合。

7893a8513155a4c3826bcd18b247fcd5.png

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

1b4b920cea53bdca6e58d787d728c31a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483408.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络——码元,波特,速率和带宽

1.什么是码元? \qquad码元是用固定时长的信号波形,来表示不同离散数值。这个时长称为码元宽度,这个时长内的信号称为K进制码元。1码元可以携带多个比特的信息量。二进制码元代表有两种高低不同的信号波形,四进制码元代表有四种高低…

操作系统 —— 设备管理

目录1. I/O 设备1.1. I/O 设备的分类1.1.1. 按使用特性1.1.2. 按传输速率1.1.3. 按信息交换的单位2. I/O 控制器2.1. 机械部件 vs 电子部件2.2. I/O 控制器的功能2.3. I/O 控制器的组成3. I/O 控制方式3.1. 程序直接控制方式3.2. 中断驱动方式3.3. DMA方式3.4. 通道控制方式4. …

1.15-1.16 sqoop action

一、sqoop action1http://oozie.apache.org/docs/4.0.0/DG_SqoopActionExtension.html1、准备文件## [roothadoop-senior oozie-apps]# mkdir sqoop-import-user##job.properties nameNodehdfs://hadoop-senior.ibeifeng.com:8020 jobTrackerhadoop-senior.ibeifeng.com:8032 q…

元宇宙深度报告,共177页!

来源: 中信证券Hi听说元宇宙最近火得不得了这里有一份元宇宙深度报告内容超级详实丰富绝对值得收藏分享给大家未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大…

计算机网络——奈氏准则和香农定理

1. 失真 2.影响失真的因素 \qquad传输速率,传输距离,噪声干扰,传输媒体质量 3.一种失真现象——码间串扰 \qquad信道带宽:信道所能通过信号的最高频率和最低频率之差。 \qquad码间串扰:接收端收到的信号波形失去了码元…

VMware安装CentOS7超详细版

个人网站 博客园 个人学习笔记在线文档 欢迎访问 ! 写在前面 云计算与分布式这门课程的老师让我们使用vmware安装好centos7.6并配置好Java编译环境,刚好复习一波,下面是详细的安装过程。 准备工作 VMware,我用的是VMware Worksta…

转 Java jar (SpringBoot Jar)转为win可执行的exe程序

原文链接&#xff1a;http://voidm.com/2018/12/29/java-jar-transform-exe/打包Jar工程将java项目打包成jar工程,可以是文章以SpringBoot为例pom文件下的packaging改为jar, 之后执行package打包获得项目jar文件<groupId>com.voidm</groupId><artifactId>mav…

从引力波探测到RNA测序,AI如何加速科学发现

来源&#xff1a;AI科技评论编译:眉钉编辑:琰琰越来越复杂的实验和日益增长的数据为科学探索带来了新的挑战&#xff0c;而实验表明&#xff0c;机器学习&#xff0c;尤其是深度神经网络架构的通用性能够解决广泛且复杂的问题&#xff0c; ImageNet 等大型数据集的激增&#xf…

个人博客网站 Welcome All

个人博客网站 : www.serendipper-x.cn 内容一样&#xff0c;欢迎访问 &#xff01;

计算机网络——编码和调制

1.什么叫编码&#xff1f;什么叫调制&#xff1f; \qquad将数据变为数字信号&#xff0c;叫编码&#xff1b;将数据变为模拟信号&#xff0c;叫调制。 2.将数字数据编码为数字信号 \qquad将数字数据编码为数字信号的方式有&#xff1a;1&#xff09;非归零编码&#xff1b;2&…

开发相关的一些周边小问题记录

此博主要用于记录&#xff0c;持续记录更新中…… 1.Firefox默认自动检查版本并更新&#xff0c;某次更新完后&#xff0c;无法打开任何页面&#xff0c;且“选项”、“定制”等等按钮在点击之后也无任何反应&#xff0c;整个浏览器仿佛变成了僵尸。进入Firefox官网手动点击联网…

Cisco Packet Tracer的安装与汉化

同个人网站 https://www.serendipper-x.cn/&#xff0c;欢迎访问 &#xff01; 一、下载 1、官网下载 首先去思科官网下载对应的压缩包。 点击图中所示注册下载按钮按照提示步骤完成注册 注册之后登陆&#xff0c;点击导航栏中资源->所有资源&#xff0c;即可看到各版本压…

物理学家发现粒子是如何自我组装的

来源&#xff1a;诸平科学网博客作者&#xff1a;诸平链接地址&#xff1a;http://blog.sciencenet.cn/blog-212210-1310642.html据美国纽约大学&#xff08;New York University简称NYU&#xff09;2021年11月1日提供的消息&#xff0c;一组物理学家发现了DNA分子是如何根据组…

计算机网络——物理层传输介质

1.什么是传输介质&#xff1f; \qquad传输介质&#xff0c;也称为传输媒体/传输媒介&#xff0c;它是数据传输系统中在发送设备和接收设备之间的物理通路。传输介质不是物理层。 2.传输介质的分类 \qquad导向性传输介质&#xff1a;电磁波被导向沿着固体媒介&#xff08;铜线或…

《程序员修炼之道:从小工到专家》阅读笔记03

《程序员修炼之道&#xff1a;从小工到专家》阅读笔记03 第六章 当你编码时 靠巧合编程应该避免靠巧合编程&#xff0c;避免依靠运气和偶然的成功。而要深思熟虑的编程。怎样深思熟虑的编程&#xff1a;1&#xff09;总是意识到你在做什么2&#xff09;不要盲目的编程3&#xf…

PyTorch中Tensor的基本用法与动手学深度学习的预备知识

同个人博客网站 : www.serendipper-x.cn &#x1f433;&#x1f433; 第一部分是PyTorch中有关Tensor的一些基本用法&#xff0c;因为之前并没有系统学习过PyTorch&#xff0c;所以现在看书的同时慢慢学习PyTorch的知识 第二部分是原书的知识和一些自己的理解 一、PyTorch 中…

计算机网络——物理层设备

1.中继器 \qquad信号在传输过程中会有衰减&#xff0c;导致数据失真&#xff0c;所以我们需要对信号进行再生和还原&#xff0c;使其与原数据相同。这就需要中继器的发挥作用。 2.中继器的结构 \qquad中继器的两端&#xff1a;两端的网络部分是网段而不是子网&#xff0c;适用…

重磅!2020国家科学技术奖全名单公布!

来源&#xff1a;软科 2021年11月3日&#xff0c;2020年度国家科学技术奖励大会在人民大会堂正式召开。备受关注的国家最高科学技术奖&#xff0c;授予了中国航空工业集团有限公司顾诵芬院士和清华大学王大中院士。国家最高科学技术奖自2000年正式设立&#xff0c;是中国科技界…

PHP 常用数据库操作

1.建立与数据库服务器的连接&#xff08;前提数据库服务器必须打开&#xff09; 第一个参数&#xff1a;本地地址 第二个参数&#xff1a;数据库账户 第三个参数&#xff1a;数据库密码 第四个参数&#xff1a;数据库名称 $connection mysqli_connect(127.0.0.1, root, 密码, …

计算机网络——数据链路层的概述

1.数据链路层的基本概念 \qquad结点&#xff1a;主机、路由器 \qquad链路&#xff1a;网络中两个结点之间的物理通道&#xff0c;链路的传输介质主要有双绞线&#xff0c;光纤&#xff0c;微波。分为有线链路和无线链路。 \qquad数据链路&#xff1a;网络中两个结点之间的逻辑通…