Common 7B Language Models Already Possess Strong Math Capabilities

Common 7B Language Models Already Possess Strong Math Capabilities

相关链接:arxiv
关键字:Language ModelsMath CapabilitiesLLaMA-2 7BSynthetic DataSFT Data Scaling

摘要

以前人们认为,通用语言模型展现出的数学能力只有在非常大的规模上或需要大量与数学相关的预训练才能出现。本文表明,经过常规预训练的LLaMA-2 7B模型已经具备了强大的数学能力,从256次随机生成中选择最佳答案的准确性可达97.7%和72.0%,分别在GSM8K和MATH基准测试中。当前基模型的主要问题是难以一贯地激发其固有的数学能力。显著地,GSM8K和MATH基准测试的第一答案准确率分别下降到49.5%和7.9%。我们发现简单地扩大SFT数据规模可以显著增强生成正确答案的可靠性。然而,由于公共数学题的数量有限,扩展潜力受到限制。为了克服这个限制,我们采用了生成合成数据的方法,这些合成数据几乎与真实数据一样有效,当规模扩大到约一百万个样本时,没有明显的饱和迹象。这种简单的方法使用LLaMA-2 7B模型在GSM8K上达到了82.6%的准确性,在MATH上达到了40.6%的准确性,分别超过了以前的模型14.2%和20.8%。我们还提供了不同推理复杂性和错误类型的规模扩张行为的洞见。

核心方法

  • LLaMA-2 7B模型验证:在不具备与数学相关的特定预训练的情况下,LLaMA-2 7B模型已能解决数学问题。
  • 随机生成多样性增强:通过加温度控制,提高多次尝试中生成正确答案的多样性。
  • 不稳定性问题:虽然256次生成中通常包含正确答案,但从中提取正确答案无保证,这被称作"不稳定性问题"。
  • 使用真实数学问题进行规模扩张:通过扩大真实数学问题的SFT数据,可在一定程度上解决不稳定性问题。
  • 采用合成数据:通过GPT-4 Turbo API生成的合成数学问题,以实现SFT数据的进一步规模扩张。
  • 简单的数据生成方法:通过三步简单的方法,使用GPT-4 Turbo API生成全新的数学问题和解决方案,提升合成问题的有效性。

实验说明

模型GSM8KMATH
LLaMA-2 7B (真实数据)26.7% - 50.2%4.2% - 8.4%
LLaMA-2 7B (合成数据)25.9% - 49.5%3.9% - 7.9%
LLaMA-2 7B (256次生成)97.7%72.0%
LLaMA-2 7B (优选答案)49.5%7.9%
LLaMA-2 13B88.1%44.9%
LLaMA-2 70B90.6%52.8%

通过上述方法,研究团队有效扩大了SFT数据的规模,并在GSM8K和MATH问题上取得了较高的准确性,与以往使用相同预训练基模型的方法相比,我们的方法表现出显著的性能提升。

结论

本研究表明,7B规模的通用语言模型,如LLaMA-2 7B,已经表现出了强大的数学能力,挑战了先前的看法,即先进的数学推理是更大、经过更深入预训练的模型所特有的。通过显著扩大SFT数据规模,我们极大地提高了模型解决数学问题的稳定性。我们的方法使Xwin-Math模型的性能达到了与其较大对等模型相当,甚至在某些情况下超过了它们的水平。我们的分析表明,性能的提升主要归因于在单步推理准确性的提高,同时额外的训练数据重采样可以提高较难问题的准确性。此外,我们观察到与逻辑推理错误相比,计算错误的减少更为显著。我们的研究为大型语言模型的数学能力提供了宝贵的洞见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/738158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HTML5:七天学会基础动画网页11

CSS3动画 CSS3过渡的基本用法: CSS3过渡是元素从一种样式逐渐改变为另一种样式的效果。 过渡属性-transition 值与说明 transition-property 必需,指定CSS属性的name,transition效果即哪个属性发生过渡。 transition-duration 必需,t…

深入浅出计算机网络 day.2 概论⑥ 计算机网络体系结构

上帝疯狂杜撰世界悲情的命题 将凉薄和荒芜尽写 —— 24.3.12 内容概述 1.常见的三种计算机网络体系结构 2.计算机网路体系结构分层的必要性 3.计算机网络体系结构分层思想举例 4.计算机网络体系结构中的专用术语 一、常见的三种计算机网络体系结构 OSI参考模型 TCP/IP参…

剑指offer面试题33 把数组排成最小的数

考察点 大数,快排知识点 题目 分析 本题目给一个整型数组,要求他能排出来的最小的数字。这道题目我们大可以通过排列的方式枚举出所有的数字然后求一个最小的,只不过这种方式时间复杂度非常高。接下来我们通过举例的方式观察我们的思维和数…

linux shell函数

linux shell脚本默认一般是从头到尾执行,但是有时我们会发现有些脚本段间互相重复,这时我们会考虑是否有一种方法允许将一组命令集或语句形成一个可用快,以方便“引用”,这就是我们即将介绍的linux shell函数 1.function格式 fu…

深入理解Java中的线程安全List:CopyOnWriteArrayList原理和应用

码到三十五 : 个人主页 心中有诗画,指尖舞代码,目光览世界,步履越千山,人间尽值得 ! 在Java并发编程中,线程安全的数据结构是至关重要的。其中,CopyOnWriteArrayList是一个线程安全的ArrayLis…

HBase非关系型数据库

HBase非关系型数据库 1 什么是HBase2 HBase的特点3 什么时候需要HBase4 HBase的数据模型5 HBase架构5.1 架构5.2 HBase如何列式储存 6 如何正确设计RowKey 1 什么是HBase HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据…

【More Effective C++】条款35:将非尾端类设计为抽象类

考虑以下继承场景: 通过指针的赋值会出现部分赋值的情况:只修改了Animal的数据成员,Lizard数据没有被修改 class Animal { public:Animal(int data):data(data) {}Animal& operator(const Animal& rhs) {if (&rhs this) retur…

第100+1步 ChatGPT文献复现:ARIMAX预测肺结核 vol. 1

基于WIN10的64位系统演示 一、写在前面 各位大佬,好久不见。 《100步入门机器学习》肝完了,不懂大家学了多少了,默认你们都学完了吧。 今年我们换一个玩法(灌水):一系列更接近实战的教程,复…

(黑马出品_07)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式

(黑马出品_07)SpringCloudRabbitMQDockerRedis搜索分布式 微服务技术分布式搜索 今日目标1.数据聚合1.1.聚合的种类1.2.DSL实现聚合1.2.1.Bucket聚合语法1.2.2.聚合结果排序1.2.3.限定聚合范围1.2.4.Metric聚合语法1.2.5.小…

6.S081的Lab学习——Lab1: Xv6 and Unix utilities

文章目录 前言一、启动xv6(难度:Easy)解析: 二、sleep(难度:Easy)解析: 三、pingpong(难度:Easy)解析: 四、Primes(素数,难度:Moderate/Hard)解析&#xff1a…

node.js入门

一、cmd常用命令 windowsR 再输入cmd 打开命令提示符 (1)切换盘符 c: / d: (2)dir 查看全部内容 (3)cd 你需要打开的文件所处的大文件夹名字 (4)cd 大文件夹名再输入dir 查看该大文件里面的所有内容 (5)输出结果里 一个.表示当前目录,两个..表示上级目录 …

怎样在CSDN赚点零花钱

请教一下各位大佬,看到你们在CSDN很多都几万粉丝以上,能不能分享一下有什么涨粉的经验,还有怎样转化为额外收益……感谢各位提供宝贵的经验,谢谢……

文献阅读笔记:全卷积神经网络

文献阅读笔记:全卷积神经网络 摘要Abstract1. 全卷积神经网络1.1 文献摘要1.2 全卷积神经网络1.2.1 网络结构1.2.0 从分类器到密集 FCN1.2.2 上采样 Upsampling1.2.3 跳级结构1.2.4 FCN训练 1.3 实验1.4 总结 2. 代码实现 摘要 本周学习了全卷积神经网络&#xff0…

Acer宏碁非凡Swift SFG16-71工厂模式原厂Win11系统,预装OEM系统恢复开箱状态

宏基笔记本电脑SFG16-71原装出厂Windows11系统安装工厂包下载,带恢复重置功能 链接:https://pan.baidu.com/s/1JK02kBbwKG_cIBNlEOzrOw?pwdzdfm 提取码:zdfm 原装工厂包系统自带所有驱动、Office办公软件、出厂时自带主题壁纸图片、系统…

如何免费获取基于公网 IP 的 SSL 证书 (无需域名)

现在给网站安装SSL证书来实现网站的HTTPS安全访问已经成了大多数人的共识,但是有一些特殊情况:比如对于个别的应用IP地址不需要绑定域名,只是单纯用IP来访问网站,这种情况下,可以实现HTTPS访问吗? 先说答案…

vue-创建vue项目记录

安装node.js 先安装node.js的运行环境node.js的下载地址 安装后就可以使用npm命令 1、清除npm缓存:npm cache clean --force 2、禁用SSL:npm config set strict-ssl false 3、手动设置npm镜像源:npm config set registry https://registry.…

java8特性 stream流中map函数的使用

map 函数的作用就是针对管道流中的每一个数据元素进行转换操作。 例如 将集合中的每一个字符串&#xff0c;全部转换成大写&#xff01; List<String> collect alpha.stream().map(String::toUpperCase).collect(Collectors.toList()); //上面使用了方法引用&#xf…

10.5.8 优化 InnoDB 磁盘 I/O

如果您遵循了针对 SQL 操作的数据库设计和调优技术的最佳实践&#xff0c;但由于磁盘 I/O 活动频繁&#xff0c;数据库仍然很慢&#xff0c;请考虑这些磁盘 I/O 优化。如果 Unix top 工具或 Windows 任务管理器显示您的工作负载的 CPU 使用率低于 70%&#xff0c; 则您的工作负…

揭密无文件勒索病毒攻击,思考网络安全新威胁

前言 最近几年基于无文件攻击的网络犯罪活动越来越多&#xff0c;一些网络犯罪团伙开发了各种基于无文件攻击的恶意软件攻击套件&#xff0c;这些恶意软件攻击套件可用于勒索病毒、挖矿病毒、RAT远控、僵尸网络等恶意软件&#xff0c;在过去的几年时间里&#xff0c;无文件感染…

L1-8 静静的推荐(Python)

天梯赛结束后&#xff0c;某企业的人力资源部希望组委会能推荐一批优秀的学生&#xff0c;这个整理推荐名单的任务就由静静姐负责。企业接受推荐的流程是这样的&#xff1a; 只考虑得分不低于 175 分的学生&#xff1b;一共接受 K 批次的推荐名单&#xff1b;同一批推荐名单上…