InternLM2-Math-Plus全面升级,全尺寸最强的开源数学模型

总览

数学能力是大语言模型推理水平的重要体现。上海人工智能实验室在推出领先的开源数学模型InternLM2-Math的三个月之后对其进行了升级,发布了全新的 InternLM2-Math-Plus。升级后的 InternLM2-Math-Plus 在预训练和微调数据方面进行了全面的优化,显著提高了其在自然语言推理、代码解题以及形式化数学语言上的性能。模型包括了 1.8B、7B、20B、8x22B 四种不同尺寸的版本,其中 1.8B、7B、20B 版本基于 InternLM2 基座,而 8x22B 版本则基于 Mixtral-8x22B 基座。 我们在权威数学测试集 MATH(英文)和 MathBench(中英文)上进行了自然语言数学能力的测试。在性能方面,在每个级别的模型都超过了该级别的开源 SOTA 模型,其中 7B 版本则超过了 7B 的最强开源模型 Deepseek-Math-7B-RL,而 8x22B 的表现超过了国内的闭源模型且可以和 GPT-4-Turbo 相媲美。 在 MATH 测试集上,1.8B、7B、20B、8x22B 参数版本在 MATH 测试中的得分分别为 37.0、53.0、53.8 和 58.1 分。借助 Python 解释器,InternLM2-Math-Plus 在 MATH 上可以进一步取得 41.5、59.7、61.8 和 68.5 分的成绩,创开源模型的新高。 除此之外,InternLM2-Math-Plus 通过强化学习强化了形式化语言证明数学定理的能力。我们在开源数据集 MiniF2F-test 上进行了测试,其包含了不同难度的初高中数学竞赛中的题目。InternLM2-Math-Plus 在 MiniF2F-test 上达到了43.4 (pass@1)的性能,超过了之前 Meta 的算法 HTPS 的 41.0 的性能。 InternLM2-Math-Plus 的代码和模型完全开源,并支持免费商用。

  • GitHub:https://github.com/InternLM/InternLM-Math

  • Huggingface:https://huggingface.co/internlm

  • 技术报告:https://arxiv.org/abs/2402.06332

  • 在线试用:https://huggingface.co/spaces/internlm/internlm2-math-7b

下图是 InternLM2-Math-Plus 正确地解决了 2023 的高考题目的例子:

下图是 InternLM2-Math-Plus 通过代码解释器正确解决中国高中数学联赛一试题目的例子:

预训练和微调策略改进

InternLM2-Math-Plus 更新了预训练数据清洗的管线,从网页、书籍、论坛、代码等渠道重新清理了约百B的预训练数据,保证了模型在继续预训练阶段尽可能学到广泛的数学知识。在微调阶段,我们使用专家迭代的算法进行微调数据的构造。在每轮训练时,我们使用当前的 SFT 数据训练我们的模型,并用模型的自洽投票更新 SFT 数据。模型的最终微调来自多轮迭代后的训练数据。实践发现,专家迭代算法在不同参数量的模型(1.8B、7B、20B、8x22B)和不同任务(自然语言推理、Python 推理、形式语言证明)上都有提升。

媲美闭源模型的数学性能

我们先在数学榜单 MATH 上检验我们模型的性能。相比于 InternLM2-Math,InternLM2-Math-Plus 在自然语言数学推理和代码数学解题上都有明显的提升。在不同参数量的模型中,InternLM2-Math-Plus 都为同尺寸的最强开源模型。InternLM2-Math-Plus-Mixtral8x22B 在 MATH 上的准确率为 58.1(使用自然语言推理)、68.5(使用Python),刷新了开源模型的性能上限。

大多数数学模型都在 MATH 和 GSM8K 上进行了领域内增强,为了检测模型的泛化能力。我们测试了模型在 MathBench 上不同学段的应用题性能。可以看出模型在不同的学段都表现出一致的优越性,性能整体超过 Llama3、Qwen、Deepseek 等系列模型。InternLM2-Math-Plus-Mixtral8x22B 的性能更超过了 Qwen-Max-0428、Deepseek-V2、Llama-3-70B-Instruct 等重量级模型,和 Claude-3 Opus 表现得旗鼓相当。InternLM2-Math-Plus 系列在大学、高中等难度更大的题目上优势更大。

增强的形式化数学语言能力

语言模型在数学解题上已经有了长足的进步,但还不擅长数学定理的证明。人类本身也很难判定模型定理证明的正确性。形式化数学语言(如 LEAN、Coq 等)可以用来自动判别数学定理的正确性。除了更强的自然语言和 Python解题能力,InternLM2-Math-Plus 对形式化数学语言 LEAN 4 增强了适配。InternLM2-Math-Plus 通过多轮主动学习提升了自然语言和 LEAN 语言的双向翻译能力,通过专家迭代大幅增强了定理证明的能力。InternLM2-Math-Plus-7B在MiniF2F-test 的数据集上获得了单次采样 43.4 的证明准确率。超过了 Meta 的闭源 HTPS 算法的 41.0 的性能,也优于 Deepseek-Prover 的 30.0 的单次采样证明率。(注释为人做的解释,并非模型生成)

总结

InternLM2-Math-Plus 对自然语言能力和形式推理能力都进行了全面升级,成为开源数学模型的新标杆。InternLM2-Math-Plus 的未来发展方向是基于自然语言推理能力、Python 计算能力、LEAN 的证明能力三者融合的自我迭代提升。InternLM2-Math-Plus 在各项数学能力上都得到了提升。 为了进一步推动对语言模型的理解和数学能力的发展,我们希望与学术社区和研究人员一起合作,共同探索如何提升语言模型在数学推理上的能力。我们在这个方向长期招聘实习生,欢迎感兴趣的同学投递openmmlab@pjlab.org.cn进行咨询。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/17445.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【二叉树】非递归实现前中后序遍历

目录 前言 算法思想 非递归实现前序遍历 过程分析 代码 非递归实现中序遍历 过程分析 代码 非递归实现后序遍历 过程分析 代码 前言 1)前序:根 左子树 右子树 2)中序:左子树 根 右子树 3)后序&#xff1…

邮箱调用接口的服务有哪些?怎么配置接口?

邮箱调用接口安全性如何保障?使用邮箱服务器的方法? 邮箱调用接口为各种应用和系统提供了便捷的电子邮件发送与接收功能。选择合适的邮箱调用接口服务可以大大提升工作效率和用户体验。本AokSend将探讨一些主要的邮箱调用接口服务。 邮箱调用接口&…

MySQL(进阶)--索引

目录 一.存储引擎 1.MySQL体系结构​编辑 2.存储引擎简介 3.存储引擎特点 (1.InnoDB (2.MyISAM (3.Memory 4.存储引擎选择 二.索引 1.索引概述 2.索引结构 3.索引分类 4.索引语法 (1.创建索引 (2.查看索引 (3.删除索引 5.SQL性能分析 (1.SQL执行频率 (2.慢查…

【Sql Server】随机查询一条表记录,并重重温回顾下自定义函数的封装和使用

大家好,我是全栈小5,欢迎来到《小5讲堂》。 这是《Sql Server》系列文章,每篇文章将以博主理解的角度展开讲解。 温馨提示:博主能力有限,理解水平有限,若有不对之处望指正! 目录 前言随机查询语…

Android 中资源文件夹RES/RAW和ASSETS的使用区别

文章目录 1、res/raw 文件夹1.1、特点1.2、使用方法1.3、示例: 2. assets 文件夹2.1、特点2.2、使用方法2.3、示例: 3、使用场景3.1、res/raw 使用场景3.2、assets 使用场景 4、比较与选择5、文件夹选择的建议6、 示例代码总结6.1、res/raw 示例6.2、ass…

电瓶车进电梯识别报警摄像机

随着电动车的普及,越来越多的人选择电动车作为出行工具。在诸多场景中,电梯作为一种常见的交通工具,也受到了电动车用户的青睐。然而,电动车进入电梯时存在一些安全隐患,为了提高电动车进电梯的安全性,可以…

小程序自动化辅助渗透脚本(2024)

简介 1.还在一个个反编译小程序吗? 2.还在自己一个个注入hook吗? 3.还在一个个查看找接口、查找泄露吗? 现在有自动化辅助渗透脚本了,自动化辅助反编译、自动化注入hook、自动化查看泄露 注:本工具仅用于学习交流&…

Java中的JSON神器,如何轻松玩转复杂数据结构

哈喽,大家好,我是木头左! 一、揭秘JSON世界的基石 在Java的世界中,JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,它基于文本,易于阅读和编写,同时也易于…

站内信设计

参考文章:https://cloud.tencent.com/developer/article/1684449 b站站内信业务设计: 消息的类型分为: 1、系统消息 2、、点赞、回复等用户行为之间的消息(事件提醒) 3、用户之间的消息 系统消息 用一个用户消息表可以吗? 可…

XS2185一款八通道以太网供电控制器

XS2185是一款八通道以太网供电控制器。 XS2185通过侦测各通道的DET管脚输入电压 来判断是否有合格的负载/PD接入系统,以决定 是否开启MOS供电开关。 当通道已经处于供电状态时,XS2185通过侦 测SENSE管脚的输入电压,以判断供电是否发生 …

免费,Python蓝桥杯等级考试真题--第15级(含答案解析和代码)

Python蓝桥杯等级考试真题–第15级 一、 选择题 答案:B 答案:D 解析:集合的并集运算有两种方式,一种是使用“|”运算符进行操作,另一种是使用union()方法来实现,故答案为D。 答案:A 解析&…

Caused by: java.lang.IllegalArgumentException: Unknown flag 0x1000

Dubbo使用Tomcat安装admin2.5.x管理平台时发生的错误: Caused by: java.lang.IllegalArgumentException: Unknown flag 0x1000 解决方法: 将本地的jdk环境变量切换成jdk8即可。

[ C++ ] 类和对象( 下 )

初始化列表 初始化列表:以一个冒号开始,接着是一个以逗号分隔的数据成员列表,每个"成员变量"后面跟 一个放在括号中的初始值或表达式。 class Date { public: Date(int year, int month, int day): _year(year), _month(month), _d…

视频汇聚/云存储/安防监控EasyCVR接入GB28181设备未回复ack信息的原因排查

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。 用户反馈,设备通过国标GB28181注…

kubeadm引导欧拉系统高可用的K8S1.28.X

文章目录 一. 核心组件架构二. 有状态与无状态应用三. 资源对象3.1 规约与状态3.2 资源的分类-元数据,集群,命名空间3.2.1 元数据3.2.2 集群资源 3.3 命名空间级3.3.1 pod3.3.2 pod-副本集3.3.3 pod-控制器 四. Kubeadm安装k8s集群4.1 初始操作4.2 ~~所有节点安装Docker&#x…

关于高性能滤波器和普通型滤波器的区别说明

高性能滤波器和普通型滤波器在性能和滤波效果上存在显著差异。以三安培为代表分析高性能滤波器和普通型滤波器的区别: 从上图曲线可看出: 1.高性能滤波器和普通型滤波器的滤波范围不同。普通型滤波器有效滤波范围为 150KHz~30MHz,而高性能滤…

【css3】02-css3新特性之选择器篇

目录 1 属性选择器 2 结构伪类选择器 3 其他选择器 :target和::selection ::first-line和::first-letter 4 伪类和伪元素的区别 伪类(Pseudo-classes) 伪元素(Pseudo-elements) 伪类和伪元素的区别 1 属性选择器 ☞ 属性选…

螺旋矩阵(算法题)

文章目录 螺旋矩阵解题思路 螺旋矩阵 给你一个正整数 n ,生成一个包含 1 到 n2 所有元素,且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1: 输入:n 3 输出:[[1,2,3],[8,9,4],[7,6,5]]解题思路 模…

人类和小鼠转录组上游分析

基础软件 conda install cutadapt, trimmomatic, samtools, hisat2, subread, deeptools -y人类转录组上游分析 # 样本名称 sample_namesample# 线程 threads4# 双端测序原始fastq1和fastq2路径 fastq1_path/path/${sample_name}_1.fq.gz fastq2_path/path/${sample_name}_2.…

5倍收益秘诀:APP广告如何变现?

在这个数字时代,智能手机几乎成了我们生活中不可或缺的一部分。无论是早晨醒来的第一件事,还是睡前的最后一件事,手机都与我们紧密相连。而在这个连接的世界里,APP广告变现成为了一个热门话题,它不仅仅是将每一次点击转…