今日arXiv最热大模型论文:清华大学发布,ChatGML又添新功能,集成“自我批评”,提升数学能力

引言:数学问题解决在大语言模型中的挑战

在当今的人工智能领域,大语言模型(Large Language Models,LLMs)已经在理解和生成人类语言方面取得了显著的进展。这些模型在文本摘要、问答、角色扮演对话等多种语言任务上展现出了惊人的能力。然而,当这些模型被应用于需要数学推理的复杂问题时,它们的表现往往不尽如人意。尽管开发了许多策略和数据集来增强LLMs在数学方面的能力,但在实际部署的LLM系统中同时保持和提升语言和数学能力仍然是一个显著的挑战。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

传统的通过人类反馈进行强化学习(Reinforcement Learning from Human Feedback,RLHF)方法主要是通过反映人类偏好的奖励模型来增强文本生成的质量。虽然这种方法提升了生成文本的质量,但它通常忽视了解决数学问题所必需的准确性和逻辑连贯性,导致在数学推理任务上的表现出现所谓的“对齐税”(alignment tax)。与此相反,旨在增强LLMs数学能力的尝试通常涉及到监督式微调(Supervised Fine-tuning,SFT),这不可避免地会降低它们在语言多样性上的表现,为LLM系统的实际应用带来了困境。

本文介绍了一种新颖的方法,旨在提升LLMs在语言和数学技能上的能力,而不会牺牲其中的任何一个。我们的策略与传统的RLHF方法不同,它包含了从LLM自身派生出的数学批判模型(Math-Critique model),该模型用于评估其数学输出。这种自我批判机制使模型能够从专门针对数学内容的AI生成反馈中学习。

论文标题:
ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline

论文链接:
https://arxiv.org/pdf/2404.02893.pdf

自我批判管道(Self-Critique Pipeline)的介绍

在优化大语言模型(LLMs)的过程中,研究者们面临着一个显著的挑战:如何在不牺牲语言理解能力的前提下,提升模型在数学问题解决方面的性能。传统的强化学习方法虽然能够提高文本生成的质量,但往往忽视了解决数学问题所需的准确性和逻辑一致性。为了解决这一问题,本文介绍了一种新颖的自我批判管道(Self-Critique Pipeline),旨在同时提升LLMs的数学和语言能力。

我们的自我批评管道能够同时提高语言和数学能力。

自我批判管道包括两个主要阶段

1. 拒绝性微调(Rejective Fine-tuning, RFT):在此阶段,采用拒绝采样技术,即淘汰不符合Math-Critique标准的响应,而将其余响应进一步微调。这一阶段的目标是提高模型在数学回答方面的准确性和一致性,同时确保所选答案的多样性。

2. 直接偏好优化(Direct Preference Optimization, DPO):在RFT的基础上,通过直接从正确和错误答案对中学习,进一步提炼通过Math-Critique的答案,重点解决上一阶段中最具挑战性的问题。

自我批判管道的引入,不仅提升了LLMs在数学问题解决方面的性能,而且还改善了其语言能力。通过在ChatGLM3-32B模型上的一系列实验,结果表明,该管道显著增强了LLMs的数学问题解决能力,并在MATHUSEREVAL等数据集上取得了优于规模更大两倍的LLMs的性能。

ChatGLM-Math的自我评价管道

Math-Critique模型的设计与实现

Math-Critique模型的设计灵感来源于利用大模型进行评估的工作。该方法通过对模型生成的数学回答进行评分,包括解释性分析和1到10之间的分数输出,与传统的奖励模型相比,Math-Critique利用语言模型的上下文能力,通过整合参考答案,实现更准确的判断。

在Math-Critique的指导下,回答被分类为完全错误、部分正确的方法但结果错误、准确的结论但方法部分有缺陷和完全正确四个类别。这些类别与1-2、3-5、6-8和9-10的评分范围相对应。

Math-Critique的实现包括以下步骤:

  • 从训练数据中筛选出包含数学问题及其参考答案和模型响应的数据集,主要来源于从初中到大学级别的考试题目。

  • 使用CritiqueLLM和ORM对数据集进行注释,选择代表最好和最差评分极端的注释,并直接用这些伪标签进行训练,共生成了10k条注释数据。

  • 对于中间范围的分数结果,选择一部分进行手动注释,分为四个类别,然后将这些结果映射到10分制上。同时,从训练数据集中划分出一个测试集,并采用相同的四类别注释方法,生成了5k条训练数据和800条测试数据。

Math-Critique模型的训练过程中,基于ChatGLM3-32B作为初始的Math-Critique基础模型,每次迭代后,通过SFT或Critique RFT精炼的当前模型将作为基础。使用的学习率为3e-6,批量大小为128,适用于6B和32B规模的模型。

自我批判管道中,Math-Critique模型的数据构建仅涉及少量的手动注释。这批注释是一次性的努力,因为只需要这批注释数据作为其余迭代的引导。之后,所有剩余步骤都可以通过推理和自动模型过滤来完成。

MATHUSEREVAL数据集的创建

在创建MATHUSEREVAL数据集的过程中,研究团队采取了一系列步骤以确保数据集能够准确评估大语言模型(LLMs)在解决实际数学问题方面的能力。

MATHUSEREVAL数据集的特点是包含了一系列多样化的问题,这些问题不仅仅局限于学术练习,还扩展到了实际应用场景,更好地反映了用户的需求,与传统的学术数学数据集相比,它提供了一个更高标准的实际数学推理能力评估。

1. 数据集来源

数据集的主要来源包括公开数据集的训练集和公开可用的中学及大学考试题。研究团队从GSM8k和MATH训练集中挑选了所有提示作为英文数据的问题集,并使用原始数据集中的回答作为标准答案。对于公开可用的中学和大学考试题,研究者使用了考试试卷提供的答案格式作为通用答案,无需进一步处理。

2. 数据集分类

基于收集到的数据分布,研究团队将测试集分为两个主要类别:基础数学和高级数学,并进一步细分为八个子类别。由于计算应用类问题难度较低,且与之前公开数据集的范围较为一致,因此在此类别中选择的问题较少。所有问题都以开放式格式提出,可能的答案包括单个数字、多个数字或数学表达式。

3. 评估方法

研究团队提供了两种评估方法:GPT-4-1106——Preview评估和Math-Critique评估。前者采用alignbench的评估方法,以提供更准确、公平和可访问的评估方式;后者则采用与上述Math-Critique相同的使用方式。同样,研究团队也将报告两种类型的分数:平均分和硬分割分。

实验结果与分析

在实验中,研究团队使用了ChatGLM3-32B-SFT-2312版本作为基线模型。RFT阶段在所有数学数据集上都显著提高了性能。相比之下,DPO阶段的改进集中在开放式数学问题上,包括MATHUSEREVAL、匈牙利考试和通用的AlignBench。

尽管研究者们在MT-bench上的改进不显著,但考虑到超过90%的训练数据是中文,研究者们认为保持平衡本质上表明我们的方法保留了原始的英文通用或多轮能力。

与专有模型相比,特别是OpenAI的GPT系列,GLM-4在特定领域展示了竞争性或更优越的性能。例如,GPT-4-1106-Preview在大多数任务中表现最佳,包括在中英文基准测试中的最高分,突显了其在各种数学问题解决环境中的有效性。

然而,GLM-4在Ape210k和AlignBench基准测试中超越了它,表明了在数学推理和跨语言泛化方面的特定优势。

1. 数据组成的影响

研究团队选择了相对较强的Metamath训练集作为基线。在应用Critique-RFT之后,发现仅使用学术数据集构建RFT数据在面向现实生活场景的MATHUSEREVAL和学术测试集上的性能不如在整合了现实生活场景数据之后的结果。

此外,引入英文数据显著提高了英文数据集的性能,而不会对中文能力产生实质性影响。

2. 对一般能力的影响

考虑到目标不是开发一个专门的数学模型来攀登排行榜,而是一个具有强大数学能力的通用模型,研究者们使用Alignbench测试了结果,这是一个中文通用开放式问答数据集。结果表明,模型在中文语言能力方面超过了不包含专门数学数据的类似基线模型的训练成果。此外,与其他开源中文数学/通用模型相比,它的表现也非常出色。

在英文通用能力方面,使用MT-Bench作为测试集。考虑到超过90%的训练数据是中文,MT-Bench上的结果在训练过程中基本保持不变,表明英文语言能力没有受到显著影响。

3. Math-Critique的有效性

在手动注释过程中,收集了800个问题的测试集,所有这些问题都根据答案和程序的正确性进行了手动标记,从而形成了一个四类测试;Math-Critique的输出结果根据指令的要求映射到这四个类别。

研究者们通过实证实验验证了Math-Critique本身的有效性。设置了两种评估方法:直接评分判断正确/错误结果的准确性和判断我们定义的四个类别的准确性。从中国初高中考试题和MATHUSEREVAL中提取了测试集,并由专家注释正确判断。

结果表明,Math-Critique-32B模型在判断准确性和与人类注释相比的相关系数方面显著超过了GPT-3.5-Turbo,并且基本与GPT-4-0613持平。

4. 超出分布测试

遵循Grok-1的方法,为了测试超出分布数据集的性能,选择了匈牙利国家期末考试。这是一个没有训练集的33个考试问题的测试集,其优势在于它允许评估模型在完全OOD环境中的数学能力。

使用人类专家评估,研究者们发现在32B模型规模下,RFT模型得分为57,而DPO模型得分为73。然而,需要注意的是,由于模型的主要语言是中文,如果模型用中文正确回答,通常会给予评分。研究者们计划在未来的模型中解决这个问题。

模型在数学问题解决中的错误案例分析

在数学问题解决的实际应用中,大语言模型(LLMs)虽然在语言理解方面表现出色,但在数学问题的准确性和逻辑一致性方面仍存在挑战。这些挑战通常归因于模型在训练过程中的对齐税(alignment tax),即在数学推理任务上应用常规的文本生成增强方法时,可能会导致性能的不一致。

讨论与未来工作

本研究提出了自我批评(Self-Critique)管道,旨在提高LLMs的数学问题解决能力,同时保持其语言能力。通过自我生成的反馈,我们的方法在不需要外部监督模型和手动注释的情况下,显著提高了LLMs在MATHUSEREVAL等数据集上的数学问题解决能力。

1. 未来工作方向

  • 图形思维和绘图能力:目前的模型在处理需要绘图的问题上存在不足,未来可以探索集成多模态输入和输出组件的方法。

  • 精确计算能力:模型在处理多位小数的乘法、除法或指数运算时可能会出现高达5%的偏差。未来的工作可以考虑使用外部工具进行计算或直接使用带有代码解释器的代码。

  • 模型的通用能力:目标是开发一个具有强大数学能力的通用模型,而不仅仅是为了领先排行榜。未来的研究可以继续探索如何在增强特定能力的同时保持模型的通用性。

2. 结论

本研究证明了自我批评方法在提高LLMs数学问题解决能力方面的有效性,并在多个数据集上取得了优于现有开源和专有模型的结果。该方法已经在GLM-4的开发过程中应用,以提高其数学能力,并在MATHUSEREVAL等数据集上取得了最佳结果。未来将继续探索和改进这些方法,以进一步提高模型在实际应用中的表现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/813195.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

现在租一个服务器多少一个月啊?

现在租一个服务器多少一个月?优惠价格低至3.8元1个月,租用一个月云服务器收费价格表:阿里云和腾讯云2核2G3M服务器优惠价格61元一年,折合一个月5元,京东云轻量云主机5.8元一个月,华为云服务器优惠价格3.8元…

CSS设置内外边距

目录 内边距(paddingj): 前言: 设置内边距: 外边距(margin): 前言: 设置外边距: 补充(折叠): 内边距(padding)&#…

阿里云服务器怎么购买价格更便宜?优惠大揭秘!

阿里云服务器租用价格表2024年最新,云服务器ECS经济型e实例2核2G、3M固定带宽99元一年,轻量应用服务器2核2G3M带宽轻量服务器一年61元,ECS u1服务器2核4G5M固定带宽199元一年,2核4G4M带宽轻量服务器一年165元12个月,2核…

cesium 平滑显示billboard 透明度

描述:加载billboard的时候,要么是显示,要么是隐藏,不能平滑的显示,有个从不显示到显示的过程 解决方案:创建billboard的时候给一个color,颜色为(255,255,255),透明度从0-1 let opaci…

A Learning-Based Approach for IP Geolocation(2010年)

下载地址:Towards IP geolocation using delay and topology measurements | Proceedings of the 6th ACM SIGCOMM conference on Internet measurement 被引次数:185 Eriksson B, Barford P, Sommers J, et al. A learning-based approach for IP geolocation[C]//Passive …

【UE Niagara】自定义模块的简单使用

效果 步骤 新建一个Niagara系统,使用“Empty”模板,这里命名为“NS_Custom” 打开“NS_Custom”,添加一个“Spawn Burst Instantaneous”来单次生成1个粒子 在“Emitter State”模块中,设置生命循环模式为“Self”,循…

【vue】toRef,toRefs

toRef&#xff1a;把一个 响应式对象 转换为对应的ref变量toRefs&#xff1a;把一个 响应式对象 转换为对应的ref对象 代码 <template><P>mname: {{ mname }} </P><P>mage: {{ mage }} </P><P>msex: {{ msex }} </P><P>mhobb…

购物车实现

目录 1.购物车常见的实现方式 2.购物车数据结构介绍 3.实例分析 1.controller层 2.service层 1.购物车常见的实现方式 方式一&#xff1a;存储到数据库 性能存在瓶颈方式二&#xff1a;前端本地存储 localstorage在浏览器中存储 key/value 对&#xff0c;没有过期时间。s…

配置VM开机自启动

1. 在此电脑-右键选择“管理”-服务和应用程序-服务中找到VMware Workstation Server服务&#xff08;新版名称也可能是VMware自启动服务&#xff0c;自己找一下&#xff0c;服务属性里有描述信息的&#xff09;&#xff0c;将其启用并选择开机自动启动 新版参考官方文档&…

蓝桥杯【第15届省赛】Python B组

这题目难度对比历届是相当炸裂的简单了…… A&#xff1a;穿越时空之门 【问题描述】 随着 2024 年的钟声回荡&#xff0c;传说中的时空之门再次敞开。这扇门是一条神秘的通道&#xff0c;它连接着二进制和四进制两个不同的数码领域&#xff0c;等待着勇者们的探索。 在二进制…

ReactRouter

React-Router 概念&#xff1a;一个路劲path对应一个组件component 当我们在浏览器中访问一个path的时候&#xff0c;path对应的组件会在页面中进行渲染路由语法&#xff1a; import {createBrowserRouter, RouterProvider} from react-router-dom// 1. 创建router实例对象并…

【算法刷题 | 回溯思想 02】4.12(电话号码的字母组合)

文章目录 4.电话号码的字母组合4.1问题4.2解法&#xff1a;回溯4.2.1回溯思路&#xff08;1&#xff09;函数返回值以及参数&#xff08;2&#xff09;终止条件&#xff08;3&#xff09;遍历过程 4.2.2代码实现 4.电话号码的字母组合 4.1问题 给定一个仅包含数字 2-9 的字符…

threejs 基础知识点汇总

threejs 基础知识点汇总 之前写了几篇博文&#xff0c;但是我觉得写的不好&#xff0c;我今天再补充一篇还不好的&#xff0c;把基础知识点汇总一下&#xff0c;不写运行的代码了&#xff0c;只写关键代码&#xff0c;但是看了之前我写的那几篇&#xff0c;看这篇的话问题其实不…

jdk17 你还想用ScriptEngineManager来执行js代码?

今天要用java来执行配置表的js代码&#xff0c;用 ScriptEngine javaScriptEngine new ScriptEngineManager().getEngineByName(“javascript”); 一直抛异常&#xff1a;Cannot invoke “javax.script.ScriptEngine.eval(String)” because “javaScriptEngine” is null 网上…

Springboot集成Elastic-job

ElasticJob 通过弹性调度、资源管控、以及作业治理的功能&#xff0c;打造一个适用于互联网场景的分布式调度解决方案&#xff0c;并通过开放的架构设计&#xff0c;提供多元化的作业生态。 1 项目集成 1.1 springboot项目配置 导入依赖&#xff1a; <!--mysql连接基本配…

SSL证书添加与ICP备案,对于SpringBoot的要求

配置了SSL证书之后&#xff0c;在SpringBoot的resources文件夹里的application.properties会添加以下代码&#xff1a; server.port443 不需要添加server.address。不然会报错。 https类型的请求默认在Postman里面不可请求。 经过SSL证书处理的网页&#xff0c;链接中使默认…

LDRA Testbed软件静态分析_常见问题及处理

系列文章目录 LDRA Testbed软件静态分析_操作指南 LDRA Testbed软件静态分析_自动提取静态分析数据生成文档 LDRA Testbed软件静态分析_Jenkins持续集成_(1)自动进行静态分析的环境搭建 LDRA Testbed软件静态分析_Jenkins持续集成_(2)配置邮件自动发送静态分析结果 LDRA Testb…

水经微图IOS版5.2.0发布

随时随地&#xff0c;微图一下&#xff01; 水经微图&#xff08;简称“微图”&#xff09;IOS新版已上线。 在该版本中主要新增图层树节点排序功能、常规&#xff08;矩形、圆、椭圆、扇形&#xff09;绘制功能、地形夸张等主要功能。 当前版本 当前版本号为&#xff1a;5…

鹏哥C语言复习——数据存储

目录 版本差异&#xff1a; 数据类型&#xff1a; 进制表示&#xff1a; 大小端储存&#xff1a; 数据运算&#xff1a; 浮点型在内存中的存储&#xff1a; 版本差异&#xff1a; debug和release的区别&#xff1a; 在栈区开辟地址一般是先从高地址开辟 debug创建数组和单…

Project Euler_Problem 172_Few Repeated Digits_动态规划

原题目&#xff1a; 题目大意&#xff1a;18位数里头&#xff0c;有多少个数&#xff0c;对于每个数字0-9&#xff0c;在这18位里面出现均不超过3次 111222333444555666 布星~~ 112233445566778899 可以~~ 解题思路&#xff1a; 动态规划 代码: ll F[19][3000000];void …