基于ArqMATH 数据集探索大语言模型在数学问题推理解答中的能力

概述

论文地址:https://arxiv.org/pdf/2404.00344
源码地址:https://github.com/gipplab/llm-investig-mathstackexchange

大规模语言模型(LLMs)因其解决自然语言任务的能力而备受关注,在某些任务中,其准确性甚至可媲美人类。这些模型在翻译、代码编写和通过专业考试等各种任务中表现出色,并被用于知识提取、想法生成以及数据处理和比较。大规模语言模型在问题解答(QA)任务中也取得了成功,在这些任务中,自然语言为问题提供了类似于人类的答案;在 QA 中对大规模语言模型的评估已经证明了其有用性。它已被证明是有用的。

近年来,数学内容在科学、技术、工程和数学(STEM)领域日益受到重视,有鉴于此,评估大规模语言模型如何适应数学语言也非常重要。数学因其严密的逻辑和抽象的概念,需要用符号和语法组合复杂的专门语言来表达。与自然语言不同,数学表达依赖于未说明的规则和假设,需要明确的知识和高度的精确性。这意味着,即使在现代语言模型中,数学推理仍然是一项重大挑战。

本文研究了大规模语言模型回答数学开放式问题(不能用 "是/否 "回答的问题)的能力。MSE 包含从初等数学到高等数学的各种问题,要求应用正确的数学原理并对复杂的推理进行清晰易懂的解释。开放式问题的重点在于促进对数学概念的深刻理解,并为大规模语言模型提供了衡量数学推理技能进步的基准。

报告还评估了生成的响应,通过案例研究确定了挑战,并考虑了大规模语言建模的未来方向,以弥合理解自然语言和数学语言之间的差距。

数据集和方法

由于问题的多样性和所需的专业知识,手动验证数学堆栈交换(MSE)中问题的答案并不现实。为此,我们使用了 ArqMATH 竞赛数据集。该数据集是 MSE 问题-答案对的集合,第三届竞赛的[任务 1]侧重于从 MSE 中获取与78 道大学数学题相关的答案。评估由学生进行,每个题目平均有450 个回答被评为优秀。

本次评估使用了六种大型语言模型(ToRA、LLeMa、GPT-4、MAmmoTH、MABOWDOR 和 Mistral 7B)。实验还在两种情况下进行。

在第一种情况下(答案生成),使用选定的大规模语言模型分两个阶段回答 MSE 问题。首先,将 78 个问题交给大规模语言模型来生成答案。但是,MABOWDOR 使用的是基于 BERT 的密集段落检索(Dense Passage Retrieval),它只能生成嵌入。然后,生成的答案将作为嵌入索引,并与 ArqMATH 中的所有其他答案进行搜索,以找出最相似的答案。

在第二种情况(问题-答案比较)中,使用选定的大规模语言模型生成所有可能的 ArqMATH 答案嵌入以及 78 个问题嵌入。最后,找出与问题最相似的答案。

基准

这里使用平均精度 (mAP)、精度@10 (P@10)、归一化贴现累积增益 (nDCG) 和二进制偏好 (BPref) 来显示评估结果。ArqMAT.所有这些分数都来自 ArqMATH 数据集中的评估响应。

生成答案的第一步是使用选定的六个模型生成答案。生成的答案将用作查询,从 ArqMATH 答案库中搜索相关答案。搜索使用 DPR 向量嵌入和余弦相似性。

下表显示了所有模型的比较结果。结果表明,专门为数学任务定制的模型性能优于 DPR 基准。特别是,增加模型大小并不能改善结果:在 MATH 数据集上得分最低的 Mistral 模型与 Tora-7b 的表现一样好。这表明,在 MATH 数据集上表现优异的模型可能与特定任务过于匹配。

另一方面,GPT-4 生成的答案在 P@10 分数上超过了 DPR 基准线,在 ArqMATH3 任务 1 中的表现也优于目前最好的方法 MABOWDOR。

问题与答案的比较也侧重于使用嵌入将问题与最相关的答案进行匹配。由于该模型最初是为基于提示的答案而设计的,因此需要进行调整以方便嵌入的生成。为此,在提示语 "简而言之,这段文字的意思是:"前面加上了最后的标记嵌入。此外,还引入了三个与数学相关的示例答案,以指导大规模语言模型,具体如下。

第一,“这段文字:'‘的词性是’期望值’”;第二,“这段文字:'‘的词性是’圆’”。
‘圆’" 第三,“这段文字:'椭圆的中心与其两个焦点之间的距离’用了一个词:‘偏心率’”。

由于 Tora-7b 的性能不如 ArqMATH 的平均方法,因此我们对所有系统的答案进行了重新排名。由于 LLeMa 和 MAmmoTH 在 MATH 和 GSM 基准测试中的表现不如 Tora,因此对它们重新排名的有效性预期较低。分析表明,Tora-7b 的 Precision@10 不如上述表格中的所有运行。这表明,比较问题和答案嵌入可能无法解决查找相关答案的问题。

案例研究:GPT-4 和 DPR 的性能比较

在此,两位具有数学和计算机科学专业知识的注释者对 GPT-4 在生成所选问题答案方面的性能进行了评估。该评估借鉴了zbMATH Open2,这是一项针对纯数学和应用数学的多语言摘要和评论服务。主要重点是比较 GPT-4 和 Dense Passage Retrieval (DPR) 的检索性能。特别是,重点放在 GPT-4 提高了检索准确率的问题和 DPR 优于 GPT-4 的问题上。

下图表示 DPR 和 GPT-4 之间 P@10 差异的频率(P@10GPT-4 - P@10DPR)。根据下图所示的分析,在数学知识竞赛(MSE)的78 道试题中,GPT-4 在 38 道试题的准确性和生成相关答案的能力方面都有所提高。

此外,GPT-4 对下图所示问题的回答从 P@10を0.0 (DPR) 提高到 0.6。DPR 的第一个搜索结果不包括二项式系数,但 GPT-4 的结果至少包括 𝑛 展开。DPR 无法在没有上下文的情况下理解等式。GPT-4 可以很好地理解基本等式,因为它无法推断出基本等式。

此外,下图所示问题的 P@10 值从 DPR 的 0.5 降至 GPT-4 的 0.1。 GPT-4 答案没有解释供稿人询问的特定线段是如何从前提中推导出来的,因此没有抓住重点。GPT-4 生成的搜索答案已观察到一种将系统引向错误方向的模式。得到的答案只对曲线切线的概念进行了一般性解释,这与 GPT-4 的部分答案是一致的。这表明,GPT-4 无法回答数学概念之间复杂互动的问题。

此外,我们还发现,从较小的模型(除 GPT-4 外,基本上是所有模型)中获得的答复质量很低,往往误解了提示格式,而且答复不一致。有些问题除了序列结束标记外不产生任何输出。另一方面,Mistral 比 Tora 更善于保持对话语气,其推理也更有条理。不过,由于输入变量错误,公式不是以 LaTeX 格式编写的,质量也较低。

另外,请与下面的问题进行比较:Tora-7b-Codeの回答を使用するとPrecision@10が0.5から0.8に向上することがわかりました。在下图中,Tora 模拟了 MSE 中通常存在的线程,而不是实际答案。作为答案,它是不一致的,逻辑上也是错误的。

以上是 GPT-4、DPR 和 Tora-7b-Code 性能案例研究的概述。本文强调了每个模型的优缺点,并为今后的改进提供了宝贵的见解。

总结

本文研究了大规模语言模型在处理数学堆栈交换(MSE)中的问题时的表现。首先,本文使用 SOTA 语言模型评估了MSE 中的各种开放式问题,该模型在数学问题解答(MathQA)数据集上表现出色。结果表明,GPT-4 的表现优于其他模型,其 nDCG 得分为 0.48,Precision@10 (P@10) 得分为 0.37。特别是在 ArqMATH3 任务 1 中,GPT-4 显示出非常高的视觉性能。

此外,我们还进行了案例研究,以详细评估 GPT-4 的有效性。人们发现,在传统的 MathQA 数据集上表现良好的大规模语言模型往往会生成错误的答案。相比之下,GPT-4 能够为简单的数学问题生成适当的答案,但对于较为复杂且需要专业知识的问题,其准确性则有所下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/64085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ZYNQ 7z010开发板 oled点亮的实现

dc拉高的时候就是发送128字节数据的时候 发送指令dc拉低 模式是00 sck先置低再置高 复位是与开发板上的按键一样都是低有效 25位字节指令 加 3字节的 页地址加起始结束 b0,00,10, timescale 1ns / 1ps module top0(input wire clk ,input wire rst_n,// out…

360极速浏览器不支持看PDF

360安全浏览器采用的是基于IE内核和Chrome内核的双核浏览器。360极速浏览器是源自Chromium开源项目的浏览器,不但完美融合了IE内核引擎,而且实现了双核引擎的无缝切换。因此在速度上,360极速浏览器的极速体验感更佳。 展示自己的时候要在有优…

基于SpringBoot和PostGIS的全球城市信息管理实践

目录 前言 一、业务需求介绍 1、功能思维导图 二、业务系统后台实现 1、Model层实现 2、业务层的实现 3、控制层的实现 三、前端管理业务的实现 1、全球城市列表的实现 2、详情页面实现 3、实际城市定位 四、总结 前言 在全球化和信息化时代背景下,城市作…

《饕餮记》精彩片段(一)

也是无意中看到鲛人脍单元集片段,才去看了这个剧 整体略架空和部分逻辑不是很连贯和完美 精彩点不在于整体和走向和故事线 也不在于大牌明星撑场,因为全场只有安悦溪一个脸熟明星撑场子 而在于每个单元间离奇小故事 和华胥引差不多,属于逻…

如何在 ASP.NET Core 3.1 应用程序中使用 Log4Net

介绍 日志记录是应用程序的核心。它对于调试和故障排除以及应用程序的流畅性非常重要。 借助日志记录,我们可以对本地系统进行端到端的可视性,而对于基于云的系统,我们只能提供一小部分可视性。您可以将日志写入磁盘或数据库中的文件&#xf…

计算机毕业设计PySpark+PyFlink+Hive地震预测系统 地震数据分析可视化 地震爬虫 大数据毕业设计 Hadoop 机器学习 深度学习

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

基于注意力的几何感知的深度学习对接模型 GAABind - 评测

GAABind 作者是苏州大学的生物基础与医学院, 期刊是 Briefings in Bioinformatics, 2024, 25(1), 1–14。GAABind 是一个基于注意力的几何感知蛋白-小分子结合模式与亲和力预测模型,可以捕捉小分子和蛋白的几何、拓扑结构特征以及相互作用。使用 PDBBind2020 和 CASF2016 作…

远程桌面防护的几种方式及优缺点分析

远程桌面登录是管理服务器最主要的方式,于是很多不法分子打起了远程桌面的歪心思。他们采用暴力破解或撞库的方式破解系统密码,悄悄潜入服务器而管理员不自知。 同时远程桌面服务中的远程代码执行漏洞也严重威胁着服务器的安全,攻击者可以利…

Python高性能web框架-FastApi教程:(2)路径操作装饰器方法

路径操作装饰器方法 1. fastapi支持的各种请求方式 app.get() app.post() app.put() app.patch() app.delete() app.options() app.head() app.trace()2. 定义不同请求方式的路由 # 定义GET请求的路由 app.get(/get) def get_test():return {method: get方法} app.get(/get)…

Mysql体系架构剖析——岁月云实战笔记

1 体系架构 理论内容阅读了mysql体系架构剖析,其他的根据岁月云的实战进行记录。 1.1 连接层 mysql最上层为连接服务,引入线程池,允许多台客户端连接,主要工作:连接处理、授权认证、安全防护、管理连接等。 连接处理&a…

FPGA 16 ,Verilog中的位宽:深入理解与应用

目录 前言 一. 位宽的基本概念 二. 位宽的定义方法 1. 使用向量变量定义位宽 ① 向量类型及位宽指定 ② 位宽范围及位索引含义 ③ 存储数据与字节数据 2. 使用常量参数定义位宽 3. 使用宏定义位宽 4. 使用[:][-:]操作符定义位宽 1. 详细解释 : 操作符 -: 操作符 …

在数字孪生开发领域threejs现在的最新版本已经更新到多少了?

在数字孪生开发领域three.js现在的最新版本已经更新到多少了? 在数字孪生开发领域,three.js作为一款强大的JavaScript 3D库,广泛应用于Web3D可视化、智慧城市、智慧园区、数字孪生等多个领域。随着技术的不断进步和需求的日益增长&#xff0…

给新ubuntu电脑配置远程控制环境和c++版本的opencv环境

目录 改用户密码安装ssh sever安装net-tools配置vscode安装vim配置C opencv1. 安装g, cmake, make2.安装opencv依赖库3.下载opencv源文件(1)方法一:官网下载(2)方法二:GitHub下载方式: 4. Cmake…

Yet another PFC(新样式 PFC)

PFC 在依靠简单廉价兼容性而成功的以太网上弄巧成拙,但有 101 种优化它的方法,但代价是交换机越来越复杂。以太网的基因是简单廉价,这体现在以太帧的结构上,以太帧结构决定了交换机的能力上限,这是核心。核心认知不够&…

【鸿睿创智开发板试用】移植OpenCV 4到OpenHarmony 4.1

目录 目录 引言 编译系统镜像 (1) 下载代码后解压SDK (2) 下载docker镜像   (3) 编译OH 编译OpenCV 下载OpenCV源代码 构建编译配置文件 执行编译命令 安装库和头文件 测试 结语 引言 最近有个需求是在基于RK3568的OpenHarmony 4.1系统中使用OpenCV&#xff0c…

【OpenCV计算机视觉】图像处理——平滑

本篇文章记录我学习【OpenCV】图像处理中关于“平滑”的知识点,希望我的分享对你有所帮助。 目录 一、什么是平滑处理 1、平滑的目的是什么? 2、常见的图像噪声 (1)椒盐噪声 ​编辑(2) 高斯噪声 &a…

3D一览通在线协同设计,助力汽车钣金件设计与制造数字化升级

汽车行业已迎来智能化的汹涌浪潮,在此背景下,零部件制造商唯有积极应对,以智能制造为核心驱动力,方能跟上行业发展步调,在激烈的市场竞争中抢占先机。作为整车制造不可或缺的核心组件之一,汽车钣金件亦需紧…

【Leetcode】滑动窗口算法-编程苍穹下划破数据暗夜的高效光弧

前言 🌟🌟本期讲解关于滑动窗口问题~~~ 🌈感兴趣的小伙伴看一看小编主页:GGBondlctrl-CSDN博客 🔥 你的点赞就是小编不断更新的最大动力 🎆那么废话不多说直接…

【2025最新版】搭建个人博客教程

【2025最新版】搭建个人博客教程 –小记: 在搭建我的这个博客之前我在CSDN也发布过一些文章,目前应该也是几千粉丝了,但是看到别人都是用自己博客写的就感觉自己很LOW,所以就想自己来搭建一个属于自己的个人博客。当然搭建博客的…

多旋翼无人机 :桨叶设计—跷跷板结构

多旋翼无人机 :桨叶设计——跷跷板结构 前言跷跷板结构 前言 2024年11月,大疆发布了最新的农业无人机T70和T100。其中T70不同于以往的机型,在桨夹处采用了翘翘板结构,大疆将其命名为“挥舞桨叶”。 T70 无人机如下 放大其中螺旋…