基于ArqMATH 数据集探索大语言模型在数学问题推理解答中的能力

概述

论文地址:https://arxiv.org/pdf/2404.00344
源码地址:https://github.com/gipplab/llm-investig-mathstackexchange

大规模语言模型(LLMs)因其解决自然语言任务的能力而备受关注,在某些任务中,其准确性甚至可媲美人类。这些模型在翻译、代码编写和通过专业考试等各种任务中表现出色,并被用于知识提取、想法生成以及数据处理和比较。大规模语言模型在问题解答(QA)任务中也取得了成功,在这些任务中,自然语言为问题提供了类似于人类的答案;在 QA 中对大规模语言模型的评估已经证明了其有用性。它已被证明是有用的。

近年来,数学内容在科学、技术、工程和数学(STEM)领域日益受到重视,有鉴于此,评估大规模语言模型如何适应数学语言也非常重要。数学因其严密的逻辑和抽象的概念,需要用符号和语法组合复杂的专门语言来表达。与自然语言不同,数学表达依赖于未说明的规则和假设,需要明确的知识和高度的精确性。这意味着,即使在现代语言模型中,数学推理仍然是一项重大挑战。

本文研究了大规模语言模型回答数学开放式问题(不能用 "是/否 "回答的问题)的能力。MSE 包含从初等数学到高等数学的各种问题,要求应用正确的数学原理并对复杂的推理进行清晰易懂的解释。开放式问题的重点在于促进对数学概念的深刻理解,并为大规模语言模型提供了衡量数学推理技能进步的基准。

报告还评估了生成的响应,通过案例研究确定了挑战,并考虑了大规模语言建模的未来方向,以弥合理解自然语言和数学语言之间的差距。

数据集和方法

由于问题的多样性和所需的专业知识,手动验证数学堆栈交换(MSE)中问题的答案并不现实。为此,我们使用了 ArqMATH 竞赛数据集。该数据集是 MSE 问题-答案对的集合,第三届竞赛的[任务 1]侧重于从 MSE 中获取与78 道大学数学题相关的答案。评估由学生进行,每个题目平均有450 个回答被评为优秀。

本次评估使用了六种大型语言模型(ToRA、LLeMa、GPT-4、MAmmoTH、MABOWDOR 和 Mistral 7B)。实验还在两种情况下进行。

在第一种情况下(答案生成),使用选定的大规模语言模型分两个阶段回答 MSE 问题。首先,将 78 个问题交给大规模语言模型来生成答案。但是,MABOWDOR 使用的是基于 BERT 的密集段落检索(Dense Passage Retrieval),它只能生成嵌入。然后,生成的答案将作为嵌入索引,并与 ArqMATH 中的所有其他答案进行搜索,以找出最相似的答案。

在第二种情况(问题-答案比较)中,使用选定的大规模语言模型生成所有可能的 ArqMATH 答案嵌入以及 78 个问题嵌入。最后,找出与问题最相似的答案。

基准

这里使用平均精度 (mAP)、精度@10 (P@10)、归一化贴现累积增益 (nDCG) 和二进制偏好 (BPref) 来显示评估结果。ArqMAT.所有这些分数都来自 ArqMATH 数据集中的评估响应。

生成答案的第一步是使用选定的六个模型生成答案。生成的答案将用作查询,从 ArqMATH 答案库中搜索相关答案。搜索使用 DPR 向量嵌入和余弦相似性。

下表显示了所有模型的比较结果。结果表明,专门为数学任务定制的模型性能优于 DPR 基准。特别是,增加模型大小并不能改善结果:在 MATH 数据集上得分最低的 Mistral 模型与 Tora-7b 的表现一样好。这表明,在 MATH 数据集上表现优异的模型可能与特定任务过于匹配。

另一方面,GPT-4 生成的答案在 P@10 分数上超过了 DPR 基准线,在 ArqMATH3 任务 1 中的表现也优于目前最好的方法 MABOWDOR。

问题与答案的比较也侧重于使用嵌入将问题与最相关的答案进行匹配。由于该模型最初是为基于提示的答案而设计的,因此需要进行调整以方便嵌入的生成。为此,在提示语 "简而言之,这段文字的意思是:"前面加上了最后的标记嵌入。此外,还引入了三个与数学相关的示例答案,以指导大规模语言模型,具体如下。

第一,“这段文字:'‘的词性是’期望值’”;第二,“这段文字:'‘的词性是’圆’”。
‘圆’" 第三,“这段文字:'椭圆的中心与其两个焦点之间的距离’用了一个词:‘偏心率’”。

由于 Tora-7b 的性能不如 ArqMATH 的平均方法,因此我们对所有系统的答案进行了重新排名。由于 LLeMa 和 MAmmoTH 在 MATH 和 GSM 基准测试中的表现不如 Tora,因此对它们重新排名的有效性预期较低。分析表明,Tora-7b 的 Precision@10 不如上述表格中的所有运行。这表明,比较问题和答案嵌入可能无法解决查找相关答案的问题。

案例研究:GPT-4 和 DPR 的性能比较

在此,两位具有数学和计算机科学专业知识的注释者对 GPT-4 在生成所选问题答案方面的性能进行了评估。该评估借鉴了zbMATH Open2,这是一项针对纯数学和应用数学的多语言摘要和评论服务。主要重点是比较 GPT-4 和 Dense Passage Retrieval (DPR) 的检索性能。特别是,重点放在 GPT-4 提高了检索准确率的问题和 DPR 优于 GPT-4 的问题上。

下图表示 DPR 和 GPT-4 之间 P@10 差异的频率(P@10GPT-4 - P@10DPR)。根据下图所示的分析,在数学知识竞赛(MSE)的78 道试题中,GPT-4 在 38 道试题的准确性和生成相关答案的能力方面都有所提高。

此外,GPT-4 对下图所示问题的回答从 P@10を0.0 (DPR) 提高到 0.6。DPR 的第一个搜索结果不包括二项式系数,但 GPT-4 的结果至少包括 𝑛 展开。DPR 无法在没有上下文的情况下理解等式。GPT-4 可以很好地理解基本等式,因为它无法推断出基本等式。

此外,下图所示问题的 P@10 值从 DPR 的 0.5 降至 GPT-4 的 0.1。 GPT-4 答案没有解释供稿人询问的特定线段是如何从前提中推导出来的,因此没有抓住重点。GPT-4 生成的搜索答案已观察到一种将系统引向错误方向的模式。得到的答案只对曲线切线的概念进行了一般性解释,这与 GPT-4 的部分答案是一致的。这表明,GPT-4 无法回答数学概念之间复杂互动的问题。

此外,我们还发现,从较小的模型(除 GPT-4 外,基本上是所有模型)中获得的答复质量很低,往往误解了提示格式,而且答复不一致。有些问题除了序列结束标记外不产生任何输出。另一方面,Mistral 比 Tora 更善于保持对话语气,其推理也更有条理。不过,由于输入变量错误,公式不是以 LaTeX 格式编写的,质量也较低。

另外,请与下面的问题进行比较:Tora-7b-Codeの回答を使用するとPrecision@10が0.5から0.8に向上することがわかりました。在下图中,Tora 模拟了 MSE 中通常存在的线程,而不是实际答案。作为答案,它是不一致的,逻辑上也是错误的。

以上是 GPT-4、DPR 和 Tora-7b-Code 性能案例研究的概述。本文强调了每个模型的优缺点,并为今后的改进提供了宝贵的见解。

总结

本文研究了大规模语言模型在处理数学堆栈交换(MSE)中的问题时的表现。首先,本文使用 SOTA 语言模型评估了MSE 中的各种开放式问题,该模型在数学问题解答(MathQA)数据集上表现出色。结果表明,GPT-4 的表现优于其他模型,其 nDCG 得分为 0.48,Precision@10 (P@10) 得分为 0.37。特别是在 ArqMATH3 任务 1 中,GPT-4 显示出非常高的视觉性能。

此外,我们还进行了案例研究,以详细评估 GPT-4 的有效性。人们发现,在传统的 MathQA 数据集上表现良好的大规模语言模型往往会生成错误的答案。相比之下,GPT-4 能够为简单的数学问题生成适当的答案,但对于较为复杂且需要专业知识的问题,其准确性则有所下降。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/64085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

x2go远程控制

X2Go 优点:专为远程桌面和图形界面优化。性能优越,特别是在网络带宽较低的情况下,采用了高效的压缩和缓存技术。支持多用户、会话恢复功能,适合企业使用。使用 SSH 连接,具有较好的安全性。 安装与配置:需…

[SV]如何在UVM环境中使用C Model

在UVM环境中使用C Memory 一、C语言实现Memory 1.1 代码说明 Memory 初始化: memory_init() 函数将内存空间初始化为 0,并初始化互斥锁。AXI 写操作 (axi_write): 检查地址范围是否合法。使用 memcpy 将数据从输入缓冲区写入模拟内存。使用互斥锁保证线程安全。AXI 读操作 …

基于ZYNQ 7z010开发板 oled点亮的实现

dc拉高的时候就是发送128字节数据的时候 发送指令dc拉低 模式是00 sck先置低再置高 复位是与开发板上的按键一样都是低有效 25位字节指令 加 3字节的 页地址加起始结束 b0,00,10, timescale 1ns / 1ps module top0(input wire clk ,input wire rst_n,// out…

被裁20240927 --- YOLO 算法

背景 在云端部署ViSP,ViSP实现视觉伺服、yolo实现视觉跟踪。 开源的2d视觉跟踪算法有哪些? 开源的2D视觉跟踪算法有很多呢,这里给你推荐一些比较知名和常用的吧。 ByteTrackV2:这是一个通用2D跟踪算法,提出了分层的…

360极速浏览器不支持看PDF

360安全浏览器采用的是基于IE内核和Chrome内核的双核浏览器。360极速浏览器是源自Chromium开源项目的浏览器,不但完美融合了IE内核引擎,而且实现了双核引擎的无缝切换。因此在速度上,360极速浏览器的极速体验感更佳。 展示自己的时候要在有优…

基于SpringBoot和PostGIS的全球城市信息管理实践

目录 前言 一、业务需求介绍 1、功能思维导图 二、业务系统后台实现 1、Model层实现 2、业务层的实现 3、控制层的实现 三、前端管理业务的实现 1、全球城市列表的实现 2、详情页面实现 3、实际城市定位 四、总结 前言 在全球化和信息化时代背景下,城市作…

k8s的ConfigMap是什么, 为什么设计ConfigMap, 如何使用ConfigMap

ConfigMap简介, 为什么设计ConfigMap 在k8s中, ConfigMap是一种API对象, 用于将非机密的配置数据存储到键值对中。 Configmap作用是, 把配置数据从应用代码中分隔开, 让镜像和配置文件解耦,实现了镜像的可移植性。 举例: 我有一个Squid(正向代理)的Pod…

《饕餮记》精彩片段(一)

也是无意中看到鲛人脍单元集片段,才去看了这个剧 整体略架空和部分逻辑不是很连贯和完美 精彩点不在于整体和走向和故事线 也不在于大牌明星撑场,因为全场只有安悦溪一个脸熟明星撑场子 而在于每个单元间离奇小故事 和华胥引差不多,属于逻…

如何在 ASP.NET Core 3.1 应用程序中使用 Log4Net

介绍 日志记录是应用程序的核心。它对于调试和故障排除以及应用程序的流畅性非常重要。 借助日志记录,我们可以对本地系统进行端到端的可视性,而对于基于云的系统,我们只能提供一小部分可视性。您可以将日志写入磁盘或数据库中的文件&#xf…

计算机毕业设计PySpark+PyFlink+Hive地震预测系统 地震数据分析可视化 地震爬虫 大数据毕业设计 Hadoop 机器学习 深度学习

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

基于注意力的几何感知的深度学习对接模型 GAABind - 评测

GAABind 作者是苏州大学的生物基础与医学院, 期刊是 Briefings in Bioinformatics, 2024, 25(1), 1–14。GAABind 是一个基于注意力的几何感知蛋白-小分子结合模式与亲和力预测模型,可以捕捉小分子和蛋白的几何、拓扑结构特征以及相互作用。使用 PDBBind2020 和 CASF2016 作…

前缀和与差分算法详解

定义 前缀和是一种数据预处理技术,它指的是从数组的第一个元素开始,到当前元素为止的所有元素的和。这种技术可以快速计算任意区间内元素的和,而不需要每次都从头开始累加。 差分则是前缀和的逆运算,它主要用于处理对数组某个区…

远程桌面防护的几种方式及优缺点分析

远程桌面登录是管理服务器最主要的方式,于是很多不法分子打起了远程桌面的歪心思。他们采用暴力破解或撞库的方式破解系统密码,悄悄潜入服务器而管理员不自知。 同时远程桌面服务中的远程代码执行漏洞也严重威胁着服务器的安全,攻击者可以利…

Python高性能web框架-FastApi教程:(2)路径操作装饰器方法

路径操作装饰器方法 1. fastapi支持的各种请求方式 app.get() app.post() app.put() app.patch() app.delete() app.options() app.head() app.trace()2. 定义不同请求方式的路由 # 定义GET请求的路由 app.get(/get) def get_test():return {method: get方法} app.get(/get)…

Mysql体系架构剖析——岁月云实战笔记

1 体系架构 理论内容阅读了mysql体系架构剖析,其他的根据岁月云的实战进行记录。 1.1 连接层 mysql最上层为连接服务,引入线程池,允许多台客户端连接,主要工作:连接处理、授权认证、安全防护、管理连接等。 连接处理&a…

【Pandas】pandas infer_freq

Pandas2.2 General Top-level dealing with datetimelike data 方法描述to_datetime(arg[, errors, dayfirst, …])用于将对象数据(如字符串)转换为日期时间类型to_timedelta(arg[, unit, errors])用于将对象数据(如字符串)转换…

FPGA 16 ,Verilog中的位宽:深入理解与应用

目录 前言 一. 位宽的基本概念 二. 位宽的定义方法 1. 使用向量变量定义位宽 ① 向量类型及位宽指定 ② 位宽范围及位索引含义 ③ 存储数据与字节数据 2. 使用常量参数定义位宽 3. 使用宏定义位宽 4. 使用[:][-:]操作符定义位宽 1. 详细解释 : 操作符 -: 操作符 …

在数字孪生开发领域threejs现在的最新版本已经更新到多少了?

在数字孪生开发领域three.js现在的最新版本已经更新到多少了? 在数字孪生开发领域,three.js作为一款强大的JavaScript 3D库,广泛应用于Web3D可视化、智慧城市、智慧园区、数字孪生等多个领域。随着技术的不断进步和需求的日益增长&#xff0…

给新ubuntu电脑配置远程控制环境和c++版本的opencv环境

目录 改用户密码安装ssh sever安装net-tools配置vscode安装vim配置C opencv1. 安装g, cmake, make2.安装opencv依赖库3.下载opencv源文件(1)方法一:官网下载(2)方法二:GitHub下载方式: 4. Cmake…

数字证书管理工具 openssl keytool

OPENSSL 命令 openssl command [ command_opts ] [ command_args ] 常用command: version 用于查看版本信息 enc 用于加解密 ciphers 列出加密套件 genrsa 用于生成私钥 -des|-des3|-idea:用来加密私钥文件的三种对称加密算法。 rsa …