文献阅读:MathPrompter: Mathematical Reasoning using Large Language Models

  • 文献阅读:MathPrompter: Mathematical Reasoning using Large Language Models
    • 1. 内容简介
    • 2. 方法细节
    • 3. 实验内容
    • 4. 结论&思考
  • 文献链接:https://arxiv.org/abs/2303.05398

1. 内容简介

这篇文章是今年3月份的时候微软提出的一篇工作,其核心的问题是优化了GPT模型在数学问题上的回答准确性。

众所周知,生成模型在生成内容真实性方面一直存在较大的问题,虽然随着GPT模型的持续迭代,模型生成质量一直在不断地提升,不过生成内容可靠性的问题事实上还是一直存在的,无法被彻底根除。

而这个问题在数学问题上更加会被极具放大,而这篇文章的核心工作就是在这方面进行了优化。

但是具体到方法上面,事实上这里也并没有什么根本上的方法改进,事实上也就是一个专门进行数学问题的prompt工程的工作,因此多少还是有些失望。

而且更进一步地,他们的方法的有效性可能也不是纯粹的来自于他们的prompt方法,而是可能来自于系综模型的效果……

anyway,不过无论如何,这篇文章达到的效果是实打实的,因此无论如何还是有一些借鉴意义的。

2. 方法细节

本文的核心方法可以用下图中的流程图进行表述:

在这里插入图片描述

它可以抽象为以下两个大的步骤:

  1. 将具体的问题抽象为一个和具体数字无关的代数问题;
  2. 通过重复验证的方式对1中给出的代数问题进行数字化计算,具体包括:
    1. 多种不同的计算方式交叉验证;
    2. 多次计算重复验证;

下面,我们给出文中的具体步骤如下:

  1. 抽象化代数问题
  2. 分别生成1中给出的代数问题解答的代数表达式以及python解答函数;
  3. 计算2中给出的代数表达式的解答以及python函数执行得到的结果;
  4. 重复多次执行,得到的最高频次的回答就最可能是问题最后的答案。

3. 实验内容

下面,我们来看一下文中给出实验结果。

这篇文章的实验内容相对来说还是比较简单的,就是在MultiArith数据集上面做了一些实验,然后获得了比较显著的效果。

给出其具体的实验效果表格如下:

在这里插入图片描述

可以看到:

  • 使用math prompter之后,模型的效果确实有了较大幅度的提升。

最后,文中还给出了几个具体的case如下图所示:

在这里插入图片描述

可以看到:

  • 使用math prompter之后模型的效果较之baseline确实有了一定的提升,不过依然无法完全规避掉事实性错误,还是会有错误的存在。

4. 结论&思考

综上,我们可以看到:

  • math prompter这篇文章确实是有效的,有效地提升了数学问题上的回答准确性。

不过对于文中使用的方法,我个人多少有点存疑。

首先,文中给出的实例中的数学题本质上都不难,也就是小学应用题的水平,而且都是简单计算题,对于稍微复杂一些的问题,比如说不等式问题或者求最大最小值的问题,似乎上述方法都不具有可扩展性。

另一方面,文中这种交叉验证以及多次生成验证的方式,事实上就是一个ensemble方法,而ensemble的方式获得的效果高于单一模型的效果应该是一个比较公认的结果了。因此文中给出的方法带来的提升有多少来自于他们的mathprompter,有多少来自于ensemble方式事实上也有一些存疑。

综上,这篇文章的价值总让我有一些怀疑……

不过尽管如此,这篇文章关于代数拆分的方式还是很有启发价值的,因为原先的问题如果要一步求解的话,那无疑需要同时完成题意的理解以及数字的计算,尤其后者由于模式太多,因此对大模型的统计概率生成来说尤其显得不友好。

而分钟通过拆分任务的方式让模型先理解问题,然后进行数字求解,本质上就是一个COT方式,无疑大幅简化了任务,增大了单一任务当中模型执行的结果可靠性。

这个思路还是很有启发意义的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/2315.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【云原生】k8s安全机制

前言 Kubernetes 作为一个分布式集群的管理工具,保证集群的安全性是其一个重要的任务。API Server 是集群内部各个组件通信的中介, 也是外部控制的入口。所以 Kubernetes 的安全机制基本就是围绕保护 API Server 来设计的。 比如 kubectl 如果想向 API…

工欲善其事,必先利其器之—react-native-debugger调试react native应用

调试react应用通常利用chrome的inspector的功能和两个最常用的扩展 1、React Developer Tools (主要用于debug组件结构) 2、Redux DevTools (主要用于debug redux store的数据) 对于react native应用,我们一般就使用react-nativ…

Java项目查询统计表中各状态数量

框架:SpringBoot,Mybatis;数据库:MySQL 表中设计2个状态字段,每个字段有3种状态,统计这6个状态各自的数量 sql查询语句及结果如图 SQL: SELECT SUM(CASE WHEN A0 THEN 1 ELSE 0 END) AS A0…

数据分析的iloc和loc功能

大家好,在处理大型数据集时,使用有效的数据操作和提取技术是必要的。Pandas数据分析库提供了强大的工具,用于处理结构化数据,包括使用iloc和loc函数访问和修改DataFrame元素的能力。在本文中,我们将探讨iloc和loc之间的…

论文笔记--OpenPrompt: An Open-source Framework for Prompt-learning

论文笔记--OpenPrompt: An Open-source Framework for Prompt-learning 1. 文章简介2. 文章概括3 文章重点技术4. 文章亮点5. 原文传送门 1. 文章简介 标题:OpenPrompt: An Open-source Framework for Prompt-learning作者:Ning Ding, Shengding Hu, We…

短视频seo矩阵系统源码开发部署

目录 短视频矩阵源码部署步骤简单易懂,开发者只需按照以下几个步骤进行操作: 代码展示---seo关键词分析 开发要点: 代码展示如下: 开发部署注意事项: 说明:本开发文档适用于短视频seo矩阵系统源码开发…

PostgreSQL考试难不难 ?

当涉及到PostgreSQL考试的详细难度,以下是一些可能涉及的主题和考点,这些主题在不同的考试中可能有所不同: 1.数据库基础知识:数据库的基本概念、关系型数据库模型、表、字段、主键、外键等。 2.SQL语言:对SQL语言的掌…

ACME申请SSL证书

1.开放443端口 firewall-cmd --permanent --add-port443/tcp # 开放443端口 firewall-cmd --reload # 重启防火墙(修改配置后要重启防火墙)2.安装ACME # 安装acme curl https://get.acme.sh | sh -s email你的邮箱地址 # 别名 alias acme.sh~/.acme.sh/acme.sh3.使用ACME申请…

攻防世界-web-easytornado

题目描述:Tornado 框架。打开链接是一个简单的界面 1. 思路分析 看到有个/flag.txt,我们点击进去看下 发现传入了两个参数,一个是filename,还有一个是filehash 看到里面的内容,提示我们真正的flag在 /flllllllllllla…

【自监督预训练 2023】MCL

【自监督预训练 2023】MCL 论文题目:Multi-Level Contrastive Learning for Dense Prediction Task 中文题目:稠密预测任务的多级对比学习 论文链接:https://arxiv.org/abs/2304.02010 论文代码:https://github.com/GuoQiushan/MC…

Unity视角拉近时物体缺失的问题处理

在Unity的开发过程中,我们可能会遇到以下情况: 就是在场景的不断编辑中,突然又一次打开场景,再拉近或拉远场景视角时,会出现场景中的对象会显示不全的问题。 出现了这样的情况会让场景的预览很不友好。 出现这个问题的…

rust

文章目录 rustCargoCreating a rust project How to Debug Rust Programs using VSCodebasic debuggingHow to pass arguments in Rust debugging with VS Code. References rust Cargo Cargo is a package management tool used for downloading, compiling, updating, and …

行为型模式 - 命令模式

概述 日常生活中,我们出去吃饭都会遇到下面的场景。 定义: 将一个请求封装为一个对象,使发出请求的责任和执行请求的责任分割开。这样两者之间通过命令对象进行沟通,这样方便将命令对象进行存储、传递、调用、增加与管理。 结构 …

Hugging News #0717: 开源大模型榜单更新、音频 Transformers 课程完成发布!

每一周,我们的同事都会向社区的成员们发布一些关于 Hugging Face 相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「Hugging News」。本期 Hugging News 有哪些有趣的消息&#xff0…

nacos注册中心+Ribbon负载均衡+完成openfeign的调用(超详细步骤)

目录 1.注册中心 1.1.nacos注册中心 1.2. 微服务注册和拉取注册中心的内容 2.3.修改订单微服务的代码 3.负载均衡组件 3.1.什么是负载均衡 3.2.什么是Ribbon 3.3.Ribbon 的主要作用 3.4.Ribbon提供的负载均衡策略 4.openfeign完成服务调用 4.1.什么是OpenFeign 4.2…

vscode remote-ssh配置

使用vscode的插件remote-ssh进行linux的远程控制。 在vscode上安装完remote-ssh插件后,还需要安装openssh-client。 openssh-client安装 先win R打开cmd,输入ssh,查看是否已经安装了。 如果没有安装,用管理员权限打开powershe…

Linux云服务器,docker compose文件部署多个jar,docker部署多模块boot项目

前提条件 Linux服务器 服务器已经安装docker docker已经安装jdk镜像 docker已经安装mysql镜像 将要部署的项目的jar包打包好,项目是多模块springboot项目 部署过程 项目是3个模块的Spring boot项目,打出来3个jar,将这些jar包拷贝到…

Linux/Unix-gcc编译回顾

1、gcc编译为可执行程序四步骤:预处理->编译->汇编->链接 注意:-o 用于修改生产的文件名 2、gcc常用参数 指定头文件:-I 语法: gcc -I 头文件所在文件夹路径 源文件 -o 生成文件名 如果头文件和源文件中同一个文件夹…

性能测试 Linux 环境下模拟延时和丢包实现

在性能测试过程中,我们还需要模拟网络异常的情况下,是否会出现一些异常数据。最常见的就是写库操作,比如说我们下单的场景,如果出现网络异常的时候是否会出现数据对不上这种情况。 如我们JMeter发送成功的请求数量和最终数据库表…

linux之Ubuntu系列(五)用户管理、查看用户信息 终端命令

创建用户 、删除用户、修改其他用户密码的终端命令都需要通过 sudo 执行 创建用户 设置密码 删除用户 sudo useradd -m -g 组名 新建用户名 添加新用户 -m:自动建立用户 家目录 -g:指定用户所在的组。否则会建立一个和用户同名的组 设置新增用户的密码&…