PAL: Program-aided Language Models

PAL: Program-aided Language Models

ArXiv:https://arxiv.org/pdf/2211.10435
GitHub:https://reasonwithpal.com/

一、动机

  • 大模型与Chain-of-Thought可以很好地将一些复杂的问题分解为若干个子问题并进行逐步推理;
  • 但是对于一些较为复杂的数学运算,活着涉及到交大的数字符号运算时,即便大模型对任务的规划和分解思考是正确的,但是依然会存在计算错误,这些错误通常大模型很难很好地解决;
  • 因此,本文思考将一些复杂的推理任务先用大模型进行分解,其次让大模型生成python代码并基于解释器来实现计算。通过引入代码,可以弥补由于计算错误所带来的问题。

This bridges an important gap in chain-of- thought-like methods, where reasoning chains can be correct but produce an incorrect answer.

二、方法

本文提出Program-Aided Language Model(PAL)。
相比于Chain-of-thought,每一个exemplar中包含一个推理路径,这个推理路径时融合了自然语言和python代码。且最终只提供完整的变成代码,不提供最终答案。大模型在该prompt的引导下对目标测试样本进行推理和代码生成,最终借助python解释器获得最终答案。
下图展示了一个同时含有自然语言和python代码的推理路径:
image.png
PAL方法与CoT的对比图如下所示:
image.png
Exemplar的构建
对于评测数据集中,如果现有的工作如果已经提供了exemplar,则直接使用,否则则随机采样3~6个标注样本作为exemplar。
推理路径中的代码函数名称也要与原始变量名保持一致,采用下划线分割的形式定义。

For example, a variable that describes the number of apples in the basket should have a name such as num apples in basket. This keeps the generated code linked to the entities in the question.

三、实验

数据集:

  • 数学运算:GSM8K、SVAMP、ASDIV、MAWPS;

image.png

  • 符号推理:BBH-Hard

image.png

  • 算法推理:BBH-Hard

image.png

GSM8K-Hard:
作者通过启发式更改数字的方式构建了一个新的数据集,并基于这个数据发现50%的情况下大模型虽然给出正确的推理思路但是由于交大的数字计算存在错误导致最终预测错误。

符号推理的prompt样例:
image.png

数学运算实验结果:
image.png

四、实现

Prompt

针对数学运算、符号推理、算法运算三种类型的任务分别设计了带有编程语言和自然语言的prompt。

MATH_CHAT_BETA_PROMPT = '''
Let's use python to solve math problems. Here are three examples how to do it,
Q: Olivia has $23. She bought five bagels for $3 each. How much money does she have left?

def solution():
“”“Olivia has $23. She bought five bagels for $3 each. How much money does she have left?”“”
money_initial = 23
bagels = 5
bagel_cost = 3
money_spent = bagels * bagel_cost
money_left = money_initial - money_spent
result = money_left
return result


Q: Michael had 58 golf balls. On tuesday, he lost 23 golf balls. On wednesday, he lost 2 more. How many golf balls did he have at the end of wednesday?

def solution():
“”“Michael had 58 golf balls. On tuesday, he lost 23 golf balls. On wednesday, he lost 2 more. How many golf balls did he have at the end of wednesday?”“”
golf_balls_initial = 58
golf_balls_lost_tuesday = 23
golf_balls_lost_wednesday = 2
golf_balls_left = golf_balls_initial - golf_balls_lost_tuesday - golf_balls_lost_wednesday
result = golf_balls_left
return result


Q: There were nine computers in the server room. Five more computers were installed each day, from monday to thursday. How many computers are now in the server room?

def solution():
“”“There were nine computers in the server room. Five more computers were installed each day, from monday to thursday. How many computers are now in the server room?”“”
computers_initial = 9
computers_per_day = 5
num_days = 4 # 4 days between monday and thursday
computers_added = computers_per_day * num_days
computers_total = computers_initial + computers_added
result = computers_total
return result


How about this question?
Q: {question}
'''.strip()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32879.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Transformer的目标检测:原理、应用与未来展望

摘要 目标检测作为计算机视觉领域的一个核心任务,近年来随着深度学习技术的发展而取得了显著进步。Transformer,最初在自然语言处理领域取得巨大成功的模型,已经被引入到目标检测任务中,并展现出了强大的潜力。本文将详细介绍Tra…

[技术笔记] 元器件采购之Flash的国内、外厂商Top5

国外Top5 1、Micron(镁光)半导体 2、Toshiba(东芝) 3、Hynix(海力士) 4、Samsung(三星) 5、Intel(因特尔) 6、SanDisk(闪迪) 7…

【Unity】AssetBundle打包策略

【Unity】AssetBundle打包策略 在游戏开发过程中,AssetBundle(AB)打包策略的重要性不容忽视。游戏开发者往往手动设置游戏资源包名进行管理,难免会造成资源确实或导致冗余,因此对于AB包的打包流程来说,进行策略管理显得十分重要。…

DAY11-力扣刷题

1.最小路径和 给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 说明:每次只能向下或者向右移动一步。 64. 最小路径和 - 力扣(LeetCode) class Solution {p…

Git 中 pull 操作和 rebase 操作的不同

由于在开发过程中,pull 操作和 rebase 操作都是用来合并分支的,所以我就常常分不清这两个操作具体有什么区别,所以才有了这篇博客来做个简单区分,具体细致差别还请移步到官方文档:Git - Reference (git-scm.com) 1&am…

HCIA 18 结束 企业总部-分支综合实验(上)

1.实验介绍及拓扑 (1)总部和分支机构都可以上互联网访问8.8.8.8; (2)总部和分支机构使用广域网专线互访作为主线,并且通过互联网建立GRE隧道互访作为备线; (3)总部内为…

用python写——猜数字小游戏2

import random num random.randint(1, 100)count 0flag True while flag:guess_num int(input("请输入你要猜测的数字:"))count 1if guess_num num:print("恭喜你,猜对了")flag Falseelse:if guess_num > num:print("…

【pytorch06】 维度变换

常用API view/reshapesqueeze/unsqueezetranspose/t/permuteexpand/repeat view和reshape view操作的基本前提是保证numel()一致 a.view(4,28*28)的物理意义是把行宽以及通道合并在一起,对于4张图片,我们直接把所有数据都合在一起,用一个7…

解析Java中1000个常用类:AbstractSequentialList类,你学会了吗?

推荐一个我自己写的小报童专栏导航网站: http://xbt100.top 收录了生财有术项目精选、AI海外赚钱、纯银的产品分析等专栏,陆续会收录更多的专栏,欢迎体验~复制URL可直达。 以下是正文。 在 Java 集合框架中,AbstractSequentialList 是一个重要的抽象类,为实现自定义的顺…

预备资金有5000-6000买什么电脑比较好?大学生电脑选购指南

小新pro14 2024 处理器:采用了英特尔酷睿Ultra5 125H或Ultra9 185H两种处理器可选,这是英特尔最新的高性能低功耗处理器,具有18个线程,最高可达4.5GHz的加速频率,支持PCIe 4.0接口,内置了强大的ARC核芯显卡…

Faiss:加速大规模数据相似性搜索的利器

在机器学习和数据挖掘领域,相似性搜索是一项基本且重要的任务,它涉及到在大型数据集中找到与特定对象最相似的对象。Faiss是一个由Facebook AI Research开发的库,专门用于高效地进行相似性搜索和聚类,它之所以重要,是因…

双指针算法——部分OJ题详解

目录 关于双指针算法: 1,对撞指针 2,快慢指针 部分OJ题详解 283.移动零 1089.复写零 202.快乐数 11.盛水最多的容器 611.有效三角形的个数 剑指offer 57.和为s的两个数字 15.三数之和 18.四数之和 关于双指针算法: …

[240622] X-CMD 发布 v0.3.12: 引入 codeberg,增强传统命令,改善对 Elvish 和 Fish 支持

目录 X-CMD 发布 v0.3.12✨ cb(codeberg.org) ,fjo,gitea✨ Elvish✨ fish✨ git✨ ls✨ last✨ ps✨ stat✨ id X-CMD 发布 v0.3.12 ✨ cb(codeberg.org) ,fjo,gitea 本次版本实验性引入了这三个代码仓库…

个性化光标和动态壁纸

光标 进入这个宝藏网页至美化 至美化 进入鼠标页面,选择自己喜欢的鼠标,进入相关页面 分为两种,那么热爱有钱的UU可以选择高清版 像我这种没钱的孩子或者觉得试用版够用的就使用上面的 点击下载 进入自己的文件夹,解压成功之…

【记录】使用远程SSH配置d2l环境(含装pytorch,同时适用于本地anaconda)

文章目录 前言一、从创建新环境开始二、使用步骤1.安装pytorch2.安装 d2l 包3.安装其他包4.使用jupyter notebook 前言 记录一下如何利用使用命令行进行anaconda配置 d2l环境、pytorch并进行训练深度学习模型。 一、从创建新环境开始 如果是本地直接装一个 anaconda 软件就行…

ReactNative和Android通信

初始化一个RN项目以后,接下来想要让Android与React Native通信 写一个继承自ReactContextBaseJavaModule类的子类,重写getName方法 package com.awesomeprojectimport android.util.Log import android.widget.Toast import com.facebook.react.bridge.…

MFC学习--CListCtrl复选框以及选择

如何展示复选框 //LVS_EX_CHECKBOXES每一行的最前面带个复选框//LVS_EX_FULLROWSELECT整行选中//LVS_EX_GRIDLINES网格线//LVS_EX_HEADERDRAGDROP列表头可以拖动m_listctl.SetExtendedStyle(LVS_EX_FULLROWSELECT | LVS_EX_CHECKBOXES | LVS_EX_GRIDLINES); 全选,全…

掌握ChatGPT在论文创作中的技巧

在当今快速发展的科技时代,AI已经深刻地影响了我们的生活和工作方式。ChatGPT,作为一种强大的语言模型,可以在论文创作中发挥重要作用。本文将详细介绍如何使用ChatGPT高效地进行论文创作,帮助你提升写作效率和质量。 一、为什么…

【设计模式之迭代器模式 -- C++】

迭代器模式 – 遍历集合,无需暴露 迭代器模式是一种设计模式,用于顺序访问集合对象的元素,而无需暴露其底层实现。迭代器模式分离了集合对象的遍历行为,使得访问元素时,可以不必了解集合对象的底层实现。 组成 迭代…

解析 flink sql 转化成flink job

文章目录 背景流程flink实例实现细节定义的规则定义的物理算子定义的flink exec node 背景 在很多计算引擎里,都会把sql 这种标准语言,转成计算引擎下底层实际的算子,因此理解此转换的流程对于理解整个过程非常重要 流程 flink实例 public…