利用大模型进行复杂决策制定:PlanRAG技术的研究

人工智能咨询培训老师叶梓 转载标明出处

有效的决策制定对于组织的成功至关重要。传统的决策支持系统虽然在数据分析和决策辅助方面取得了一定的进展,但在处理需要复杂数据分析的决策问题时仍显不足。为了解决这一问题,来自韩国高等科学技术院(KAIST)的研究人员提出了一种名为PlanRAG(Plan-then-Retrieval Augmented Generation)的新技术,旨在利用大模型(LLMs)进行复杂的决策分析。

图1展示了一个决策问题的例子,其中涉及到在游戏《欧陆风云4》中决定在哪个贸易节点上放置商人以最大化特定国家在主贸易节点上的利润。说明了决策型大型语言模型(LLM)如何分析数据库并做出决策。 

研究人员定义了一种名为决策问答(Decision QA,简称DQA)的新任务。DQA任务的目标是为给定的决策问题Q、商业规则R和数据库D找到最佳决策dbest。表 3 显示了 DQA 中数据库的一些统计数据。PlanRAG的提出就是为了有效解决这一任务。

想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

留言“参加”即可来叶老师的直播间互动,让您轻松上手,学习如何使用 Llama Factory 微调模型。互动交流,畅谈工作中遇到的实际问题。

PlanRAG方法 

PlanRAG方法的核心在于它将决策过程分为三个阶段:规划(Planning)、检索与回答(Retrieving & Answering)以及重新规划(Re-planning)。图3比较了传统的RAG技术和本文提出的PlanRAG技术的推理过程。展示了PlanRAG在规划、检索、回答和重新规划方面的迭代过程。

图4通过一个具体的例子,展示了迭代RAG和PlanRAG在Locating场景中如何生成查询并根据查询结果进行推理和决策。

规划阶段,大模型接收决策问题Q、数据库模式S和业务规则R作为输入,然后生成一个初步的数据分析计划。这个计划详细描述了为了做出决策需要执行的一系列数据分析步骤。Figure 4(b)显示了一个规划阶段的例子,其中模型确定了需要分析的数据和分析的顺序。

检索与回答阶段,大模型不仅接收Q、S和R,还包含了初步计划作为输入。然后,它生成用于决策的数据查询,这些查询通过SQL或Cypher语句在数据库中执行。Figure 4展示了PlanRAG如何不同于以往的RAG技术生成查询。查询结果被用来反复推论是否需要重新规划或进一步检索以做出更好的决策。通过与规划过程的反向链接,规划和检索过程被迭代执行,直到大模型确定不再需要进一步分析即可做出决策。

重新规划阶段,在初步计划不足以解决问题时进行。为了使大模型能够决定是否需要重新规划,研究者通过添加一些指令来评估当前计划,并参照每次检索步骤的结果。最终,大模型接收Q、S、R以及当前计划和查询结果作为输入,并生成一个新的计划进行进一步分析,或纠正先前分析的方向。

通过引入规划和迭代检索的机制,PlanRAG能够更有效地处理这类问题。在实现PlanRAG时,研究者构建了一个单一的大模型来执行这两种类型的推理,以减少使用单独大模型时的副作用。通过添加‘Plan’和‘Re-plan’指令到ReAct框架中,大模型能够根据数据和业务规则生成决策。

实验

研究者们为了验证PlanRAG方法在决策问答(Decision QA)任务中的有效性,实现了并比较了四种不同的决策型大模型:(1) 基于单次检索的RAG(SingleRAG-LM),(2) 基于迭代检索的RAG(IterRAG-LM),(3) 基于PlanRAG的模型(PlanRAG-LM),以及(4) 不包含重新规划(Re-planning)步骤的PlanRAG模型(PlanRAGLM w/o RP)。

这些模型都是基于ReAct框架构建的,使用GPT-4作为基础语言模型,并结合LangChain库进行实现。在数据库方面,研究者们使用了MySQL作为关系数据库管理系统(RDBMS)和Neo4j作为图数据库管理系统(GDBMS)。

实验在零样本(zero-shot)和单次运行(single run)的设置下进行,这意味着大模型在没有预先训练或仅有少量样本的情况下直接处理任务。Figure 3 对比展示了以往RAG技术和PlanRAG技术的推理过程。在以往的RAG技术中,如果从数据库D中只执行一次检索,则称为单次RAG;如果执行多次检索,则称为迭代RAG。而PlanRAG技术则通过两种类型的推理来得出最佳决策dbest:首先是制定计划,然后是根据检索到的数据进行回答。

实验结果,如Table 4所示,PlanRAG-LM在“定位”情景下的准确率为64.3%,在“建造”情景下的准确率为45.0%,相比现有的最先进迭代RAG技术分别提高了15.8%和7.4%。这一结果表明,PlanRAG在决策任务中非常有效。

Figure 5 进一步分析了PlanRAG-LM在处理简单问题(SR)和复杂问题(MR)时的准确率。PlanRAG-LM在SR问题上的表现比MR问题更为出色,这是因为SR问题实际上并不简单,它们是IterRAG-LM试图通过单次检索解决的问题,而这些问题实际上需要多次检索。

Table 5 展示了不同模型在关系数据库(RDB)和图数据库(GDB)上的准确率。PlanRAG-LM在两种数据库类型上都优于其他模型,这表明PlanRAG方法能够有效处理不同数据库中的复杂决策任务。

Table 6 显示了不同模型在决策问答任务中错过关键数据分析的比率。PlanRAG-LM的比率较低,这意味着它更有可能检索或计算出所有必要的信息来做出最佳决策。

Figure 6 展示了失败案例分析的结果。PlanRAG-LM显著减少了因考虑不当候选项(CAN)和错过数据分析(MIS)导致的错误,这表明PlanRAG-LM能够更好地理解问题并检索关键数据。

Table 7 提供了PlanRAG-LM在不同数量重新规划下的问题分布和准确率改善情况。PlanRAG-LM在“建造”情景中更频繁地进行重新规划,这表明在更复杂的决策任务中,初始计划可能不足以解决问题,需要通过重新规划来提高决策的准确性。

这些实验结果证明了PlanRAG方法在提高大模型解决复杂决策任务方面的潜力和有效性。

论文链接:https://arxiv.org/pdf/2406.12430

项目链接:https://github.com/myeon9h/PlanRAG 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

fpga系列 HDL: 竞争和冒险 01

卡诺图是一种逻辑化简工具,用来在布尔函数的最小项和形式中,找到冗余项并实现逻辑化简。也可用于HDL中竞争和冒险的判断。 最小项 任何一个逻辑函数都能化简为最小项的和的形式对于 n 个变量的布尔表达式,每个变量都必须以原变量&#xff0…

Zabbix企业级分布式监控环境部署

“运筹帷幄之中,决胜千里之外”。在IT运维中,监控占据着重要的地位,按比例来算,说占30%一点也不为过。对IT运维工程师来说,构建一个真正可用的监控告警系统是一项艰巨的任务。在监控系统的开源软件中,可供选…

基于模型划分的云边协同推理算法

摘要 在网络状态和任务需求的动态变化下,为减少模型推理时延和计算成本,在软件定义网络( Software Defined Network,SDN) 中提出了一种基于模型划分的云边协同推理算法。通过构建复杂度预测器分配任务执行环境,采用深度Q网络(Dee…

国产标准数字隔离器的未来---克里雅半导体

标准数字隔离器是电信号隔离技术的重要组成部分,近年来取得了重大进展。随着工业自动化、汽车电子和电信等行业对更高性能的需求不断增长,国内数字隔离器制造商正在稳步赶上全球标准。本文讨论了数字隔离器技术的新兴趋势、材料创新的影响,以…

网站建设中需要注意哪些安全问题?----雷池社区版

服务器与应用安全指南 1. 服务器安全 1.1 操作系统安全 及时更新补丁:确保操作系统始终安装最新补丁,以防范系统漏洞。例如,Windows Server 定期推送安全更新,修复如远程代码执行等潜在威胁。优化系统服务配置:关闭不…

一家医药企业终止,收入依赖阿里健康,学术推广费快赶上净利润

知原药业终止原因如下:知原药业报告期三年的推广费用超3亿元,快赶上这三年累计3.68亿元的净利润了,交易所质疑其学术推广费单价合理性、是否存在销售返利。并且,公司研发费用率低于行业平均水平,在电商平台营销主要依赖…

pytorh学习笔记——cifar10(三)模仿VGGNet创建卷积网络

VGG16是由牛津大学视觉几何组(Visual Geometry Group)提出的一种深度卷积神经网络模型。 VGGNet 探索了卷积神经网络的深度与其性能之间的关系,成功地构筑了 16~19 层深的卷积神经网络,同时拓展性又很强,迁移到其它图片…

【LeetCode】11.盛最多水的容器

思路: 利用双指针法进行移动,一个在头一个在尾,此时宽度最宽,当宽度缩小时,高度发生变化,从而可以找到最大值。 代码: int maxArea(int* height, int heightSize) {int* left height;int* …

仿真学习 | Fluent版本迭代一览及选择指南

在计算机辅助工程(CAE)领域,软件版本的更新迭代,影响了工程师的工作效率、工作习惯和仿真精度,“如何选择软件版本”也永远是摆在每个初学者面前的第一个难题。 计算流体动力学(CFD)领域的领军…

嵌入式工程师必备——NTC曲线拟合

最近搞了一下NTC热敏电阻,打算和大家分享一下; 首先看NTC手册,25℃时是5K,温度系数B是3470,有一些NTC会直接给出公式,那种直接按照手册计算就好; 1、下面是温度和阻值对照表,这个表…

深度学习:YOLO目标检测和YOLO-V1算法损失函数的计算

简介 YOLO(You Only Look Once)是一种基于深度学习的目标检测算法,它的核心思想是将目标检测问题转化为一个回归问题,通过一个神经网络直接预测目标的类别和位置。 YOLO算法将输入图像分成SxS个网格,每个网格负责预测…

Golang | Leetcode Golang题解之第498题对角线遍历

题目&#xff1a; 题解&#xff1a; func findDiagonalOrder(mat [][]int) []int {m, n : len(mat), len(mat[0])ans : make([]int, 0, m*n)for i : 0; i < mn-1; i {if i%2 1 {x : max(i-n1, 0)y : min(i, n-1)for x < m && y > 0 {ans append(ans, mat[x…

uni-app微信小程序如何使用高德地图。通过经纬度获取所在城市

高德地图官方是这样介绍的使用方法可以参考&#xff1a;入门指南-微信小程序插件 | 高德地图API 我再介绍一下我得具体应用。 1&#xff0c;首先要在申请高德地图开放平台得账号。然后在这个账号中申请一个应用。类型选择微信小程序。 我的应用 | 高德控制台 获取Key-创建工…

怎样把学生的成绩单独告知家长?

期中考试季的到来让校园里的气氛似乎也变得紧张起来。家长们开始频繁地联系老师&#xff0c;希望了解孩子的表现&#xff1b;孩子们则在考试后&#xff0c;绞尽脑汁地想出各种理由&#xff0c;以期在成绩不理想时能减轻家长的失望。老师们更是忙得不可开交&#xff0c;不仅要批…

C++(标准输入输出流、命名空间、string字符串、引用)

C特点及优势 &#xff08;1&#xff09;实现了面向对象&#xff0c;在高级语言中&#xff0c;处理运行速度是最快&#xff1b; &#xff08;2&#xff09;非常灵活&#xff0c;功能非常强大&#xff0c;相对于C的指针优势&#xff0c;C的优势为性能和类层次结构&#x…

【天气识别系统】Python+卷积神经网络算法+人工智能+深度学习+TensorFlow+算法模型训练+Django网页界面

一、介绍 天气识别系统&#xff0c;以Python作为主要编程语言&#xff0c;通过收集了4种常见的天气图像数据集&#xff08;多云、雨天、晴天、日出&#xff09;&#xff0c;然后基于TensorFlow搭建卷积神经网络算法模型&#xff0c;通过多轮迭代训练&#xff0c;最后得到一个识…

Go 语言基础教程:6.条件判断

在这篇教程中&#xff0c;我们将通过一个简单的 Go 语言程序来学习条件判断结构的使用。以下是我们要分析的代码&#xff1a; package mainimport "fmt"func main() {if 7%2 0 {fmt.Println("7 is even")} else {fmt.Println("7 is odd")}if 8…

社交媒体与客户服务:新时代的沟通桥梁

在数字化时代&#xff0c;社交媒体已成为人们日常生活中不可或缺的一部分&#xff0c;它不仅改变了人们的沟通方式&#xff0c;也深刻影响着企业的客户服务模式。从传统的电话、邮件到如今的社交媒体平台&#xff0c;客户服务的渠道正在经历一场前所未有的变革。社交媒体以其即…

聚类分析算法——K-means聚类 详解

K-means 聚类是一种常用的基于距离的聚类算法&#xff0c;旨在将数据集划分为 个簇。算法的目标是最小化簇内的点到簇中心的距离总和。下面&#xff0c;我们将从 K-means 的底层原理、算法步骤、数学基础、距离度量方法、参数选择、优缺点 和 源代码实现 等角度进行详细解析。…

Easy Excel合并单元格情况简单导入导出

需求 实现报表数据的导入导出&#xff0c;表格中部分数据是系统生成&#xff0c;部分数据是甲方填写&#xff0c;录入系统。 批号唯一 Maven <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>3.…