人工智能咨询培训老师叶梓 转载标明出处
有效的决策制定对于组织的成功至关重要。传统的决策支持系统虽然在数据分析和决策辅助方面取得了一定的进展,但在处理需要复杂数据分析的决策问题时仍显不足。为了解决这一问题,来自韩国高等科学技术院(KAIST)的研究人员提出了一种名为PlanRAG(Plan-then-Retrieval Augmented Generation)的新技术,旨在利用大模型(LLMs)进行复杂的决策分析。
图1展示了一个决策问题的例子,其中涉及到在游戏《欧陆风云4》中决定在哪个贸易节点上放置商人以最大化特定国家在主贸易节点上的利润。说明了决策型大型语言模型(LLM)如何分析数据库并做出决策。
研究人员定义了一种名为决策问答(Decision QA,简称DQA)的新任务。DQA任务的目标是为给定的决策问题Q、商业规则R和数据库D找到最佳决策dbest。表 3 显示了 DQA 中数据库的一些统计数据。PlanRAG的提出就是为了有效解决这一任务。
想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
留言“参加”即可来叶老师的直播间互动,让您轻松上手,学习如何使用 Llama Factory 微调模型。互动交流,畅谈工作中遇到的实际问题。
PlanRAG方法
PlanRAG方法的核心在于它将决策过程分为三个阶段:规划(Planning)、检索与回答(Retrieving & Answering)以及重新规划(Re-planning)。图3比较了传统的RAG技术和本文提出的PlanRAG技术的推理过程。展示了PlanRAG在规划、检索、回答和重新规划方面的迭代过程。
图4通过一个具体的例子,展示了迭代RAG和PlanRAG在Locating场景中如何生成查询并根据查询结果进行推理和决策。
规划阶段,大模型接收决策问题Q、数据库模式S和业务规则R作为输入,然后生成一个初步的数据分析计划。这个计划详细描述了为了做出决策需要执行的一系列数据分析步骤。Figure 4(b)显示了一个规划阶段的例子,其中模型确定了需要分析的数据和分析的顺序。
检索与回答阶段,大模型不仅接收Q、S和R,还包含了初步计划作为输入。然后,它生成用于决策的数据查询,这些查询通过SQL或Cypher语句在数据库中执行。Figure 4展示了PlanRAG如何不同于以往的RAG技术生成查询。查询结果被用来反复推论是否需要重新规划或进一步检索以做出更好的决策。通过与规划过程的反向链接,规划和检索过程被迭代执行,直到大模型确定不再需要进一步分析即可做出决策。
重新规划阶段,在初步计划不足以解决问题时进行。为了使大模型能够决定是否需要重新规划,研究者通过添加一些指令来评估当前计划,并参照每次检索步骤的结果。最终,大模型接收Q、S、R以及当前计划和查询结果作为输入,并生成一个新的计划进行进一步分析,或纠正先前分析的方向。
通过引入规划和迭代检索的机制,PlanRAG能够更有效地处理这类问题。在实现PlanRAG时,研究者构建了一个单一的大模型来执行这两种类型的推理,以减少使用单独大模型时的副作用。通过添加‘Plan’和‘Re-plan’指令到ReAct框架中,大模型能够根据数据和业务规则生成决策。
实验
研究者们为了验证PlanRAG方法在决策问答(Decision QA)任务中的有效性,实现了并比较了四种不同的决策型大模型:(1) 基于单次检索的RAG(SingleRAG-LM),(2) 基于迭代检索的RAG(IterRAG-LM),(3) 基于PlanRAG的模型(PlanRAG-LM),以及(4) 不包含重新规划(Re-planning)步骤的PlanRAG模型(PlanRAGLM w/o RP)。
这些模型都是基于ReAct框架构建的,使用GPT-4作为基础语言模型,并结合LangChain库进行实现。在数据库方面,研究者们使用了MySQL作为关系数据库管理系统(RDBMS)和Neo4j作为图数据库管理系统(GDBMS)。
实验在零样本(zero-shot)和单次运行(single run)的设置下进行,这意味着大模型在没有预先训练或仅有少量样本的情况下直接处理任务。Figure 3 对比展示了以往RAG技术和PlanRAG技术的推理过程。在以往的RAG技术中,如果从数据库D中只执行一次检索,则称为单次RAG;如果执行多次检索,则称为迭代RAG。而PlanRAG技术则通过两种类型的推理来得出最佳决策dbest:首先是制定计划,然后是根据检索到的数据进行回答。
实验结果,如Table 4所示,PlanRAG-LM在“定位”情景下的准确率为64.3%,在“建造”情景下的准确率为45.0%,相比现有的最先进迭代RAG技术分别提高了15.8%和7.4%。这一结果表明,PlanRAG在决策任务中非常有效。
Figure 5 进一步分析了PlanRAG-LM在处理简单问题(SR)和复杂问题(MR)时的准确率。PlanRAG-LM在SR问题上的表现比MR问题更为出色,这是因为SR问题实际上并不简单,它们是IterRAG-LM试图通过单次检索解决的问题,而这些问题实际上需要多次检索。
Table 5 展示了不同模型在关系数据库(RDB)和图数据库(GDB)上的准确率。PlanRAG-LM在两种数据库类型上都优于其他模型,这表明PlanRAG方法能够有效处理不同数据库中的复杂决策任务。
Table 6 显示了不同模型在决策问答任务中错过关键数据分析的比率。PlanRAG-LM的比率较低,这意味着它更有可能检索或计算出所有必要的信息来做出最佳决策。
Figure 6 展示了失败案例分析的结果。PlanRAG-LM显著减少了因考虑不当候选项(CAN)和错过数据分析(MIS)导致的错误,这表明PlanRAG-LM能够更好地理解问题并检索关键数据。
Table 7 提供了PlanRAG-LM在不同数量重新规划下的问题分布和准确率改善情况。PlanRAG-LM在“建造”情景中更频繁地进行重新规划,这表明在更复杂的决策任务中,初始计划可能不足以解决问题,需要通过重新规划来提高决策的准确性。
这些实验结果证明了PlanRAG方法在提高大模型解决复杂决策任务方面的潜力和有效性。
论文链接:https://arxiv.org/pdf/2406.12430
项目链接:https://github.com/myeon9h/PlanRAG