LLM Agent零微调范式 ReAct Self Ask

前三章我们分别介绍了思维链的使用,原理和在小模型上的使用。这一章我们正式进入应用层面,聊聊如何把思维链和工具使用结合得到人工智能代理。

要回答我们为什么需要AI代理?代理可以解决哪些问题?可以有以下两个视角

首先是我们赋能模型,如果说LLM是大脑,那Agent提供了手脚和感官

  1. 感官:获取真实世界的信息,包括实时信息像天气情况,金融市场,交通状况;包括私有信息例如用户个人数据;包括多模态信息像声音和图像
  2. 手脚:获得和真实世界交互的能力,例如运行python脚本,调用搜索引擎,预定机票酒店。

其次是模型赋能我们,Agent加持的大模型,作为更优的数据和任务中介/代理,赋予了我们和任意数据类型交互的能力,大模型正在重构数据和信息的处理方式。从之前的结构化数据为主向更多的非结构化数据转变。

OpenAI应用研究主管LilianWeng写的LLM Powered Autonomous Agents把人工智能代理(AI Agent)分成了以下3个部分:规划模块,工具调用模块和记忆模块。

之后几章我们会聊到AI代理方案的主要差异也在这三个方向

  1. 规划:如何对问题进行拆解得到解决路径,既模型推理步骤
  2. 工具:支持哪些工具使用,如何进行工具选择,并生成调用工具的请求
  3. 记忆:短期记忆包括工具的返回值,已经完成的推理路径,长期记忆包括可访问的外部长期存储例如知识库

第一篇我们结合langchain介绍无需微调,使用few-shot,zero-shot prompt来生成推理和工具调用模板的两个方案ReAct和SelfASk。个人对langchain是又爱又恨,爱的是它集成了很多前沿的大模型应用方案,恨是感觉它有些过度封装,有点简单问题复杂设计的感觉。因此推荐使用langchain来理解每种方案的实现原理,然后脱离langchain自己写,或者只使用langchain的基础组件来实现,不要去使用它的高级API。

Self Ask

  • Self-ask: MEASURING AND NARROWING THE COMPOSITIONALITY GAP IN LANGUAGE MODELS
  • Self-ask Prompting – Ofir Press

原理

Self Ask提出了一种把问题拆解成子问题的Prompt范式,每一步模型都会自我提问是否可以把问题改写/拆解成一个简单的子问题,并进行回答,回答时可以调佣搜索工具来获得答案,然后根据工具返回结果,继续进行自我提问,直到获得最终答案。其实自我提问的推理形式并不是核心,核心是引导模型来进行问题拆解,也就是开头提到的规划能力。

论文提出之所以需要把原始的思维链改造成一步步自我提问的形式,是因为发现模型在回答复杂问题的时候,模型虽然可以正确回答其中的子问题,但是却无法回答由子问题组合起来的复杂问题,作者称之为Compositionality Gap。举个栗子:模型可以正确回答贾斯汀比伯是哪年出生的? 以及谁是94年大师赛的冠军? 但是模型无法回答谁是贾斯汀比伯出生那一年的大师赛的冠军?而通过引入问题拆解的推理方式,可以很好解决这个问题

应用

我们来看下langchain的Self Ask实现,官网Demo是直接用initialize_agent来初始化代理,这里我们把中间步骤拆解开。以下使用了SerpAPI的google搜索工具和GPT3.5,都需要先去官网申请Key

import os
from langchain.agents.loading import AGENT_TO_CLASS
from langchain.agents.agent import AgentExecutor
from langchain.agents import AgentType, Tool
from langchain import OpenAI, SerpAPIWrapper
## 需要科学上个网
os.environ["http_proxy"] = "http://127.0.0.1:7890"
os.environ["https_proxy"] = "http://127.0.0.1:7890"
## 定义大模型和搜索工具
llm = OpenAI(temperature=0, openai_api_key=$你的Key)
search = SerpAPIWrapper(params={"engine": "google","gl": "us","hl": "zh-cn",
}, serpapi_api_key=$你的Key)“”“
以下的工具初始化方式对齐了Self Ask 的Prompt模板
”“”tools = [Tool(name="Intermediate Answer",func=search.run,description="useful for when you need to ask with search")
]
## 组装:初始化agent和Chain
agent_cls = AGENT_TO_CLASS[AgentType.SELF_ASK_WITH_SEARCH]
agent = agent_cls.from_llm_and_tools(llm, tools)
chain = AgentExecutor.from_agent_and_tools(agent, tools, return_intermediate_steps=True)

AGENT_TO_CLASS里面定义了所有的Agent类型,其中SelfAskWithSearchAgent是Self Ask的实现,但其实不同Agent的差异,主要是以下few-shot prompt和对应的parser不同。

from langchain.agents.self_ask_with_search.output_parser import SelfAskOutputParser
from langchain.agents.self_ask_with_search.prompt import PROMPT

其中SelfAsk的few-shot prompt 如下,few-shot除了提供解码的格式之外,还提示了模型要对问题进行拆解

_DEFAULT_TEMPLATE = """Question: Who lived longer, Muhammad Ali or Alan Turing?
Are follow up questions needed here: Yes.
Follow up: How old was Muhammad Ali when he died?
Intermediate answer: Muhammad Ali was 74 years old when he died.
Follow up: How old was Alan Turing when he died?
Intermediate answer: Alan Turing was 41 years old when he died.
So the final answer is: Muhammad AliQuestion: When was the founder of craigslist born?
Are follow up questions needed here: Yes.
Follow up: Who was the founder of craigslist?
Intermediate answer: Craigslist was founded by Craig Newmark.
Follow up: When was Craig Newmark born?
Intermediate answer: Craig Newmark was born on December 6, 1952.
So the final answer is: December 6, 1952省略2个shotQuestion: {input}
Are followup questions needed here:{agent_scratchpad}"""

构建完chain我们来跑一个问题看下模型的中间返回结果

# chain.run是用于直接返回最终结果,直接调用callable可以返回中间过程
output =  chain("昨日A股市场涨幅最高的板块成交量如何")

以下是带中间结果的返回值,可以发现few-shot-prompt引导模型把问题"昨日A股市场涨幅最高的板块成交量如何"拆分成了,"昨日A股市场涨幅最高的板块?",并通过谷歌搜索得到是券商板块后,继续提问"券商板块昨日成交量"得到最终结果

这里只展示了一个goodcase,因为badcase太多啦哈哈~SelfAsk结果不好的两个主要原因有

  • 搜索没有返回有效结果:当前搜索引擎的返回结果并非为大模型回答设计,而还是为传统搜索引擎设计,返回结果不可用可能是抽取的文章摘要(snippet)不合理,或者排序逻辑返回的Top1答案不合适,再或者回答的时效性错误等等,这里存在很大的优化空间
  • 模型拆解问题有误:SelfAsk当前主要针对组合类问题,如果你的问题拆解方式不同,需要对以上few-shot-prompt进行调整,或者进一步通过COT finetune来注入问题拆解的方式

Self Ask是一类最简单的工具调用模板,只支持单一搜索工具的使用,不支持工具选择。下面我们看下支持多种工具调用的ReAct范式~

ReAct

  • ReAct: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
  • ReAct (Reason+Act) prompting in LLMs – tsmatz

原理

ReAct文如其名,模型推理分成了两个部分,Reason和Action。Reason生成分析步骤,Action生成工具调用请求,二者交替进行直到得到最终的结果。和SelfAsk对比,ReAct进一步把推理和工具调用进行了解耦, 在Self Ask中,自我提问既是推理步骤也是搜索工具的请求query,而在ReAct中工具调用的请求在推理步骤之后,这样可以更好的支持搜索以外的其他工具。

ReAct在文档问答上给出的few-shot-cot推理模板如下

应用

同样是AGENT_TO_CLASS,ReActDocstoreAgent和ZeroShotAgent是基于ReAct开发的。为了保持一致性,我们用和以上Self Ask相同的方式来初始化以下两个Agent,更简洁的初始化代码详见官网ReAct, ReActDocument Store

  • ZeroShotAgent

需要提供可以使用的工具列表,以及每种工具的描述,LLM完全基于上下文,根据工具的描述进行工具选择,适用于没有固定推理套路的场景。为了和SelfAsk对比,这里我们还是使用谷歌搜索,再额外加入Wolfram Alpha工具,代码部分只用替换工具定义的部分和agent class,其余部分完全一样。

"""
需要提供工具的描述description:用于工具选择和工具请求的生成
同时tool.name从selfAsk中统一的Intermediate Answer,调整为工具本身的名称用于生成工具调用的前缀
"""
import os
from langchain.agents.loading import AGENT_TO_CLASS
from langchain.agents.agent import AgentExecutor
from langchain.agents import AgentType, Tool
from langchain import OpenAI, SerpAPIWrapper
from langchain.utilities.wolfram_alpha import WolframAlphaAPIWrapper
## 需要科学上个网
os.environ["http_proxy"] = "http://127.0.0.1:7890"
os.environ["https_proxy"] = "http://127.0.0.1:7890"
os.environ["WOLFRAM_ALPHA_APPID"] = "你的key"
## 定义大模型和搜索工具
llm = OpenAI(temperature=0, openai_api_key=$你的key)
search = SerpAPIWrapper(params={"engine": "google","gl": "us","hl": "zh-cn",
}, serpapi_api_key=$你的key)
wolfram = WolframAlphaAPIWrapper()
tools = [Tool(name="搜索",description="搜索引擎,当你需要回答当前问题的时候调用,输入是检索query",func=search.run),Tool(name="Wolfram",description="Wolfram Alpha,当你需要回答和数学,科学,科技,文化,社会,日常生活相关的问题时调用,输入是检索query",func=wolfram.run),
]
agent_cls = AGENT_TO_CLASS[AgentType.ZERO_SHOT_REACT_DESCRIPTION ]
agent = agent_cls.from_llm_and_tools(llm, tools)
chain = AgentExecutor.from_agent_and_tools(agent, tools, return_intermediate_steps=True)
output = chain("昨日A股市场涨幅最高的板块成交量多少") #chain.run不能返回中间结果,直接调用可以返回中间过程

加入谷歌搜索和Wolfram工具后,zero-shot prompt如下,包含工具的描述和Action部分可以调用的工具列表。

继续问:昨日A股市场涨幅最高的板块成交量如何?因为没有few-shot拆解问题的指引,只有以上zero-shot去描述工具选择,因此模型并没有正确拆解问题,不过正确选择了搜索工具。

当我们提问wolfram可以解决的问题领域,例如求解几何面积时,大模型会选择调用Wolfram来解决数学问题。

  • ReActDocstoreAgent

适用于文档问答的固定推理模板+固定工具使用,论文定义了两种工具Search检索,和Lookup在文档中查找关键词所在的句子。DocStore因为推理模板固定,可用的场景比较有限,我们就做不测试了,大家可以直接去看官网给出的Demo。

React虽然本身是可以不经过模型指令微调直接使用的,但论文中也提出指令微调后效果会有提升,不过微调的方案我们会单独放一章来说。

总结

看完了SelfAsk和React的实现,不难发现二者存在一些局限性

  • 更适合简单的工具调用:这里的简单是指工具的输入和上文的文本语义比较符合,工具输入比较“自然语言”风格例如搜索。高度结构化和符号化的工具输入,使用Prompt实现,准确率比较有限。
  • 更适合少量的工具组合:受限于Prompt上文的长度,不能把几十个工具prompt全塞进去,因此更适合少量的工具组合一般是3~5个以内
  • 规划能力:在问题拆解上few-shot的效果会比zero-shot要好,不过要支持特定的问题拆解逻辑需要定制化领域few-shot。如果逻辑过于复杂或者多样性较高,只依赖固定prompt的效果也会比较一般。
  • 串行计算延时高:SelfAsk和React都是串行推理逻辑,每一步推理和工具调用都依赖上一步的推理结果,导致整体计算耗时太长。针对这个问题可以看下ReWOO[4]提出的并行推理+槽位填充的方案~

针对更复杂多样的工具调用,和更有针对性/复杂的模型规划能力,我们下一章介绍基于指令微调的工具调用方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/591471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三层架构概述

三层架构就是把整个软件的代码分为三个层次,分层的目的是:规范代码,大型软件需要团队配合的时候问题就来了,由于每个程序员风格不一样,而开发软件大量的代码风格不统一就会造成后期调试和维护出现问题,然而…

Squid 代理服务器

13.1.1缓存代理概述 作为应用层的代理服务软件,Squid主要提供缓存加速、应用层过滤控制的功能。 1.代理的工作机制 当客户机通过代理来请求Web页面时,指定的代理服务器会先检查自己的缓存,如果缓存中已 经有客户机需要的页面,则直…

Udp实现一个小型shell

实现原理 首先我们要有个客户端和一个服务器,客户端向服务器传递命令。而服务器收到命令后创建一个管道,并fork一个子进程。随后子进程解析命令,再把标准输出换成管道文件,因为命令行命令是自动输出到显示器的,所以我…

英飞凌TC3xx之一起认识GTM系列(一)先来认识GTM架构

英飞凌TC3xx之一起认识GTM系列(一)先来认识GTM架构 1 先来认识GTM的通用架构2 概览2.1 架构的简要说明2.2 架构概述1 先来认识GTM的通用架构 GTM系统使用GTM全局时钟fGTM 运行(本文称为SYS_CLK)。 特点如下: GTM模块由两个主要部分组成: 由博世设计的GTM IP v3.1.5.1 …

【Java 数组解析:探索数组的奇妙世界】

数组的引入 我们先通过一段简单的代码引入数组的概念。 import java.util.Scanner; public class TestArray01{public static void main(String[] args){//功能:键盘录入十个学生的成绩,求和,求平均数://定义一个求和的变量&…

【我与CSDN的128天】相识相知相守

目录: 相识相知相守 相识 为什么选择写博客? 写博客的目的,我觉得是因为想要记录。记录学习的过程,整理学过的知识,方便今后的复习。 更重要的是热爱分享,分享给别人知识也是一种快乐。 在某一瞬间教会某一个你不认识的人,难道不是一个很酷的事情吗? 为什么选择CSDN? 作…

企业签名分发对移动应用开发者有什么影响

企业签名分发是移动应用开发者在应用程序发布前测试、内部分发和特定的受众群体分发等方面比较常用的一种工具。那对于应用商城分发有啥区别,下面简单的探讨一下。 独立分发能力 通过企业签名分发开发者可以自己决定应用程序的发布时间和方式,不用受应用…

[2024区块链开发入门指引] - 比特币运行原理

一份为小白用户准备的免费区块链基础教程 工欲善其事,必先利其器 Web3开发中,各种工具、教程、社区、语言框架.。。。 种类繁多,是否有一个包罗万象的工具专注与Web3开发和相关资讯能毕其功于一役? 参见另一篇博文👉 2024最全面…

Android14之禁掉Selinux的两种方式(一百七十四)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

uniapp的分包使用记录

UniApp的分包是一种将应用代码划分为多个包的技术。分包的核心思想是将不同部分的代码划分为不同的包,按需加载,从而提高应用性能。使用UniApp的条件编译功能,开发人员可以根据需要将代码划分为多个包。每个包都包含一组页面和组件&#xff0…

大数据Doris(四十五):物化视图选择最优

文章目录 物化视图选择最优 物化视图选择最优 下面详细解释一下第一步最优物化视图是被如何选择出来的。 这里分为两个步骤: 对候选集合进行一个过滤。只要是查询的结果能从物化视图数据计算(取部分行,部分列,或部分行列的聚合)出都可以留在候选集中,过滤完成后候选集合…

RocketMQ源码解析-主从同步原理(HA)

1、关键组件 主从同步的实现逻辑主要在HAService中,在它的构造函数中实例化了几个对象同时在start()方法内执行启动: public class HAService {public HAService(final DefaultMessageStore defaultMessageStore) throws IOException {this.defaultMes…

李宏毅机器学习第二十三周周报 Flow-based model

文章目录 week 23 Flow-based model摘要Abstract一、李宏毅机器学习1.引言2.数学背景2.1Jacobian2.2Determinant2.3Change of Variable Theorem 3.Flow-based Model4.GLOW 二、文献阅读1. 题目2. abstract3. 网络架构3.1 change of variable formula3.2 Coupling layers3.3Prop…

阿里云域名外部入库流程

注册商是阿里云,且在阿里云管理的,请使用此教程外部入库。 如您的域名注册商是阿里云但在聚名管理,请参考教程:https://www.west.cn/faq/list.asp?unid2539 在外部入库操作之前,请先登录阿里云获取账号ID。详细的账…

软件测试方法分类-按照是否手工执行划分

接上一篇,下来我们再细讲,第二个维度的分类, 软件测试方法分类-按照是否手工执行划分 按是否手工执行划分 1,手工测试(manualTesting) 手工测试是由人一个一个的输入用例,然后观察结果,和机器测试相对应,属于比较原始但是必须的一种。 2,自动化测试(automationTestin…

【刷题日志】深度理解除(/)与取模(%)附水仙花数以及变种水仙花数题解

文章目录 🚀前言🚀除与取模🚀水仙花数🚀变种水仙花数 🚀前言 本专栏文章都直奔刷题主题,阿辉都不会在废话了,加油,少年!!! 🚀除与取…

STM32CubeMX教程11 RTC 实时时钟 - 入侵检测和时间戳

目录 1、准备材料 2、实验目标 3、实验流程 3.0、前提知识 3.1、CubeMX相关配置 3.1.1、时钟树配置 3.1.2、外设参数配置 3.1.3、外设中断配置 3.2、生成代码 3.2.1、外设初始化调用流程 3.2.2、外设中断调用流程 3.2.3、添加其他必要代码 4、常用函数 5、烧录验…

探索 CodeWave低代码技术的魅力与应用

目录 前言1 低代码平台2 CodeWave简介3 CodeWave 的独特之处3.1 高保真还原交互视觉需求3.2 擅长复杂应用开发3.3 支持应用导出&独立部署3.4 金融级安全要求3.5 可集成性高3.6 可拓展性强 4 平台架构和核心功能4.1 数据模型设计4.2 页面设计4.3 逻辑设计4.4 流程设计4.5 接…

新能源汽车冷却系统的水道管口类型有哪些?格雷希尔针对这些管口密封的快速接头有哪些?

对于新能源汽车,不仅电池,还有电机、电控、充电单元部件,都需要处于适宜的工作温度,才能维持整车的正常运行。而这些部件在运行过程中会产生大量的热量,如果不及时散热会对汽车的性能、寿命产生影响,甚至可…

Scrapy爬虫中合理使用time.sleep和Request

概述 在Scrapy爬虫中,我们需要深入分析time.sleep和Request对象对并发请求的影响。time.sleep函数用于在发起请求之前等待一段时间,而Request对象用于发送HTTP请求。我们必须仔细考虑这些操作对其他并发请求的潜在影响,以及在异步情况下可能…