何谓Agent
Agent 作为一种新兴的人工智能技术,正在受到越来越多的关注。要说清楚什么是 Agent,先得看看人工智能的本质是什么。
人工智能这个名称来自它试图通过计算机程序或机器来模拟、扩展和增强人类智能的 一些方面。在这个定义中,“人工”指的是由人类创造或模拟,而“智能”指的是解决问 题、学习、适应新环境等的能力。人工智能领域的研究涵盖了从简单的自动化任务到复杂 的决策和问题解决过程,其根本追求是开发出能模仿、再现甚至超越人类智能水平的技术 和系统。
传统的人工智能技术通常局限于静态的功能,它们只能在特定且受限的环境中执行预先设定的任务 。这些系统往往缺乏灵活性和自适应能力,无法自主地根据环境变化调整自 己的行为。
这个局限就是 Agent 概念的出发点,它旨在推动 AI 从静态的、被动的存在转变为动 态的、主动的实体。
那么,下个定义:Agent,即智能体或智能代理(见图 1.4),是一个具有一定程度自主性的人工智能系统。更具体地说,Agent 是一个能够感知环境、做出决策并采取行动的系统。
在人工智能领域中, 代理是一种具有计算能力的实体,研究者只能观察到它们的行为和决策过程。为了深入理解和描述这些代理,研究者通常会引入其他几个关键属性,包括自 主性、反应性、社会亲和性以及学习能力,以全面地认识人工智能代理的能力和潜力。
Chat GPT 首先通过文本或语音输出框来感知环境,并进行推 理决策,之后再通过文本框或者语音与人们互动。当然,还有更为复杂的 Age nt。这 里以自动驾驶 Agent 为例进行介绍。
■ 感知环境,就是指 Agent 能够接收来自环境的信息。例如, 一个自动驾驶 Agent 可以感知周围的交通情况、道路状况等信息。
■ 做出决策,就是指 Agent 根据感知的信息制订下一步的行动计划。例如,自动驾 驶 Agent 根据感知的信息决定是否加速、减速、转弯等。
■ 采取行动,就是指 Agent 根据决策执行相应的行动。例如,自动驾驶 Agent 根 据决策控制汽车的加速器、刹车、方向盘等。
因此,Agent 能够独立完成特定的任务。Agent 的四大特性如下。
■ 自主性:Agent 能够根据自身的知识和经验,独立做出决策和执行行动。
■适应性:Agent能够学习和适应环境,不断提高自己的能力。
■ 交互性:Agent 能够与人类进行交互,提供信息和服务。
■ 功能性:Agent 可以在特定领域内执行特定的任务。 从技术角度来说,Agent 通常包括以下核心组件。
■ 感知器:Agent 通过感知器接收关于环境的信息。这可以是通过传感器收集的实 时数据,也可以是通过数据库或互联网获取的信息。
■ 知识库:Agent 根据目标和以往的经验,通过知识库存储和管理有关环境和自身 状态的信息。
■ 决策引擎:Agent 分析感知的信息,并结合知识库中的数据,通过决策引擎做出 决策。
■ 执行器:Agent 通过执行器在环境中采取行动。这可以是物理动作,如机器人移 动其手臂,也可以是虚拟动作,如在线服务发送信息。
尽管构建 Agent 的基石已经准备就绪,但 Agent 的技术发展仍处于萌芽阶段。开 发者需要进行深入思考并动手实践,以确立 Agent 的开发框架、Agent 访问工具的方 式、与数据交互的方式,以及如何对话以完成具体任务。这些问题的答案将塑造未来 Agent 的形态和能力。
在解锁 Agent的巨大潜力的过程中,我们需要深入探讨以下几个关键问题。
■ Agent 如何在各行各业中提升效率以及创造机会和更多可能性?
■ 在众多的 Agent 框架中,如何选择适合自己需求的框架?
■ 在解决现实世界的问题时,如何实施 Agent 才最有效?
■ 自主 Agent 如何改变我们对人工智能驱动的任务管理的认知和实践?
学习 Agent需要这样一本AI Agent书籍
目前无论是学术界还是产业界,对人工智能应用开发的关键问题远未达成共识。《动手做AI Agent GPT》或许可以作为读者深入探讨上述问题的漫长旅途的开端。本书旨在从技术和工具层面阐释 Agent 设计的框架、功能和方法,具体涉及如下技术或工具。
■ Open AI API 以 及 Open AI Assistants :用 于 调 用 包 含 GP T -4 模 型 和 DALL ·E 3 模型在内的众多人工智能模型。
■ LangCha in :开源框架,旨在简化构建基于语言的人工智能应用的过程,其中 包含对 ReAct 框架的封装和实现。
■ Llama Index :开源框架,用于帮助管理和检索非结构化数据,利用大模型的 能力和 Agent 框架来提高文本检索的准确性、效率和智能程度。
这些技术和工具都可以用于构建 Agent,它们通过接口连接大模型,为 Agent 提 供语言理解、内容生成和决策支持的能力。通过它们, Agent 可以支持多种外部工具, 进而执行复杂任务以及与环境进行交互。
除了介绍 Agent 的框架和开发工具之外, 本书还将通过 7 个实操项目, 带领读者 学习前沿的 Agent 实现技术。这 7 个项目分别如下。
Agent 1:自动化办公的实现——通过 Assistants API 和 DALL ·E 3 模型创 作 PPT。
■ Agent 2:多功能选择的引擎——通过 Function Calling 调用函数。
■ Agent 3:推理与行动的协同——通过 LangChain 中的 ReAct 框架实现自动 定价。
■ Agent 4: 计 划 和 执 行 的 解 耦 —— 通 过 Lang Chain 中 的 Play - and - Execute 实现智能调度库存。
■ Agent 5:知识的提取与整合——通过 LlamaIndex 实现检索增强生成 Agent。
■ Agent 6:GitHub 的网红聚落——AutoGPT、BabyAGI 和 CAMEL。
■ Agent 7:多 Agent 框架——AutoGen 和 MetaGPT。
此外,我还在附录中简要介绍了科研论文中 Agent 技术进展,旨在为读者提供当前 Agent 技术发展的全面视角并展现相关的探索。