为何整个 AI 领域都朝着 AI Agents 这一方向发展？

编者按： 当前大热的大语言模型和检索增强生成模型，虽然在语言理解和内容生成方面取得了突破性的进展，但仍然存在诸多限制。它们缺乏根据目标导引行为、持续学习和与环境交互的能力，难以应对复杂多变的现实场景需求。

今天为大家带来的这篇文章，作者的观点是人工智能领域正朝着开发更智能、更自主的 AI Agent 系统迈进，这将彻底改变我们使用人工智能的方式。

作者相信人工智能的未来必将呈现出更智能、更自主的 AI Agent 形态。这种新型人工智能系统不再是简单的语言模型，而是集成了推理引擎、知识库、工具集成等多种能力于一体，能够深入理解环境、制定目标并自主采取行动，从而在诸多领域大显身手。我们有理由相信，AI Agent 将成为人工智能发展的新引擎，并最终改变人类的工作和生活方式。

本文对 AI Agent 这一概念进行了较为全面的解读，让我们一同认识 AI Agent ，认清发展趋势，做好迎接未来的准备。

作者 | Aniket Hingane

编译 | 岳扬

生成式 AI 只是人工智能发展的开端，未来可能会出现更先进的 AI 智能体系统（AI Agent），我们应当重视 Andrew Ng（译者注：Andrew Ng 是斯坦福大学计算机科学系和电气工程系的客座教授，曾任斯坦福人工智能实验室主任。他与达芙妮·科勒一起创建了在线教育平台Coursera。）、Andrej Karpathy （译者注：Andrej Karpathy 是一名斯洛伐克裔加拿大计算机科学家，曾担任特斯拉人工智能和自动驾驶视觉总监。他曾任职于OpenAI，专门研究深度学习和计算机视觉。）等 AI 领域权威人士对于这一趋势的分析和看法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

01 本文主题

人工智能的未来将会是 Agentic（译者注：能够像人类一样，根据环境、知识和目标来自主进行决策和做出相应行为。）！本文将探讨什么是 AI Agents ，并梳理 AI 行业内部对这一概念的理解和定义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

文章的核心内容是阐释和探索 “AI Agents” 这一概念，这种技术将在决定和影响未来发展方向上变得越来越关键。期望读者能通过阅读本文对 “AI Agents” 有一个全方位的认识，不仅掌握它们的基本特性，还能了解到它们是如何被运用于各种行业场景中的。接下来，本文将展开讨论这些内容。

02 为何不容错过本文？

我相信本文的内容你绝不会想错过的——因为当前正处于一个工作模式和工作环境快速变化的关键时期。

人工智能领域正不断发展，不再局限于狭窄、专业化的应用模型，而是朝着创造高度智能、较为自主的 AI Agent 这一技术方向前进。 这些 Agent 能够在大多数领域中真正帮助人类提高思维能力、工作效率或解决问题的能力，实现与人类智能的有效互补和增强。

阅读本文，我十分相信你将理解为什么整个 AI 领域都倾向于开发 advanced AI agents ，这些 Agent 有可能彻底改变我们处理和利用人工智能的方式。

无论您是对人工智能有着丰富经验的“老鸟”，还是刚踏入这个领域的“菜鸟”，了解 AI Agent 的发展轨迹对于保持信息畅通和积极参与未来的变革之旅都至关重要。

若你想要探究以下内容，本文必定不容错过：

洞悉行业革新路径：洞悉 AI Agent 将如何革新各行各业及个人职业生涯？
成为 Agent 的先行者：掌握创建并用好 AI Agent 的秘诀。
突出重围，抢占高地：在瞬息万变的科技浪潮中不掉队，甚至成为 AI Agent 时代的“弄潮儿”。

03 LLMs 和 RAG 不好用吗，为什么还需要 AI Agent 呢？

尽管大语言模型（LLMs）和检索增强生成（RAG）模型已经极大地扩展了我们在语言生成任务方面所能达到的界限。但是 AI Agent 强调的是综合智能，包括但不限于决策制定、环境交互和跨领域的知识应用，这样的智能系统能够适应更复杂的任务需求，并在与人的交流合作中展现出更强的灵活性和实用性。

AI Agent 之所以不可或缺，归结于几个核心因素：

根据目标任务导引行为（Goal-oriented behavior） ：大语言模型（LLMs）与检索增强生成模型（RAG）的主要任务是根据训练数据中的 patterns （译者注：指代算法在训练过程中从大量输入数据中学习到的常规性特征或规律，在此处应当是指语言模型通过分析文本学习到的词汇使用、句法结构或语境含义的规律。）创造出类似人类创造的文本内容。尽管如此，它们在灵活且智能地设定和追求具体目标等方面仍存在一定的劣势。反之，AI Agent 则能够被设计为具备清晰目标，并能够策略性地规划和采取行动，实现既定目标。
记忆和状态跟踪的能力（Memory and state tracking） ：目前大多数语言模型并不具备持续记忆或跟踪状态的功能，每个输入信息（input）都会被单独处理，不会考虑前后关联。相比之下，AI Agent 设计有 internal state （译者注：Agent 在运行过程中维护的一种数据结构，存储了到目前为止处理的所有信息和过去的经验。能够表现出某种形式的记忆能力，基于过去的信息来影响当前的决策或输出。）维护机制，能够不断积累知识，并运用这些累积的 state 信息为后续的决策（decisions）和行为（actions）提供依据，实现更加智能化的 AI 系统运作模式。
与环境进行互动的能力（Interaction with the environment） ：大语言模型（LLMs）的工作局限于文本范畴，一般不涉及与物理现实世界的直接互动。相比之下，AI Agent 能够感知并干预它们所处的环境，无论是数字世界（digital world）、机器人系统（robotic systems），乃至通过传感器（sensors）与执行元件（actuators）感知的真实物理世界。
知识迁移与场景泛化（Transfer and generalization） ：虽然 LLMs 擅长与其训练数据类似的语言任务，但它们往往难以将知识迁移到全新的领域或任务中。而 AI Agent ，凭借其学习、推理及策略规划的综合能力，有能力更好地将知识迁移和推广应用到新的场景中。
长期学习能力（Continual learning） ：大多数语言模型一旦训练完毕，其状态就会趋于静态固定。而 AI Agent 则可以在与新环境进行交互和不断处理新情况的过程中，边学习边优化自身知识体系与掌握的技能。
多领域任务处理能力（Multi-task capability） ：LLMs 通常是针对特定语言任务（比如文本生成、机器翻译等）而专门设计的，它们的能力比较专一。而 AI agents 则可以被设计为通用的、多任务的 AI 系统，擅长无缝融合语言处理、逻辑推理、感知理解及控制操作等多种技能，来与人类一同应对那些既繁复又多元的难题。

04 AI Agent 将如何改变世界？

假定你正在规划一次行程繁复的旅行：

LLM：能为你介绍各色旅游景点，或分享一些旅行小贴士。

RAG：擅长寻找、挖掘关于旅行✈️目的地的精彩博客与深度文章。

AI Agent：在此基础之上，更能：

根据你的旅行预算精挑细选航班与住宿信息
一键完成所有预订流程
自动整合个人旅行行程至个人日历
出发前搭配相关温馨提醒，附上必备资讯，确保无忧出行。

05 清晰理解 LLM、RAG 和 AI Agent 等概念

1. 任务导向（Task Orientation） vs. 通用知识（General Knowledge）

LLM：在语言理解和内容生成方面表现出色，堪比包罗万象的信息宝库。
RAG：通过查找、搜寻相关关键信息来增强 LLMs 的能力，但其重点仍聚焦于知识整合与文本内容创造。
AI Agent：因实现特定任务而生，能够在理解语言和在现实世界或数字系统中采取行动之间架起一座桥梁。

2. 环环相扣的多步逻辑推理

LLM 和 RAG：通常聚焦于单个输入（input）的即时解析与反馈。
AI Agent：能步步为营，执行复杂任务链条。
- 首先，检索信息（类似 RAG 策略）
- 继而，处理信息，并基于这些信息做出决策
- 最后，付诸行动，例如：
  - 发送电子邮件
  - 自动预约服务
  - 智能家居设备操控

3. 掌握主动权

LLM 和 RAG：通常仅对 prompt 直接做出回应。
AI Agent：可以主动行动、操作。它们能够：
- 监控数据流，并提醒出现的关键性变化
- 根据用户偏好主动行动
- 随着对用户的了解加深，能够学习并逐步调整行为，以便更好地符合用户需求

4. 能够与现有系统进行集成

LLM 和 RAG：倾向于在独立环境中运行。
AI Agent：则被设计为与多种系统及 API 接口进行对接：
- 可以无缝接入、访问用户电子邮件或日程信息
- 能够与数据库进行交互
- 调度管理用户授予权限的软件与硬件设备

06 AI Agent 架构主要包含哪些核心要素？

AI Agent 拥有构建一个能够自主地理解环境、做出决策并执行任务的 AI 系统所需的核心结构元素和关键组成部分。通常涵盖了以下几个基本方面：

智能推理引擎（A Reasoning Engine） ：AI Agent 的核心，通过利用强大的大语言模型（LLM）来深度理解自然语言、获取知识并推理复杂问题。
知识库（Knowledge Base） ：作为 AI Agent 的“大脑”，存储着与任务相关的事实资料、过往经验和执行任务相关的个性化设定。
工具集成、联结平台（Tool Integration） ：允许 AI Agent 通过应用程序接口（API）与各种软件应用程序和服务进行交互，从而扩展其操纵和控制环境的能力广度和深度。
环境感知模块（Sensory Input） ：为 AI Agent 装备上感知周遭世界的“眼睛”和“耳朵”，从文本、图像乃至各种感应器中获取实时数据。
人机交互界面（应当属于其中的一个关键部分） ：一座搭建在用户与 AI Agent 之间的沟通桥梁，促进与人类用户之间的无缝沟通和高效协作。 （虽然目前尚无广泛认可的标准化用户体验框架，但随着技术的飞速进步，出现一套更为成熟或普及的交互标准可计日而待。）

上述所提到的这些核心结构元素共同构成了一个能够自主解决问题的智能 AI 系统。AI Agent 能够分析问题，制定分步骤执行的解决方案和行动计划，并且具备充分的能力和决心去实施其解决方案，从而使得它们成为人工智能领域内一股变革性的新力量，有望推动 AI 向更高级阶段迈进。

Thanks for reading!

Aniket Hingane

Passionate about applying AI to practical uses,I simplify complex concepts & designs in concise articles, making complexity accessible one short piece at a time

END

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：