随着大型语言模型(LLMs)的出现,人工智能(AI)取得了巨大的飞跃。这些强大的系统彻底改变了自然语言处理,但当它们与代理能力结合时,才真正释放出潜力——能够自主地推理、规划和行动。这就是LLM代理大显身手的地方,它们代表了我们与AI交互以及利用AI的方式的范式转变。
来源:letta
这篇博客旨在全面介绍AI代理,深入探讨它们的特征、组件和类型,同时探索它们的演变、挑战和潜在的未来方向。
文章目录
- 1. 从LLM到AI代理
- 1.1 传统聊天机器人到LLM驱动的聊天机器人
- **1.2 LLM驱动聊天机器人的引入**
- 1.3 从LLM驱动的聊天机器人到RAG聊天机器人和AI代理
- 2. 什么是AI代理?
- 2.1 AI代理的特征
- 3. AI代理的核心组件
- 3.1 感知(传感器)
- 3.2 推理(处理器)
- 3.3 行动(执行器)
- 3.4 知识库
- 3.5 学习
- 3.6 通信接口
- 4. **AI代理如何与环境交互**
- 4.1 感知阶段
- 4.2 决策阶段
- 4.3 行动阶段
- 5. AI代理是如何工作的?
- 5.1 协调层(控制中心)
- 5.2 模型(大脑)
- 5.3 工具(双手)
- 6. ✅ 何时使用代理 / ⛔ 何时避免使用
- 7. 应用领域
- 8. 结论
让我们先了解一下从LLM到AI代理的演变过程。
1. 从LLM到AI代理
LLM应用形式的演变是我们所见过的现代应用中发展最快的之一。
来源:mongodb
1.1 传统聊天机器人到LLM驱动的聊天机器人
聊天机器人并不是什么新鲜事物;在生成式AI(Gen AI)这个术语出现之前,你可能就已经在网站上与聊天机器人互动过了。传统聊天机器人与今天的AI驱动的对话代理有着根本的不同。它们通常是这样工作的:
基于启发式的响应:
- 传统聊天机器人基于规则逻辑(“如果-那么”语句)运行。
- 仅限于预定义的规则,无法处理复杂或模糊的查询。
固定响应:
- 响应是静态的、预定义的。
- 通过检测特定的关键词或短语来触发。
- 缺乏灵活性和对话深度。
转接人工:
- 总是有一个“与人工对话”的按钮,用于处理未解决的查询。
- 人工干预对于处理复杂问题仍然至关重要。
来源:mongodb
1.2 LLM驱动聊天机器人的引入
ChatGPT的推出: 2022年11月30日,OpenAI推出了ChatGPT,它由GPT-3.5驱动,是第一个主流的LLM应用。ChatGPT保留了熟悉的聊天机器人界面,但背后是经过大量互联网语料库训练的先进LLM技术。
Transformer架构: GPT(生成式预训练Transformer)基于谷歌在2017年引入的Transformer架构。它使用自注意力机制来分析输入序列,更深入地理解上下文。
LLM的能力: 与传统聊天机器人不同,LLM可以生成类似人类、与上下文相关且新颖的文本。用例包括代码生成、内容创作、增强客户服务等。
局限性:
- 个性化: 在长时间的对话中难以保持一致的个性化互动。
- 幻觉: 可以产生在事实上不正确但连贯的响应,基于概率而非经过验证的知识生成输出。
解决局限性的方法:
- 探索像**检索增强生成(RAG)**这样的技术,以使输出基于可靠的外部数据。
- 这些进步旨在减少不准确之处,提高LLM驱动系统的稳健性。
1.3 从LLM驱动的聊天机器人到RAG聊天机器人和AI代理
RAG聊天机器人: 检索增强生成(RAG)将外部数据检索与LLM能力相结合,以产生准确且基于上下文的响应。
知识来源:
- 非参数化知识: 从互联网或专有数据库等外部来源实时检索的数据。
- 参数化知识: LLM训练中嵌入的知识。
优势: 减少幻觉,提供最新的信息,并确保可验证的响应。
提示工程: 通过引导LLM的推理和输出生成,像上下文学习(单次、少量)、思维链(CoT)和ReAct等技术提高了响应质量。
来源:mongodb
AI代理: AI代理是从具有工具、多步规划和推理能力的LLM演变而来的。
工具使用: LLM可以通过分析任务并通过结构化模式(例如JSON)分配参数,调用程序定义的函数或API。
环境: AI代理在迭代执行环境中运行,能够根据反馈进行动态决策和持续适应。
代理系统: 这些是具有自主代理的计算架构,能够集成多个系统组件、做出决策并实现目标。
代理式RAG:
- 将LLM的推理、工具使用和规划能力与语义信息检索相结合。
- 能够
分解任务、执行复杂查询并利用工具解决问题的动态系统。
来源:mongodb
从LLM驱动的聊天机器人到RAG聊天机器人和AI代理的转变,代表了向更智能、更适应性强且能够实时解决复杂问题的工具集成系统的转变。