Agent 来自一种哲学概念,是个很古老的哲学术语,从哲学意义上讲,“代理”的概念涉及实体的自主性,具有行使意志、做出选择和采取行动的能力,而不是被动地对外部刺激做出反应。后来人们将这一概念引入计算机科学领域,用 Agent 概念指代整个人工智能,认为人工智能是“基于计算机的、表现出智能行为各个方面的 Agent”,因此可以理解为 AI Agent 是 Agent 这一哲学概念在人工智能领域的具体化,是能够感知周围环境,做出决策,然后采取行动的计算实体。AI Agent 由大语言模型驱动,能把目标自动分解成子任务,并调用工具来完成。这种应用框架把大模型的自然语言理解、内容生成、逻辑推理等核心能力外推到具体场景,辅以感知与行动技术,有端到端解决问题的潜力,因此被认为是大模型落地的重要模式。这引起国内外巨头、创业者和投资圈的热切关注,开始广泛布局AI Agent(或称智能体)框架、开发平台或具体应用。OpenAI在 2023年11月推出Assistant API以及后续的GPTs,进一步推高Agent热潮。
关于Agent基本共识是一种能够感知环境、自主决策、执行复杂任务的智能实体,现阶段Agent则以大语言模型(LLM)为核心驱动力,以记忆、规划和工具能力为关键模块。但目前大家看到的“Agent”与以上共识目标还有很大距离,大多是部分功能实现,或者是有Agent思想的方案。这也是Agent从理念到落地的必经阶段,本文将简要梳理国内外一年来的主要进展,初步构建行业结构,并分析下一步发展要解决的重点问题。
一、发展现状
关于 AI Agent 的发展现状,一方面在类型上,大致呈现了两种方向,一种侧重类似人的功能性的部分,如协同办公领域的钉钉 AI 助理等,另一种侧重类似人的社会性的部分, character.ai,允许用户设计自己的个性化 AI Chatbot 并与之互动,用户可以通过 Chatbot 和名人进行互动,也可以虚构形象进行角色扮演,以及斯坦福虚拟小镇 Smallville。
目前大模型的产品类型,主要有两种:
-
Copilot:翻译成副驾驶,助手。在帮助用户解决问题时起辅助作用,例如github copilot是帮助程序员编程的助手。
-
Agent:更像一个主驾驶,智能体,可以根据任务目标进行自主思考和行动,具有更强的独立性和执行复杂任务的能力。
在具体商业化形式上,目前市场上已有的 AI Agent 可分为如下几类:
1、垂直领域 Agent 产品,指可用于特定任务或面向某个垂直行业的 AI Agent,垂直领域 Agent 最重要的还是领域数据和行业 know-how,如法律领域备受欢迎的 AI Agent CoCounsel,本身是法律领域非常资深的行业参与者,储备了丰富的垂直领域数据;
2、通用助理类 AI Agent,适用多场景,包括个人办公+生活等,大多基于已有的平台或操作系统存在,如 Windows 的助理功能、上面提到钉钉的 AI 助理等;
3、AI Agents 应用开发平台,包括 Agents 托管和聚合平台,如字节的扣子,这类平台同时具有 PGC 和 UGC 的性质,更多的用户是个人,平台类的还有一种更聚焦帮助企业低门槛构建和义务结合的 Agents 平台,这类 Agents+workflow 平台更专注企业的工作流程和可用性,如 Voiceflow 可帮助企业客户快速创建一个官网的 AI 客服助手。
二、基于LLM的 Agent框架
Agent框架是要提供一套方法和工具,让其他人更高效地直接开发一个有具体功能的智能体。由于大模型能力边界还在拓展,Agent的形态和应用场景将长期处于探索阶段,有效的可复用框架尚未定形。各类平台厂商、研究机构与创业企业等相继推出了多个单智能体、多智能体,以及机器人自动化(RPA)智能体等框架项目。从实际调研和行业反馈来看,这些框架项目总体思路遵循“Agent=LLM+记忆+规划+工具”的典型结构,探索了多个场景的实现方法,但大多处于概念验证,产品demo阶段。常见问题有项目文档不太完善、复用效果不稳定、任务拆解过细导致调用模型成本太高,以及与推理能力不够等。
(1)多智能体框架发布为主:主要解决单智能体视角不足、能多工作流并行、让推理过程更加显性可靠,以及兼容多模态数据等问题。其中,AutoGen项目文档完整,有一定通用性和较好的复用能力,是目前最热的解决问题型框架;
(2)企业RPA引入Agent架构:即把RPA(机器人流程自动化)作为Agent的工具模块,让Agent参与到企业营销、生产管理与运营的自动化操作中,具备在企业落地的前景。如ProAgent项目通过实验,验证了大模型智能体在自动化中的可行性与潜力。
(3)用户界面Agent 框架成热点:Agent将成为端侧用户界面的重要入口,已初步形成共识。现阶段相关框架项目主要模拟人进行界面自动化操作,能根据目标要求,自主调用APP来完成目标任务,如腾讯AppAgent、阿里MobileAgent等项目。未来系统级别的Agent有望直接操作App或者子Agent,在PC、手机、自动驾驶领域预计有广泛的应用场景。
三、AI Agent构建与开发平台
由于Agent的框架形态尚未成熟,Agent平台因此同样处于早期阶段。目前具备明确工作流,或有比较标准程序(SOP)的相对封闭场景,Agent有开发和工程化的探索空间;而面对需要Agent自主决策与工作流编排的开放场景,尚未见到有效方案。即便是热门平台,在API生态,工作流框架复用、组合支持方面都不完善。
Agent平台可以简单划分为两大类,即基于知识库和数据库的聊天机器人类(Chatbot)简单构建平台,和解决复杂问题的、有多工作流编排的复杂Agent开发平台。Open AI GPTs属于前者。具体根据面对不同的对象、流程、构建代码的复杂程度等角度,我们又可细分为以下几类:
(1)面向公众和非开发人员的无/低代码构建平台:主要是“类GPTs”平台,提供标准化的界面和构建流程,以基于知识库的聊天机器人(chatbot)开发为主,不太涉及参数设置,即简单的agent构建平台。比如字节的扣子平台(国内版),定位下一代AI聊天机器人构建平台。
(2)面向开发者的平台,基于模型托管的综合开发平台也可以属于此类:平台帮助开发者调用各类API、第三方库,以及代码嵌入和参数设置等,实现Agent流程及调优。从行业反馈来看,目前Coze海外版等功能较为完善,大厂平台多数也具备开发支持能力,比如百度灵境矩阵的全代码版等。另外,阿里、亚马逊等模型托管平台,以Agent框架支持开发者调用各类AI模型开发应用,并提供向量数据库等agent基础模块组件。总体上,即使是开发平台,低代码趋势非常明显,常规代码逐步由大模型来完成。
(3)企业级开发平台:专注于企业工作流程的智能化,以原RPA厂商为主,他们将基于LLM的AI Agent思想加入到自动化平台,如实在智能TARS-RPA-Agent,壹沓科技“数字员工团队”CubeAgent,国外超自动化厂商Torq等。新兴厂商澜码科技的AskXbot平台,以及360的“大模型+ 企业知识库+ Agent”的解决方案等,也有项目落地。
四、AI Agent行业结构与趋势分析
基于以上的梳理,我们可以把Agent行业结构划分为四层,其中运营层包括Agent组件厂商与各类运营集成平台。模块组件有代表智能模块的大语言模型,记忆模块以向量数据库厂商为主,以及各类插件工具提供商、安全与通信协议等。运营平台除了AI模型托管平台、Github等Agent框架发布平台外,新出现的Agent工具集成平台(如 AgentLego)、类似E2B的Agent专属云环境和沙盒环境平台也可划入该层。其余三层上文已有分析,值得关注的是NexusGPT、Relevance AI等的数字员工Agent训练提供平台,他们的目标是将Agent集成到现有企业工作流程中,或者协助打造Agent赋能的超级个体,使个体能拥有自己的AI团队与自动化任务工作流。
对于Agent的下一步走向,从短期内有效发展的角度,重点要解决以下几个问题:
(1)丰富通用工作流与场景工作流:由于对LLM推理与规划能力的认知仍有待探索,明确的工作流实际是Agent行动能力的关键部分,比如通用框架中的多agent讨论工作流、企业业务场景典型工作流等。即先有优化后的标准流程,才能自动化、智能化,而不是反过来。
(2)深耕专属数据与行业知识形成积累:产业大概率会从垂直领域先进行商业化尝试,凭借在垂直领域的 know-how 和数据积累,在垂直领域深耕的应用厂商推出 Agent 的速度会更快,让Agent成为真正的知识专家,才有可能形成可持续的、复杂的智能服务。
(3)平台能力的提升:重点是工作流复用、工具丰富度、组合能力,以及Agent 作为API的互相调用能力等,因为多Agent协同完成任务会成为常规要求。操作系统厂商可能率先实现关于通过自然语言指令操作应用自动完成任务的想法,像是微软、谷歌本身生态搭建的比较好,可以影响一些重点的第三方应用。
(4)平台生态与Agent商业模式建设探索:2C平台方面,目前平台、应用创建者、API提供者、消费者之间尚未形成明确的商业关系,大多处于免费阶段,这不符合AI时代的算力成本特点,难以长久,2B最大的问题同样是缺乏经济可行的方案。OpenAI、DeepMind 等具有早期技术积累的厂商,预计对行业引领甚至标准产生较大影响,比如 OpenAI 去年 11 月 DevDay 上发布了定义 AI Agent 的 API 和开发框架 Assistants API。
总体上,预计 Agent 整体产业发展是渐进式而非爆发性的,主要依赖大模型能力提升的进度。2024年Agent在游戏,尤其是多智能体游戏,以及代码编程、有标准化作业流程的任务环节,能得到实际应用的空间相对较大。
从更长时间的维度去看,AI Agent 体现了人类对 AI 最本质的构想,其被认为是 AGI 即通用人工智能阶段的重要应用方向,未来的 AI Agent 将会更具有自主性。
从用户角度来看,AI Agent 的发展也会带来更多“超级个体”的出现。基于 Agent 与其他超级个体建立更为智能化与自动化的协作关系,未来 Agents 之间能自动协作打造一个虚拟的世界,使得置身于世界上各个角落的人们共处其中进行各类协作,通过自然语言驱动共同开发游戏、创作艺术、发展教育、研发设计、解决医学疑难问题等。
此外,AI Agent 正在促使 AI 基础设施化,平台会成为重要载体。一方面,基于本地构建 Agent 的挑战性,将 Agent 作为一种服务来提供将越来越流行,即 Agent 即服务(AaaS),可以为用户提供灵活性和按需服务;
举例来说:允许用户通过 API 访问和使用云端的 AI Agent。这些 Agents 可以执行各种任务和操作,如数据处理、自动化任务、自然语言处理等,而无需用户在本地部署或管理。其中 Tiny Fish、Reworkd、basepilot、induced、Superagent、Browse AI,提供 UI 自动化服务,能够自动执行用户界面相关的任务,如数据抓取、自动填表、用户操作模拟等,模拟人工操作,提高效率和准确性。
另一方面,后续大量 Agents 会涌现出来,需要新一代统一 UI 界面来构建现实与虚拟的层叠生态结构,建立人与智能体、智能体与智能体的联接,变革既有的关系与结构。