文|郝 鑫
1月10日,OpenAI推出了在线商店“GPT Store”。该商店已于昨日开始向付费用户、团队和企业用户推出,商店汇集了用户为各种任务创建的ChatGPT的自定义版本。
2023年初到年末,Agent就像一位来自异域的吉普赛女郎,“神秘”且“性感”。
从微软发布Microsoft 365 Copilot,引入一种基于大模型的应用开发范式,揭开了智能化的第一篇章;
到AutoGPT、BabyAGI、HuggingGPT、AgentGPT等单一Agent,向MetaGPT、AutoGen、ChatDev等多Agent框架进化,勾勒出如“斯坦福小镇”般的群体智能体蓝图;
再到OpenAI开发者大会,提出用“GPTs”方式开发Agent,更便捷的方式意味着门槛进一步降低,借此也引发了一波Agent创业热潮。
(图:用户创建的各种GPTs)
刚结束的奇绩创坛秋季路演中,AI方向,51家大模型主题公司,有34家与Agent 相关。
投资人态度一百八十度大转弯,从讳莫如深到求贤若渴,热钱撒向了澜码科技、实在智能、AutoAgents等新秀。
但至此,也才犹如一阵风吹过,微微掀起了Agent这位女郎面纱的一角。
“ AI Agent就是未来”,OpenAI联创Andrej Karpathy呼唤着。
微软比尔盖茨发出了“五年内每个人都将拥有AI私人助理Agent,Agent将颠覆软件行业 ”的最强音。
Agent未来将至,但笼罩在其身上的迷雾却久久不能散去。在基本的概念理解上,仍然众说纷纭,有人认为Agent是一种分解复杂任务的框架;有人认为Agent是大模型应用的落地抓手;有人认为是一种新的交互方式;也有人认为是一种原子化的智能生产力……
对于Agent的不同理解,一定程度上决定了道路选择。从目前落地现状来看,大致可以分为三类:
重塑工作流,推动一些本身就有机器参与的行业从自动化走向智能化,典型领域如RPA、BI等;
与大模型、企业私域数据结合,嵌入到原有业务中,落地企业级应用;
将Agent视为可“自我进化”的新物种,通过加强其学习理解能力,来自行解决人类可能出现的问题。
“核心在于不去主动定义Agent,而是让Agent来自我定义”,System2 Research产品化负责人陈锴杰道。
作为Agent“自我进化”观点的推崇者,集结了OpenAI GPT 架构的共同作者和来自MIT、剑桥、普林斯顿等学校的技术和理论资源的创业公司System2 Research ,从2018年就已经关注到了Agent技术,GPT能力的涌现让其看到落地的可能性。得益于此,在大部分企业还在钻研概念和技术阶段,这个十人规模的团队已经在开始在时尚、游戏、教育等领域探索落地和商业化。
大模型来了以后,Agent发生了怎样的改变?如何让Agent像人一样自我进化?为什么泛娱乐场景是Agent快速着陆的第一站?带着重重疑惑,光锥智能对话System2 Research团队,解开关于Agent的迷思。
核心观点如下:
1、Agent的脉络就是在不断地抽象世界知识去压缩,什么时候抽象能力足够强,能支撑在足够多场景互动,就是其从实验室走向应用之时。
2、因为大模型能力的突破,未来五年,Agent技术将会有极大的改变。
3、真正发生改变的是,有了大模型后,今天的Agent完成了从演员到导演的角色转变。
4、核心在于不去主动定义Agent,而是让Agent来自我定义。从需求起点出发,Agent可以自行去填补中间过程空白,完成最终的目标。
5、Agent与大模型能力处于垂直方向,即大模型的底座越好,Agent的能力也就越强。
以下为对话实录:
光锥智能:OpenAI的开发者大会彻底带火了Agent的概念,这对你们这类Agent创业公司有哪些直接影响?
System2 Research:我觉得这个问题十分有意思,以前我们在和投资人接触聊Agent的时候,投资人的第一反应是“哦,是Agent”,表现出的兴趣不大,大多数情况下其实不知道我们在干什么。但现在出去再聊,几乎是一拥而上,路演现场,虽然只是简单地展示了一下demo,还是有很多人过来主动联系。总之,大家的眼神中多了一丝惊喜。
光锥智能:你和你的团队是从什么时候关注到Agent技术的?是什么原因让Agent从实验室走向了应用?
System2 Research:实际上,团队中大多数人都在上学期间或实验室里就接触到了Agent相关的理念和技术,在这个研究方向上甚至有人一直从2018年跟进到了现在。以我来举例,早在大二的时候就接触到了Agent,那时我在杜克大学的交互实验室里面研究如何控制火星车的运行,其中涉及的控制算法跟Agent的概念大致相同。可以把火星车想象成一个Agent,要让它能够自主地在复杂环境中运行、反馈。
在第一次游戏创业上,我也曾有过类似的尝试。2020年,那时还没有大模型的概念,所以要完成一个游戏世界的构建,需要通过压缩现实世界的知识来实现,以此来模拟NPC、玩家的心智,达到更好的体验效果,那也是我第一次去主动研究Agent技术。尽管,我们设计了很多玩法,推动游戏用户来进一步丰富游戏世界模型,但模拟、反馈效果却不是很尽如人意。
我们发现,Agent从只能模拟运行几条简单的规则,发展至从心理学、神经科学的角度来仿真人的思考过程,其整条脉络就是在不断地抽象世界知识然后去压缩,什么时候抽象能力足够强,能支撑在足够多场景中互动,就是其从实验室走向应用之时。
显然,这个时刻已经来了,那就是GPT的诞生。今年年初最让我震撼的瞬间就是,基于GPT模型的一些小范围尝试,竟然能够完成Agent在心智层面对人的高度抽象和模拟。也是从那个时刻开始,我们坚定地认为,因为大模型能力的突破,未来五年,Agent技术将会有极大的改变。
光锥智能:关于Agent到底是什么,至今仍众说纷纭,你们是如何定义和理解Agent概念的?
System2 Research:我们通常会尝试用一种比喻来解释对Agent概念的理解。首先,我们谈到Agent的前提,它得是一个带有智能属性,能在某一个环境中做动作,并基于这个行为在环境空间中做出反馈。这个核心的定义,发展了20多年,其实差异性不大。我们认为,真正发生改变的是,有了大模型后,今天的Agent完成了从演员到导演的角色转变。
以前控制Agent的主动权在用户手中,Agent被告知,表情需要再夸张一点,腿需要再抬高一点,按照指令来演出。但现在,Agent进化为了导演,能够指挥片场所有演员和工作人员的编排,最后呈现出一部大戏。
光锥智能:你们对Agent的理解和现在市场上其他定义的区别在哪里?
System2 Research:我们看到,现在大部分的大模型都是通过prompt这类language engine(语言引擎)来唤醒,这相当于我现在有GPT这样的技术,也有一个目标,但技术到目标实现中间存在特别大的鸿沟。我们认为,这个gap,靠语言指令是无法填补的,要靠具体的动作来完成实现。
我们的核心在于不去主动定义Agent,而是让Agent来自我定义。这样的定义,十分具有生命力,因为它是从问题和需求角度出发,即从发出指令、产生需求的起点,到中间过程再到目标实现都是靠智能体自行完成,而大模型在其中的角色就是提供Agent运行所需的能力支持。
比如在学习设计过程中,我们让Agent自己去学习和理解,去看各种成功的和失败的案例,直接从这些案例中掌握通用的方法,提升设计的能力。等到开始设计鞋子的时候,就不需要人去告诉它第一步应该做什么,第二步应该找哪些颜色搭配方案参考,而是可以像一个设计师一样,有自己的一套方法论。
过分地去强调流程、组织是没有太大意义的,特别是在创意性的行业,毕竟作为人类我们最想要的是最终的呈现结果,到底是三步还是十步完成,不是很重要。若Agent在自我学习后,帮人类简化流程,一步到位,将能释放更大的生产力。
光锥智能:OpenAI以“GPTs”的方式提出了Agent的创作框架,在你们看来,目前这种框架还存在哪些缺陷?基于自身的思考,你们如何从技术上构建自身的Agent?
System2 Research:OpenAI提出了Agent创作框架,但事实上,GPTs 只是 Agent框架,并没有解决Agent的核⼼技术要点。在实际落地过程中,我们也发现,GPTs也仅能满足一些初步的需求,并不能真正地现实应用场景中。
(图:使用ChatGPT-4创建GPTs的界面)
因此我们小组的研究着重于解决 GPT-4 和 GPTs 中没有解决的长期记忆、鲁棒性、成本高、效率低、可控性差等一系列的Agent问题。
总结下来,我们的整个技术框架包含了五个特点。
长线程能力。我们的长线程思考能力是原来智能体GPT的7.5倍,Agent也更像人,不像工具,能解决复杂问题。像一个导演可以操控一群演员来完成的任务,创造自己。
精确可控。让大模型与数值模型结合,能够无缝结算到数值系统,或由数值系统引导大模型的生成。
鲁棒性更好。实验数据显示,我们构建的Agent鲁棒性是GPT的1.8倍。
更高的效率和更高的性价比。通过技术把Agent思考交流的过程内化,直接训练到模型里面,输出速度比GPT-3.5稍慢,但效果更好。内化后,不会占用大模型的token数量,可以用比GPT-3.5更低的成本,大规模运行比GPT-4 效果更好的Agent。
无限记忆、学习迁移能力强。我们论文中提到一个发现,即在Agent已经学习了很多内容,在学习新任务的同时,旧任务的表现没有明显的下降。这意味着Agent具备了强大的迁移学习能力,就像滚雪球一样越学越灵,可以更快地跨越更多的场景,而且可以用同一套模型去服务一整个行业。
光锥智能:System2 Research和时谛智能的关系是怎样的?为什么把时尚行业作为Agent技术落地应用场景的第一站?
System2 Research:System2 Research小组是⼀个专注推动大型模型领域革新的研究⼩组,集合了一些来自MIT、剑桥、普林斯顿等院校的顶尖学者和实践者。其中不少人在技术和理论方面都有所积淀,比如曾经与OpenAI GPT 架构的共同作者Karthik,以及ReAct和ToT框架的作者姚顺雨,共同发表了Agent技术框架FireAct。
总的来说,System2 Research小组主要攻克构建Agent所需要的核心技术,时谛智能实际上是我们团队落地行业应用的第一批应用场景。
光锥智能:以鞋子设计为例,Agent技术具体是怎样与时尚行业结合的?Agent如何影响或重塑时尚行业的各个流程的呢?
System2 Research:我们最开始接触时尚行业的时候就是思考到底时尚行业的卡点是什么,发现在企划,设计,销售,供应链等各个环节都很依赖人的经验去决策。大家都迫切希望AI能够基于数据去思辨,当下流行的是什么,消费者需要什么,应该设计什么样的产品,要生产多少件衣服才能满足市场需求?并且在这个过程中,通过人机的协同,辅助真人设计师,去完成一个可控的好设计,同时在后续选款、测款、配补调的过程中给出有数据参考的决策。
在这个过程很多人面临的另一个问题是如何让AI记住我们,记住我们和它之间的沟通内容,以避免每次都要从头开始。在System2 Research之前这个问题目前还没有好的解决办法。
我们很高兴能与时谛一起基于他们原有的一套时尚行业的全链路解决方案(企划-3D设计协同-生产系统)FIM,加上我们system2 agent的planning和memory能力,充分运用他们的行业数据积累,将其变得更智能化。
在时谛智能的FIM平台上,设计师可以和Agent一起基于线上的多维度数据分析当下符合企业调性的产品方向,可以讨论如何设计新的爆款,也可以让它快速检索所需要的设计素材。这个过程是既有对话式,也有操作式,设计师随时都可以向已经积累了大量时尚行业认知的Agent发起对话,可以寻求设计灵感、修改建议。
我们和时谛的合作,行业感觉最大的亮点就是可控、精准,可能只是简单的四个字,但是却是极大的突破。
光锥智能:除了时尚行业,你和你们团队还比较看好哪些领域?为什么这些方向与Agent结合会比较有潜力?
System2 Research:时尚、教育、游戏还有大量泛娱乐的领域,我们都在接触。
泛娱乐行业内容生产中,本身就有很多可以替代的部分,在实时互动过程中,可以通过Agent加入更多新的玩法,例如,在看一部剧的时候,暂停下来就能近距离地和剧中的人物直接继续对话,或者遇到不喜欢的情节时,直接再造一个平行世界,继续往下看等等。
其次,娱乐性的行业的容错率也相对较高。大模型的幻觉是硬币的两面,不精确也意味着有创造力。我认为,娱乐的本质就是对一些特异事件的压缩和重现,比如说我们看一个古装言情,它抽象的其实是人类社会活动中宫廷角斗、商业争夺这一部分核心社会关系。不管是哪一种娱乐形式,大家之所以会觉得它很有魅力,就是是因为它抽象了我们生活中身边的一部分,并且能在这部分体验中获得现实生活中满足不了的东西。
我们最近推出的产品 midreal.ai 就是上述技术和思考的结晶。midreal.ai 目前运行在 Discord 中,为用户提供了一种全新的互动图文故事体验。用户只要输入一句自己幻想的世界观,就能和 AI 展开 10 分钟的图文互动。目前我们的 Discord 中已经有超过一万名热情的内测用户,每天进行数千次故事互动。我们在 2 月份就会引入包括动图在内的更多媒介,并且扩展游戏玩法,加入对战,让用户和朋友们一起沉浸在幻想世界中,去满足现实世界无法实现的想象。
光锥智能:当大家还在谈Agent概念的时候,System2 Research已经开始了行业应用落地,你们如何规划未来的商业化进程?
System2 Research:目前看,我们Agent的技术相当于已经在时谛智能的软件平台上跑通了,已经有客户在使用内测产品。另外一个在游戏领域,我们的角色是Agent的供应商,帮助一些游戏厂商做智能NPC。再向前一步,可能会考虑寻找企业跟我们一起做多智能的开放世界,大概是中期会推出的一个项目。
光锥智能:比尔盖茨认为软件的时代已经过去,最终Agent会替代App,成为新的应用形式,你们怎么看待这个观点?从萌芽到替代大概的周期要多久?
System2 Research:我觉得要看Agent能做哪些事情,打开一个软件买菜,这就是一个action;打个电话,这也是一个action,所以从技术和整个社会最高效的运行来讲,的确是Agent能代替所有的东西。如果,再能实现作为个人助理管理所有Agent的目标,那人类可能离解放也就不远了。
(图:腾讯论文中对AppAgent的构想,让 AI 自己去玩手机)
接下来几年,Agent会怎么样逐渐改变商业世界还是值得期待的一件事情。我们最近也在思考,往小的方向思考,作为一个创业团队,我们可能会优先考虑落地游戏、教育、时尚几个场景,思考需要用Agent去替代哪些环节,如何实现降本增效,如何产生全新的互动模式等等。
往大了想的话,可能就是Agent在经济生产行为中的比重,看它能不能占到现在应用市场的10%,然后是到后端、工厂、制造业、医疗行业中,看它能从GDP中切出来多少。
光锥智能:开发者大会结束之后,有一种论调是OpenAI杀死了很多创业公司。你们觉得创业公司的边界在哪里呢?如何保证自己目前所做的项目不被OpenAI或者是其他大厂所颠覆,保持生命力,穿越下一个经济周期?
System2 Research:我们的能力基本属于和大模型能力垂直的一个能力。翻译过来就是,大模型的底座越好,我们Agent的能力也就越强。随着我们自己技术、算法的进步,以及落地场景的逐渐成熟,竞争壁垒也就越来越强。
除非今天OpenAI专门开辟出Agent这个方向,All in Agent,那可能会对我们这些创业公司造成降维打击。但这还存在一个核心的问题,Agent要变强大,还需要专业的行业数据,今天所有人都在担心OpenAI拿他们的私有数据来训练,不太可能放心把这些数据贡献出来给OpenAI,以后对数据的管理只能是越来越规范,而这对Agent创业公司来说就是机会所在。