【AI的未来 - AI Agent系列】【MetaGPT】1. AI Agent如何重构世界

上篇文章我们跑起来了第一个MetaGPT程序。本文主要学习了一下理论，什么是智能体，以及智能体如何重构世界。

0. 什么是智能体

智能体 = LLM+观察+思考+行动+记忆
多智能体 = 智能体+环境+SOP+评审+路由+订阅+经济

在这里插入图片描述

用人话说，我理解的Agent：

智能体就是像人一样，能理解现实中的事务，有记忆，会思考，会总结，会学习，像人一样会规划，会决策，会使用各种工具来完成某项任务。
多智能体，就像一个团队，大了说像我们现在生活的社会，每个智能体有自己的职能和领域，人与人之间通过协作，能完成更加复杂和庞大的目标。

太理论的东西这里不展开写了，可以参考文末的链接去深入理解。下面只是摘我觉得比较有意思的几个点做一下笔记：
（1）目前LLM规划能力较弱
（2）人脑有大量如视神经、听觉神经等小网络；智能体大概率也需要大量的小模型（如在视觉、决策、路由等工作上），不能由一个大模型来主导，一不经济，二不实际。
（3）工具实际就是API，支撑了智能体通往现实世界。假如实现现实世界完整表达的API都已经被实现，那么Agent理论上就可以达到全能。当然，前提是它要能够无错、娴熟的基于这些API写出完整的代码，而这代码自动撰写的missing piece就是MetaGPT

1. 用一个例子看智能体是什么

这是一个GPTs导航，帮助用户用LLM的模糊语义搜索找到全网公开的GPTS以及其体验链接。问它：“logo设计”，这个GPTs的任务就是查找logo设计相关的GPTs，并列出排名、介绍和访问链接。
在这里插入图片描述

从图中可以看到它的具体执行步骤：
（1）观察和思考：首先结构用户描述，产生搜索用的英文关键字
（2）工具：利用英文关键字，调用webpilot工具API进行检索
（3）观察和思考：根据返回的检索结果，llm就开始观察和思考哪个是最高匹配度的GPTs
（4）返回结果
从这些步骤就可以看出里面也是包含了规划在的。

2. AI时代智能体怎样重构世界

（1）Agent：LLM时代的新软件

99%的互联网入口将由App变为智能体：人类感知的字节数降低到极限

在这里插入图片描述

我的理解：99%的APP都不再是APP，而是一堆API。手机上只有一个Agent智能体软件作为入口，你想要什么，它去调用一堆API来给你结果。

（2）社会协作变革：虚拟员工进入企业，红杉预计智能体数量五年后和人类1比1

在这里插入图片描述

3. 有趣的理论：大脑的System1和System2

在这里插入图片描述

该理论意思就是：当简单问题时，我们大脑只用System1工作，例如被问“2 + 2 = ?”，我们能脱口而出，没经过思考。而被问“17 * 24 = ?”，我们的大脑就需要计算了，这就需要用到System2 - 你的大脑的另一部分，这部分更加理性，更加缓慢，进行复杂的决策，感觉更有意识。你不得不在脑海中解决这个问题，然后给出答案。
现在事实证明， LLM 目前只有系统 1。它们只有这个本能部分。