简单聊聊现在的AI
- 前言
- 主要的AI模型和形式
- LLM - Large Language Model(大语言模型)
- BOT(机器人)
- LAM - Large Action Models(大行动模型)
- Agent(智能体)
- 结尾
前言
好久没回来写博客,这次回来。主要是身份的转变,在产品领域深耕了一些日子,目前的互联网变更的真的太快了。chatGPT才爆火多久? 一下子就行业爆了,传统互联网遭受到了前所未有的冲击。我们就简单聊聊 AI 吧。
主要的AI模型和形式
现在 AI 这个词语很火,各家互联网都在 AI 上造势,那 AI 是什么?
常见 AI主要的模型和形式是:
- LLM - Large Language Model(大语言模型)
- BOT - 机器人
目前新型出现的是:
- LAM - Large Action Models(大行动模型)
- Agent - 智能体
LAM 可以被认为是LLM的升级和衍生。
Agent 也可以被认为是BOT的衍生和升级版本。当然也有一些人也认为BOT和Agent就是一个东西。但在博主看来:Agent 比 BOT有更强的记忆能力和API工具使用。
下面我们一个一个简单了解一下。
LLM - Large Language Model(大语言模型)
LLM 是最目前最常见的 AI 的主体和形态,也称大型语言模型,是一种人工智能模型。
通过人类 和 AI 进行自然语言对话,智能理解人类自然语言并作出反应。
可以执行广泛的任务,包括文本总结、翻译、情感分析等等。
目前各手机厂家发布的 助手 使用的大多以LLM作为内部核心,是一种对话式的流程。
LLM现在已经发展的很厉害了,Chat GPT就是很好的例子。网上很多信息都完善了。
LLM的发展路径
但 纯正的 LLM 仅能支持语音对话,无法做其他更多的事情,比如生图等其他生成式的能力。
那现在的 助手 里的生图或其他技能是怎么做到的呢?
那就是我们接下来所说的BOT
BOT(机器人)
BOT 这个形态在 AI 的形式和传统的BOT是有区别的。
传统的BOT 我们可以理解为:客服机器人这种,通过传统的产品形式去回答,交互。有一种呆呆的感觉。
而 AI 下的BOT是一种全新的形态。它是以 LLM 作为 BOT灵魂。
BOT的回答和能力是由LLM + 其他插件去完成的。
一个BOT主要包含:
- Prompt(提示词)
- 数据库 - 用户巩固这个LLM的人设和上下文信息
- 知识库 - 这个BOT垂类的知识
- 工作流 - 可以卸载PROMPT也可以额外处理,一般看平台
- 用户变量 - 用户可用于替换prompt的关键部分
- 技能或插件 - 这里的技能和prompt的工作能力不一样,这样更主要是插件的使用。
Prompt(提示词)主要包含:
- 机器人的人设 - 这就是给 LLM 大模型一个专项的角色
- 工作任务 - LLM需要进行怎样的专项知识
- 工作能力 - LLM需要怎样专项的技术和能力
- 工作流程 - LLM如何一步一步进行工作
- 注意事项 - 一些限制词
- 其他
这是一个BOT创建平台上的一个快递查询助手BOT的示例
在这个平台例子里,左边就是prompt。右边有用到快递查询的插件和必应搜索的插件。
另外我们还可以加入生图的模型加在插件上,那么这个BOT就有了生图的能力了。
LAM - Large Action Models(大行动模型)
什么是LAM,可以简单理解是LLM的升级版本或者说是衍生,LLM是意图识别后的文本回复。,而LAM是意图识别后的行为执行。
举个例子:我需要AI帮我写一个 小红书 文本并发送
LLM能做到的是:写一个小红书 文本
而LAM能做到的是:打开小红书 - 点击笔记创建 - 生成一篇小红书 文本 - 然后点击发送。
这就是LLM和LAM最本质的区别。
哎,大家有发现这个流程是不是很像:按键精灵。
没错工作流程上,很像一个配置好的按键精灵一步一步去执行任务。
但LAM高级在:他是以LLM为基底的。有理解人类自然语言的能力,所以他就有了一句话完成多个任务的活动。
当然你肯定发现了:现在很多车机的语言助手也能完成啊,一句话完成多个任务。
但不同的是:这些语音指令是人为预设好的,描述词没靠上的话就无法完成这个任务了。
而 LAM 只需要 这个应用的知识库,他就能帮你完成这个应用里的所有任务。这是 AI 自学习完成的。
LAM由一个值得注意的例子:Rabbit R1 和其的Rabbit OS,有兴趣的同学可以去看一下。这是LAM较为有参考和学习的例子。
Agent(智能体)
Agent 是目前 AI 发展的一个重要分支,网上可以找到很多AIPC、AIOS、AIXXX的,都会提到Agent这个概念。
Agent 是一种能够感知环境、进行决策和执行动作的智能实体。
它是AIOS里应用程序体现。我们可以将其类比成:Android OS里的APP程序。
它结合了(LLM + LAM + 记忆能力 + API或工具使用)
上文也讲到博主认为Agent 和 BOT 不同
主要是博主Agent 比 BOT 不同的地方 和强悍的点:
-
记忆能力 -
记忆能力在于Agent有长期记忆的能力,能够长久记忆活动和上下文。这是BOT无法做到的,BOT只能完成单次对话的短时记忆,一般10轮对话后就会忘记前面的内容。 -
执行能力 -
执行能力在于灵魂的不同,即LAM和LLM的不同。Agent的执行逻辑遵循着:P(感知)—> P(规划)—>A(行动)类似人类「做事情」的过程,Agent的核心功能,可以归纳为三个步骤的循环:感知(Perception)、规划(Planning)和行动(Action)。哪怕是对话式的 虚拟女友 这种,也有LAM的能力。 -
容器 -
容器的不同在于:BOT的容器更倾向传统的GUI的开发,即还是有传统APP的方式进行开发,然后将AI 功能内嵌和调用。
而Agent采用的是 AI 自我生成GUI、按钮逻辑和业务API逻辑调用等。
Agent 还有单Agent 、多代理Agent、多模态Agent等不同的Agent组合和内容。
目前Agent 被认为是AGI(智能机器人)的必经之路。这又是另一个高深的话题了,挖个坑先吧。
另外Agent 和 LLM 应用知识库和自动化执行 是一个更复杂的逻辑,我们后面开专门篇章再细说。
结尾
好了,以上就本篇内容的所有内容。
本文将的比较简略和简单,每一部分其实都可以继续深挖信息。
当然还有文生文、文生图、文生视频、图生图、图生视频其他类型的模型。
AI 是对我来说也是一个全新的知识领域,文中如果有不对的地方,希望各位大佬能提提,我继续学习。