文章目录
- 1 大语言模型的构建
- 1.1分析模块 profiling module
- 1.2 记忆模块 memory module
- 1.2.1 记忆结构
- 1.2.2 记忆形式
- 1.2.3 记忆运行
- 1.3 规划模块 planning module
- 1.3.1 无反馈规划
- 1.3.2 有反馈计划
- 1.4 执行模块 action module
- 1.4.1 执行目标
- 1.4.2 执行空间
- 2 Agent能力提升
- 2.1 微调
- 2.2 提示词工程
- 2.3 机制工程
基于大语言模型的自主agent的构建,提出一个一致的框架涵盖大部分的前沿工作,然后总览整体的一些AI agent在社会科学,自然科学和工程上的应用。最后,提出了一些研究策略。
AI agent实际上就是希望通过自我直接的规划并且行动
- 第一阶段的Agent的,行动是基于一些简单的策略函数
- 而现阶段的Agent,是基于大语言模型,更加灵活
1 大语言模型的构建
文章围绕两个方面,一个是哪一个结构设计出来的Agent可以更好利用LLM,给定特定的结构,agent如何更好完成特定任务。
文章将构建分为四个模块
分析模块,记忆模块,计划模块,行动模块
1.1分析模块 profiling module
一般来说,Agent会执行任务通过扮演特定的角色,例如coders,或者老师,或者领域专家。分析模块就是写入Agent的配置文件,告诉他扮演的决策,通常来影响LLM行为。比如年龄,性别,职业等
在识别配置文件信息的类型后,下一个重要问题是为代理创建特定的配置文件,包括三种方式
1、人工填写
主要是通过人工告诉LLM一些背景信息,比如“你是一个幽默风趣的老师”。
经典的任务如MetaGPT,指出了扮演不同的软件开发的角色
比较灵活,但是费力
2、大语言模型生成
agent的身份由大语言模型自动生成
一般首先指示代理文件的生成规则,阐明组成和属性,然后选择一些例子(被称为种子)给LLM做参考
经典的RecAgent工作就是这样
3、数据对齐方式
agent的profile来自于真实的数据集,但是
1.2 记忆模块 memory module
记忆模块负责存储一些从环境或其他交互中获得的信息,记忆模块能够帮助agent去积累经验,自我更新,并且行动更加有效合理。
这一节重点介绍了,记忆模块的结构,形式和运行。
记忆模块的设计模仿了人类的长短期记忆。短期记忆。短期记忆,就好比大语言模型的上下文窗口,长期记忆就会存储到数据向量库中。
1.2.1 记忆结构
1 一致性记忆,感觉就是直接提示词控制
2 混合记忆,即附带了长期记忆,短期记忆包含有关代理当前情况的上下文信息,而长期记忆存储代理过去的行为和想法,可以根据当前事件检索。
长期记忆系统使用向量数据库
1.2.2 记忆形式
1 自然语言,直接以自然语言存储,更加的灵活和容易理解
2 嵌入编码向量,即将记忆信息编码成向量
3 数据库,SQL数据库
1.2.3 记忆运行
记忆读取,记忆写入,记忆反思
1.3 规划模块 planning module
将复杂的任务分解成简单任务
1.3.1 无反馈规划
1 单路推理 最经典的就是CoT思维链工作, 就是将目标分解成一些中间的步骤,一步一步执行
2 多路推理 在这个策略中,是一个树的结构,每一个中间步骤有多个可能的子步骤。
3 使用外部的规划模块
1.3.2 有反馈计划
主要有环境反馈
和人类的反馈
和来自其他模块的反馈
1.4 执行模块 action module
1.4.1 执行目标
目标一般有完成任务,交流或者环境探索
1.4.2 执行空间
一般有额外的工具,数据知识库等
2 Agent能力提升
2.1 微调
主要通过人类标记的数据集,大语言模型生成的数据集,真实世界数据集微调