LLM agentic模式之reflection：SELF-REFINE、Reflexion、CRITIC

SELF-REFINE

SELF-REFINE出自2023年3月的论文《Self-Refine: Iterative Refinement with Self-Feedback》，考虑到LLM第一次生成结果可能不是最好的输出，提出一种包括反馈(feedback)和改善(refinement)两个步骤的迭代方法来改进LLM的初始输出。

基本思路

对于输入，SELF-REFINE让LLM生成一个初始输出，接着让同一个LLM对这个输出提供反馈(Feedback)，再让LLM根据反馈来改善其输出(Refine)，不断迭代进行Feedback和Refine步骤，直到满足停止条件，停止条件为指定的时间步或者从反馈中提取的停止标记(如停止分数)。流程示意如下图：

在这里插入图片描述

SELF-REFINE算法示意如下图，所用的prompts都是任务相关的few-shot prompt，根据不同类型的任务指定不同的prompt。

在这里插入图片描述

反馈会包含输出的不同方面，比如对于代码优化任务，反馈包括效率、可读性、代码整体质量等，prompt模型提供actionable且specific的反馈，actionable是指反馈包括一个可以提升输出效果的action，比如下面代码优化例子中的action:“use the formula”；specific是指反馈要包括输出中具体要改进的地方，比如下面代码优化例子中的反馈提到了"for loop"效率不高。

在这里插入图片描述

实验结论

实验模型是GPT 3.5 和GPT 4，有以下分析结果：

SELF-REFINE在不同大小模型下都有提升效果，在GPT 4上提升效果更明显，作者认为SELF-REFINE可以使得更强的模型如GPT-4解锁其潜能。
反馈质量对于SELF-REFINE的影响较大，根据反馈进行Refine也能有效提升输出质量。
模型输出质量随着迭代次数增加而提升，同时存在边际效应递减。
在Vicuna-13B上的实验结果表明它很难进行Refine步骤。

Reflexion

Reflexion出自2023年3月的论文《Reflexion: Language Agents with Verbal Reinforcement Learning》，使用语言反馈来增强LLM agent，让LLM可以从之前的错误中学习。

下图是Reflexion agent通过试错和自我反思(self-reflection)解决决策、编程、推理任务的示例。

在这里插入图片描述

基本思路

Reflexion的框架和算法示意如下图所示，包括三个模型：Actor模型记作 $M_a$ ，用来生成文本和动作；Evaluator模型记作 $M_e$ ，用来对 $M_a$ 的输出打分；Self-Reflection模型记作 $M_{sr}$ 用来生成文字增强反馈以帮助Actor进行自我提升。

在这里插入图片描述

Actor：LLM经prompt根据观测状态生成文本和动作，就像传统基于策略的RL算法一样，在时刻t，从当前策略 $\pi_{\theta}$ 采样动作或者输出，并从环境得到一个observation $o_t$ 。作者们使用了不同Actor模型，包括CoT和ReAct，且设计了一个记忆组件mem用来提供额外上下文给agent。
Evaluator：评估Actor生成输出的质量，给定任务上下文和Actor的输出轨迹计算出一个奖励分数。对于推理任务，奖励函数基于绝对匹配(exact match)打分，确保生成输出与期望方案尽可能地对齐；对于决策任务，使用预定义的启发式函数，这些函数满足特定的评估准则。此外对于决策任务和编程任务，还尝试使用一个LLM的不同实例作为Evaluator来生成奖励。
Self-reflection：生成文本自我反思来为Actor未来的尝试提供反馈。它对给定的奖励信号如成功状态(成功/失败)、当前轨迹、存储记忆mem，生成细致且具体的反馈，这个反馈也会被存储到agent的记忆模块mem中。比如对于一个多步决策任务，当agent收到一个失败信号，它能推测出动作 $a_i$ 导致了不正确的动作 $a_{i+1}$ 和 $a_{i+2}$ ；且可推断它应该执行动作 $a_i^{'}$ 并且得到 $a_{i+1}^{'}$ 和 $a_{i+2}^{'}$ ；这样在接下来的尝试中，agent就可以利用其过去的经验在t时刻选择动作 $a_i^{'}$ 。
Memory：Reflexion包括短期记忆和长期记忆，短期记忆是历史轨迹，Self-Reflection模型的输出则是长期记忆。

Reflection的算法流程如上图右侧所示，也是一个迭代优化过程。Actor与环境交互后生成轨迹 $\tau_0$ ，Evaluator生成分数 $r_0$ ，由 $r_t=M_e(\tau_0)$ 计算得到， $r_t$ 是第t次尝试的标量分数并随着任务表现提升而增加。Self-Reflection模型分析 $\{\tau_0, r_0 \}$ 后生成总结 $sr_0$ 并存储在记忆模块mem， $sr_t$ 是第t次尝试的自然语言经验反馈。Actor、Evaluator、Self-Reflection模型一起协同迭代直到Evaluator认为轨迹 $\tau_t$ 是正确的。试验时，记忆模块mem的大小由最大存储经验个数 $\Omega$ 来决定，通常被设置为1-3。

CRITIC

CRITIC是Self-Correcting with Tool-Interactive Critiquing的简称，出自2023年5月的论文《CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing》，它使用外部工具来核实和改正LLM的输出。

基本思路

CRITIC的示意图如下图所示，给定输入，LLM先生成初始输出，再通过text-to-text API与外部工具交互来核实输出，核实结果与初始输出一起作为LLM的反馈让其改正其输出，这个"Verify → Correct → Verify"的循环不断迭代直到满足终止条件。

在这里插入图片描述

CRITIC方法的算法描述如下图：

在这里插入图片描述

CRITIC方法利用LLM的COT推理涌现能力和few-shot in-context learning能力。
为了让LLM能够使用工具，将不同的外部工具如搜索引擎、代码编译器、各种API变成text-to-text函数，用in-context learning的方式让LLM利用工具。（虽然可以让LLM自动选择使用哪种工具，在论文实验中是不同的任务使用不同的工具来校验生成结果，比如问答会使用搜索引擎）
输入x，模型记为M， prompt为 $\wp$ ，LLM生成的初始输出为 $\hat{y_0} \sim \mathbb{P}_{\mathcal{M}} (\cdot |\wp \oplus \ x)$ （ $\oplus$ 为表示连接），LLM使用外部工具来评估 $\hat{y}_i$ 并生成critiques $c_i \sim \mathbb{P}_{\mathcal{M}} (\cdot |\wp \oplus \ x \oplus \hat{y_i}, \mathcal{T})$ （ $\mathcal{T}$ 是指工具集合）。critiques可识别错误、提供可执行建议或者提供可信的原则等。
LLM根据输入x、之前的输出、和critiques $c_i$ 生成改进的输出 $\hat{y}_{i+1} \sim \mathbb{P}_{\mathcal{M}} (\cdot |\wp \oplus \ x \oplus \hat{y_i} \oplus c_i)$ 。
"vevify-then-correct"的过程不断迭代直到满足停止标准，停止标准如满足了校验条件、收到环境反馈、达到最大迭代次数等。