一、写作动机:
LLM 在自我评价时往往过于自信或随意性较大,提供的反馈固执或不一致,从而导致反思效果不佳。为了解决这个问题,作者提倡 "自我对比": 它可以根据要求探索不同的解决角度,对比差异,并将这些差异总结为一个检查表,用于重新检查和消除差异。作者的方法能让 LLM 从不同的角度来缓解顽固的偏见。
二、主要贡献:
1)通过综合实验揭示了反思表现不佳的瓶颈在于 LLM 无法准确评估之前的反应。它通常表现为过度自信或反馈不一致,从而阻碍了自我反思的有效性。
2)提倡自我对比: 学习者可以从多个角度解决问题,以获得不同的结果,从而减少因单一提示而产生的过度自信的偏差。然后,从不同角度的对比中汲取灵感,LLM 总结出更准确的检查指导,以解决差异并加强反思。
3)从经验上看,与虚构的反思相比,自我对比在数学推理和具有挑战性的翻译场景中都有显著的改进和稳定性。
三、对大模型内在反思的评估:
3.1反思前后的变化:
3.2反馈分析:
1- 有效反思(Valid):错误回复被改正确。
2- 无效反思(Invalid):错误没有被改正。
3- 有毒反思(Toxic):刚开始正确的回复被反而被改错。
作者发现 feedback 主要存在两种情况:
1) 过于顽固的 feedback:初次回复中明明是存在明显的错误,但是 LLM 自我评估时候坚持认为没有任何问题。
2)多次自我评估的 feedback 不一致:对于同一个回复,多次自我评估产生的 feedback 非常不一致。
四、自我对比反思:
自我对比包括三个步骤: 创建不同视角、对比视角间差异和消除差异。在 "创建不同视角"中,鼓励LLM根据用户的要求自主创建各种提示,每种提示都提供了解决问题的独特视角,例如不同的思维方式、不同的身份、个性或偏好。这些不同的视角会促使 LLM 产生不同的回复。在第二阶段,LLM 会对比每对回应之间的差异。最后,为了消除差异,将这些差异归纳为一份详细的核对表,以供重新检查。该清单指导 LLM 仔细检查差异的原因,包括随机误差或内在偏差,这些都会导致不同观点的结果不一致。
五、实验设置:
5.1benchmarks:
使用 GSM8K、SVAMP 和 CommonMT 基准的数学推理和创意翻译。
5.2评估指标:
对于数学推理,评估的是逐步推理后最终答案的精确度。对于翻译任务,采用 BLEURT1 分数作为自动指标。
5.3LLM 模型和提示:
使用 GPT-3.5-Tubor-0613 和 GPT- 4-0613 API 以及具有三个参数范围(7B、13B 和 70B)的 Llama2-Chat 模型进行了实验。为了进行公平比较,将所有实验的温度统一设置为 0.2。对于标准提示和自我反省基线,我们使用不同的提示对其进行了 10 次评估,并对其在零样本场景下的结果进行了平均。
5.4baseline:
Standard CoT Prompt, Self-Reflection (Shinn et al., 2023),Multi-Agent Debate , ExpertPrompt , Hint-Prompt , Math-Prompt.
三种形式的自一致性:SC-Vote, SC-Select, SC-Reflect.