2024年1月19日Arxiv最热NLP大模型论文：Self-Rewarding Language Models

超越人类反馈限制，Meta自我奖励语言模型刷新AlpacaEval 2.0排行榜

引言：超越人类的AI代理——自我奖励语言模型的探索

在人工智能的发展历程中，我们一直在探索如何打造出能够超越人类智慧的AI代理。这些代理不仅需要能够理解和执行人类的指令，还需要能够自我提升，不断优化自己的性能。在这篇博客中，我们将深入探讨一种新型的语言模型——自我奖励语言模型（Self-Rewarding Language Models），它们通过自我生成奖励来进行训练，从而实现自我提升。

自我奖励语言模型的核心思想是让模型在训练过程中自己提供奖励信号，而不是依赖于人类的反馈。这种方法的优势在于，它能够突破由人类反馈所设定的性能瓶颈，使模型有可能达到超越人类水平的性能。通过迭代的训练过程，这些模型不仅在指令执行能力上有所提升，而且在奖励模型的质量上也得到了改进。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）

论文信息

标题: Self-Rewarding Language Models

作者: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston

机构:

Meta
New York University (NYU)

论文链接: https://arxiv.org/pdf/2401.10020.pdf

自我奖励语言模型（Self-Rewarding Language Models）简介

1. 自我奖励语言模型的定义与目标

自我奖励语言模型（Self-Rewarding Language Models, SRLMs）是一种新型的语言模型，它在训练过程中利用自身生成的反馈来自我提升。这种模型的目标是打破传统模型依赖人类反馈的局限，通过自我生成和评估指令来提高模型的指令遵循能力和奖励模型的质量。SRLMs通过迭代的直接偏好优化（Iterative DPO）框架进行训练，不仅提高了指令遵循能力，还提高了自我奖励的质量。

2. 自我奖励模型与传统奖励模型的对比

与传统的奖励模型相比，自我奖励模型的一个关键优势是它不是固定的，而是在语言模型（LLM）对齐过程中不断更新。这种方法避免了传统模型中奖励模型固定不变的瓶颈，使得模型在训练过程中能够同时提高生成能力和奖励模型能力。通过将奖励模型整合到同一系统中，SRLMs实现了任务迁移，使得奖励建模任务和指令遵循任务之间能够相互转移和提升。

自我指令创建（Self-Instruction Creation）的过程

1. 新指令的生成

在自我指令创建过程中，首先通过少量提示（few-shot prompting）从原始的指令精炼数据（IFT data）中生成新的指令提示。这一步骤是通过采样原始种子IFT数据来实现的，遵循了Wang et al. [2022]和Honovich et al. [2023]的方法。

2. 候选响应的生成与评估

接着，模型会为给定的新指令生成N个多样化的候选响应，并使用采样方法来实现。然后，模型本身会通过LLM-as-a-Judge机制来评估这些候选响应的质量，即模型扮演自己的奖励模型的角色。这一过程通过将响应评估任务构建为一个指令遵循任务来实现。

3. LLM作为评判者（LLM-as-a-Judge）的角色

在自我指令创建的最后阶段，LLM-as-a-Judge的功能显得尤为重要。模型不仅生成响应，还需要评估这些响应的质量，为此它需要扮演评判者的角色。通过这种方式，模型可以为自己生成的响应提供奖励，从而构建AI反馈（AI Feedback）训练集。在实验中，使用LLM-as-a-Judge机制生成的数据被用作训练集，进而通过直接偏好优化（DPO）训练下一轮模型。

迭代DPO训练框架与自我对齐算法

1. 迭代训练的步骤与目标

迭代DPO训练框架的核心在于通过自我对齐算法，使得语言模型能够在训练过程中自我提供奖励。这一过程涉及到两个关键步骤：自我指令创建和指令跟随训练。在自我指令创建阶段，模型生成新的指令提示并为这些提示产生的候选回应自我评分，这一过程通过LLM-as-a-Judge提示来实现。在指令跟随训练阶段，从生成数据中选取偏好对，通过直接偏好优化（DPO）进行训练，得到下一代模型。这个过程可以迭代进行，以此来不断改进指令跟随能力和奖励模型的质量。

2. 从种子模型到自我奖励模型的演变

起始于一个种子模型，通过对人类偏好数据的指令微调（IFT）和评价微调（EFT），模型获得了生成和评估新指令的能力。在迭代过程中，模型不断自我生成训练数据，并使用这些数据进行自我奖励。与传统的固定奖励模型不同，这种自我奖励模型能够在LLM对齐过程中持续更新，从而避免了由于人类偏好数据的限制而导致的瓶颈。实验表明，通过迭代DPO训练，模型不仅在指令跟随能力上有所提升，而且在自我奖励能力上也得到了改进。

实验设置与评估指标

1. 种子训练数据的选择与使用

实验从使用Open Assistant数据集中的3200个高质量、人类评级最高的英语会话开始，这些数据用于指令微调（IFT）。此外，还使用了一组评价微调（EFT）数据，该数据通过将Open Assistant数据集中的多个人类评级响应转换为LLM-as-a-Judge格式，来训练模型如何作为奖励模型进行自我奖励。这些种子数据作为训练的起点，用于训练第一代模型。

2. 模型性能的评估方法

模型性能的评估分为两个方面：指令跟随能力和奖励模型能力。指令跟随能力通过与不同模型的头对头性能比较，以及在AlpacaEval 2.0排行榜上的胜率来评估。奖励模型能力则通过与人类评级的相关性来评估，包括成对准确性、完全匹配次数、Spearman相关性和Kendall’s τ。此外，还观察了模型给出完美得分（5分）的响应与人类评级最高响应的一致性。通过这些指标，研究者能够全面评估自我奖励模型在迭代训练过程中的性能提升。

实验结果与分析

1. 指令遵循能力的提升

实验结果显示，自我奖励语言模型（Self-Rewarding Language Models）在迭代DPO（Direct Preference Optimization）训练过程中，不仅指令遵循能力得到提升，而且模型自我评估和奖励的能力也得到了改善。以Llama 2 70B为种子模型，经过三轮迭代训练后，模型在AlpacaEval 2.0排行榜上的表现超越了多个现有系统，包括Claude 2、Gemini Pro和GPT-4 0613。具体来说，第二轮迭代（M2）在头对头评估中相较于第一轮迭代（M1）和基线模型（SFT Baseline）表现出显著的优势，第三轮迭代（M3）进一步提升了性能，相较于M2和基线模型的胜率有了大幅度的提高。

2. 奖励模型能力的改进

在奖励模型能力方面，实验发现，通过自我奖励训练，模型在提供自我奖励方面的能力得到了提升。第二轮迭代（M2）使用第一轮迭代（M1）中派生的自我奖励模型进行训练，其在各项评价指标上均优于M1，而M1本身也优于仅使用指令精调（IFT）数据训练的标准SFT基线模型。第三轮迭代（M3）在多个指标上进一步提升了性能。

3. AlpacaEval 2.0排行榜上的表现

在AlpacaEval 2.0排行榜上，自我奖励模型的迭代训练结果显示胜率逐步提升。第一轮迭代的胜率为9.94%，第二轮提升至15.38%，第三轮进一步提升至20.44%。第三轮迭代的模型在该指标上超越了多个现有模型，包括Claude 2、Gemini Pro和GPT-4 0613。

讨论：自我奖励模型的优势与挑战

1. 自我奖励模型的潜在优势

自我奖励模型的潜在优势在于其能够在训练过程中持续更新，避免了传统奖励模型固定不变的局限性。这种模型不仅能够生成响应指令，还能够评估和奖励自己生成的新指令遵循示例，从而在训练集中添加这些数据。这种自我奖励的方法提供了一种自我改进的可能性，使得模型能够在指令遵循和奖励建模两个方面不断进步。

2. 实验结果的意义与未来研究方向

本研究的实验结果表明，通过自我奖励的方式，模型在指令遵循和奖励建模方面都显示出了改进。这一发现为未来的研究方向提供了新的视角，即探索模型在更多迭代轮次后的表现，以及在不同设置下使用不同能力的语言模型的效果。此外，研究还可以进一步探讨如何在自我奖励框架内进行安全性评估和训练，以及如何避免潜在的“奖励黑客”行为。

总结与未来展望

在本研究中，我们提出了自奖励语言模型（Self-Rewarding Language Models），这是一种能够通过自我评估和训练来自我校准的模型。通过迭代的直接偏好优化（Iterative DPO）框架，模型不仅在遵循指令的能力上得到了提升，而且在奖励建模能力上也有所增强。我们的实验结果表明，通过三次迭代训练的Llama 2 70B模型在AlpacaEval 2.0排行榜上超越了多个现有系统，包括Claude 2、Gemini Pro和GPT-4 0613。

1. 实验结果的总结

我们的实验结果显示，自奖励模型在指令遵循能力和奖励建模能力上均有显著提升。在指令遵循方面，通过自我奖励对齐的模型与基线种子模型相比，表现有了显著提高。更重要的是，奖励建模能力也随着迭代训练得到了改善，这意味着模型能够在给定的迭代中提供比前一次迭代更高质量的偏好数据集。此外，我们发现，与仅增加正面示例相比，从偏好对中学习给出了更好的性能，这表明了优化偏好对的重要性。

2. 未来研究的方向

尽管我们的研究取得了一些初步成果，但仍有许多未探索的领域。例如，我们需要进一步理解迭代训练的“规模法则”，以及在不同设置中使用不同能力的语言模型的效果。我们还观察到模型生成的回答长度有所增加，这可能是相对性能的一个因素。此外，我们的框架是否会出现所谓的“奖励黑客”现象，以及在什么情况下会出现，这些都是需要进一步分析的问题。

3. 安全性评估

安全性评估是未来研究的另一个重要方向。考虑到我们的模型在迭代训练中奖励建模能力的提升，这可能意味着模型的安全性也有可能随着时间的推移而提高，后续迭代能够捕捉到早期迭代无法捕捉到的更具挑战性的安全情况。

总之，自奖励语言模型为语言模型的自我改进提供了一条激动人心的研究途径。通过自我生成的偏好数据训练，模型不仅提高了遵循指令的能力，还提高了奖励模型的质量，从而形成了一种良性循环。虽然这种改进在现实场景中可能会趋于饱和，但它仍然为超越目前通常用于构建奖励模型和指令遵循模型的人类偏好的持续改进提供了可能性。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）