在构建实用的语言模型(LMs)时,使模型与人类偏好对齐是一个不可或缺的阶段。这通常需要大量的标注偏好数据,这些数据对于多种语言来说难以获取,尤其是对于多语种环境,这使得扩展到更多语言变得具有挑战性。本文提出了一种新颖的奖励模型(RM)转移设置,通过在一种源语言上训练的RM直接应用于其他目标语言,实现了零样本跨语言对齐。
对齐阶段通常涉及三个步骤:监督式微调(SFT)、奖励建模(RM)和奖励优化。SFT阶段从基础模型开始,通过特定任务的输入训练模型以模拟示例输出。RM阶段则是训练一个模型来代理人类对生成输出的质量评价。奖励优化阶段进一步调整模型输出,使用人类反馈(由RM捕获)来优化模型。
跨语言对齐的奖励模型转移介绍
通过奖励模型(Reward Model, RM)的转移来实现跨语言对齐的核心思想是,如果一个模型在一种语言上接受了训练,并且能够评估该语言生成文本的质量,那么它理论上也能够评估其他语言生成文本的质量,只要这个RM能够理解那些语言。这种理解能力是通过多语言基础模型的训练来实现的。
该方法涉及将在一种源语言上训练得到的RM,直接应用于其他目标语言的对齐过程中。在传统的跨语言对齐方法中,如果要对齐到目标语言(例如西班牙语),我们会使用一个专门为该目标语言训练的RM。这意味着我们需要收集和标注大量的目标语言数据,以便训练一个能够理解和评价目标语言文本质量的模型。这种方法在扩展到多种语言时可能会遇到资源和成本上的挑战。Figure 1 中提出的创新方法是,不直接使用目标语言的RM,而是重新利用一个已经为不同源语言(例如英语)训练好的RM。这样做的假设是,如果一个RM能够很好地评估源语言生成的文本质量,并且这个RM是在一个多语言的基础上训练的,那么它也应该能够理解和评价目标语言生成的文本,即使它最初并不是为那个目标语言训练的。
这种方法的优势在于,它允许我们在没有目标语言标注数据的情况下,依然可以进行有效的跨语言对齐。这不仅节省了收集和标注数据的成本,还可能因为RM的泛化能力而带来更鲁棒的对齐效果。
Figure 2展示了在目标语言中使用不同源语言的RM进行对齐时性能的提升情况。它比较了使用目标语言的RM(单语言对齐)与使用不同源语言的RM(跨语言对齐)的效果。
图中展示了在目标语言(如西班牙语)上,使用源语言(如英语)的RM进行对齐后,模型性能的提升。这种提升是通过与未经对齐的目标语言SFT(Supervised Fine-Tuning)模型相比较来衡量的。实验结果表明,在某些情况下,使用跨语言RM的对齐模型在目标语言上的表现甚至超过了使用目标语言本身RM的模型。
一个重要发现是,跨语言RM转移有时能够带来意外的性能提升,这可能是因为源语言的RM在训练时没有过度拟合到目标语言的特定模式上。这种正则化效应有助于避免对齐过程中的过拟合问题,从而提高了模型的泛化能力。
研究者们不仅探讨了在有监督式微调(Supervised Fine-Tuning, SFT)数据的情况下进行跨语言对齐的效果,还进一步研究了在缺乏特定目标语言SFT数据时的最佳实践。
在标准对齐流程中,SFT阶段需要目标语言的数据来训练模型,使其能够生成符合该语言特性的文本。然而,获取这些数据可能成本高昂,特别是对于那些资源较少的语言。为了解决这一问题,研究者们提出了一种方法,即使用源语言的SFT数据,并将其翻译成目标语言,以此来训练目标语言的模型。
这种方法的一个关键点是,它依赖于奖励模型(RM)的泛化能力。RM在源语言上训练得到,然后被用来评估和指导目标语言模型的输出。作者们发现,即使目标语言的SFT数据不可用,只要RM能够有效地转移,这种方法仍然能够实现对齐,并且生成质量较高的目标语言文本。
Table 17 显示了不同源语言到目标语言的对齐结果。例如,当德语(De)作为源语言,英语(En)作为目标语言时,使用翻译的德语SFT数据训练的模型在与目标语言SFT模型比较时的胜率是71.0%。这表明即使使用的是翻译的数据,模型仍然能够在目标语言上实现相对较高的对齐质量。
表格中的数据揭示了翻译的SFT数据虽然可能无法完全达到使用原始目标语言数据训练的模型的质量,但在很多情况下,翻译数据训练的模型仍然能够实现有效的对齐。这突出了RM信号的泛化能力,即使在输入数据经过翻译、可能存在一些失真的情况下,RM仍然能够较好地评估和指导目标语言模型的输出。
研究者还尝试了一种称为“往返翻译”(round-trip translation)的技术,以评估单纯翻译误差对模型性能的影响。这种方法首先将目标语言的SFT数据翻译成源语言,然后再翻译回目标语言。通过比较直接翻译的SFT数据和往返翻译的数据,能够分离出翻译质量和数据领域/风格差异对模型性能的影响。
实验及结果
实验设置包括两个任务:摘要生成和开放式对话生成。使用了Seahorse数据集和OpenAssistant数据集进行训练和评估。在这两种任务中,研究者展示了RM在零样本跨语言效用方面的显著和一致性。此外,研究还发现,即使在没有目标语言的SFT数据的情况下,RM转移框架仍然是有用的。
实验结果显示,跨语言奖励优化在所有情况下都优于SFT模型。更引人注目的是,跨语言奖励优化通常能产生比使用目标语言RM更好的模型。研究还探讨了在没有目标语言SFT数据的情况下进行跨语言对齐的可能性和有效性,发现即使在这种情况下,跨语言对齐也可能是有益的,但需要谨慎处理代理SFT模型的训练。
Figure 3 展示了在摘要生成任务中,使用经过目标语言RM训练的模型进行评估时,跨语言对齐的有效性。图中显示,无论是使用best-of-n方法还是强化学习(RL),使用源语言RM进行对齐的模型在所有情况下都优于仅经过SFT的模型。这表明,即使没有目标语言的RM数据,使用源语言RM也能有效地提升模型性能。
Figure 4 进一步展示了使用PaLM-2-L作为评估模型时,跨语言对齐与目标语言SFT模型相比的性能。结果显示,跨语言对齐通常有效,有时甚至优于单语言对齐。这强化了RM信号泛化能力的观点,即RM能够适应输入分布的变化,并对不同语言的文本生成质量做出准确的评估。
上表展示了在摘要生成和对话生成任务中,使用best-of-n和RL方法进行跨语言对齐时,不同源语言到目标语言的胜率。这些表格中的数据显示了跨语言对齐在多种语言对中的有效性,并且揭示了在某些情况下,使用不同源语言的RM进行对齐可能会带来比使用目标语言RM更好的结果。
研究结果表明,使用不同语言的RM进行对齐不仅可以成功,而且有时比使用相同语言的RM更有效。此外,即使在没有目标语言SFT数据的情况下,跨语言对齐仍然可行,这为未来在更多语言上构建更好的LMs提供了新的方向和希望。
论文链接:https://arxiv.org/pdf/2404.12318