自麻省理工学院和谷歌最新研究:零样本跨语言对齐的新途径

在构建实用的语言模型(LMs)时,使模型与人类偏好对齐是一个不可或缺的阶段。这通常需要大量的标注偏好数据,这些数据对于多种语言来说难以获取,尤其是对于多语种环境,这使得扩展到更多语言变得具有挑战性。本文提出了一种新颖的奖励模型(RM)转移设置,通过在一种源语言上训练的RM直接应用于其他目标语言,实现了零样本跨语言对齐。

对齐阶段通常涉及三个步骤:监督式微调(SFT)、奖励建模(RM)和奖励优化。SFT阶段从基础模型开始,通过特定任务的输入训练模型以模拟示例输出。RM阶段则是训练一个模型来代理人类对生成输出的质量评价。奖励优化阶段进一步调整模型输出,使用人类反馈(由RM捕获)来优化模型。

跨语言对齐的奖励模型转移介绍

通过奖励模型(Reward Model, RM)的转移来实现跨语言对齐的核心思想是,如果一个模型在一种语言上接受了训练,并且能够评估该语言生成文本的质量,那么它理论上也能够评估其他语言生成文本的质量,只要这个RM能够理解那些语言。这种理解能力是通过多语言基础模型的训练来实现的。

该方法涉及将在一种源语言上训练得到的RM,直接应用于其他目标语言的对齐过程中。在传统的跨语言对齐方法中,如果要对齐到目标语言(例如西班牙语),我们会使用一个专门为该目标语言训练的RM。这意味着我们需要收集和标注大量的目标语言数据,以便训练一个能够理解和评价目标语言文本质量的模型。这种方法在扩展到多种语言时可能会遇到资源和成本上的挑战。Figure 1 中提出的创新方法是,不直接使用目标语言的RM,而是重新利用一个已经为不同源语言(例如英语)训练好的RM。这样做的假设是,如果一个RM能够很好地评估源语言生成的文本质量,并且这个RM是在一个多语言的基础上训练的,那么它也应该能够理解和评价目标语言生成的文本,即使它最初并不是为那个目标语言训练的。

这种方法的优势在于,它允许我们在没有目标语言标注数据的情况下,依然可以进行有效的跨语言对齐。这不仅节省了收集和标注数据的成本,还可能因为RM的泛化能力而带来更鲁棒的对齐效果。

Figure 2展示了在目标语言中使用不同源语言的RM进行对齐时性能的提升情况。它比较了使用目标语言的RM(单语言对齐)与使用不同源语言的RM(跨语言对齐)的效果。

图中展示了在目标语言(如西班牙语)上,使用源语言(如英语)的RM进行对齐后,模型性能的提升。这种提升是通过与未经对齐的目标语言SFT(Supervised Fine-Tuning)模型相比较来衡量的。实验结果表明,在某些情况下,使用跨语言RM的对齐模型在目标语言上的表现甚至超过了使用目标语言本身RM的模型。

一个重要发现是,跨语言RM转移有时能够带来意外的性能提升,这可能是因为源语言的RM在训练时没有过度拟合到目标语言的特定模式上。这种正则化效应有助于避免对齐过程中的过拟合问题,从而提高了模型的泛化能力。

研究者们不仅探讨了在有监督式微调(Supervised Fine-Tuning, SFT)数据的情况下进行跨语言对齐的效果,还进一步研究了在缺乏特定目标语言SFT数据时的最佳实践。

在标准对齐流程中,SFT阶段需要目标语言的数据来训练模型,使其能够生成符合该语言特性的文本。然而,获取这些数据可能成本高昂,特别是对于那些资源较少的语言。为了解决这一问题,研究者们提出了一种方法,即使用源语言的SFT数据,并将其翻译成目标语言,以此来训练目标语言的模型。

这种方法的一个关键点是,它依赖于奖励模型(RM)的泛化能力。RM在源语言上训练得到,然后被用来评估和指导目标语言模型的输出。作者们发现,即使目标语言的SFT数据不可用,只要RM能够有效地转移,这种方法仍然能够实现对齐,并且生成质量较高的目标语言文本。

Table 17 显示了不同源语言到目标语言的对齐结果。例如,当德语(De)作为源语言,英语(En)作为目标语言时,使用翻译的德语SFT数据训练的模型在与目标语言SFT模型比较时的胜率是71.0%。这表明即使使用的是翻译的数据,模型仍然能够在目标语言上实现相对较高的对齐质量。

表格中的数据揭示了翻译的SFT数据虽然可能无法完全达到使用原始目标语言数据训练的模型的质量,但在很多情况下,翻译数据训练的模型仍然能够实现有效的对齐。这突出了RM信号的泛化能力,即使在输入数据经过翻译、可能存在一些失真的情况下,RM仍然能够较好地评估和指导目标语言模型的输出。

研究者还尝试了一种称为“往返翻译”(round-trip translation)的技术,以评估单纯翻译误差对模型性能的影响。这种方法首先将目标语言的SFT数据翻译成源语言,然后再翻译回目标语言。通过比较直接翻译的SFT数据和往返翻译的数据,能够分离出翻译质量和数据领域/风格差异对模型性能的影响。

实验及结果

实验设置包括两个任务:摘要生成和开放式对话生成。使用了Seahorse数据集和OpenAssistant数据集进行训练和评估。在这两种任务中,研究者展示了RM在零样本跨语言效用方面的显著和一致性。此外,研究还发现,即使在没有目标语言的SFT数据的情况下,RM转移框架仍然是有用的。

实验结果显示,跨语言奖励优化在所有情况下都优于SFT模型。更引人注目的是,跨语言奖励优化通常能产生比使用目标语言RM更好的模型。研究还探讨了在没有目标语言SFT数据的情况下进行跨语言对齐的可能性和有效性,发现即使在这种情况下,跨语言对齐也可能是有益的,但需要谨慎处理代理SFT模型的训练。

Figure 3 展示了在摘要生成任务中,使用经过目标语言RM训练的模型进行评估时,跨语言对齐的有效性。图中显示,无论是使用best-of-n方法还是强化学习(RL),使用源语言RM进行对齐的模型在所有情况下都优于仅经过SFT的模型。这表明,即使没有目标语言的RM数据,使用源语言RM也能有效地提升模型性能。

Figure 4 进一步展示了使用PaLM-2-L作为评估模型时,跨语言对齐与目标语言SFT模型相比的性能。结果显示,跨语言对齐通常有效,有时甚至优于单语言对齐。这强化了RM信号泛化能力的观点,即RM能够适应输入分布的变化,并对不同语言的文本生成质量做出准确的评估。

上表展示了在摘要生成和对话生成任务中,使用best-of-n和RL方法进行跨语言对齐时,不同源语言到目标语言的胜率。这些表格中的数据显示了跨语言对齐在多种语言对中的有效性,并且揭示了在某些情况下,使用不同源语言的RM进行对齐可能会带来比使用目标语言RM更好的结果。

研究结果表明,使用不同语言的RM进行对齐不仅可以成功,而且有时比使用相同语言的RM更有效。此外,即使在没有目标语言SFT数据的情况下,跨语言对齐仍然可行,这为未来在更多语言上构建更好的LMs提供了新的方向和希望。

论文链接:https://arxiv.org/pdf/2404.12318

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/15938.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

看这两位东北圣女美吗?如何描写美女的大长腿?

看这两位东北圣女美吗?如何描写美女的大长腿? 最近署名为懂球娘娘的一篇描写东北圣女的文章火了,文中描述了海棠朵朵与辛芷蕾这两位娇媚动人的角色。其美艳动人的形象和魅力四溢的描写让人为之倾倒。 这种通过文字展现人物魅力的能力让人佩服…

Hadoop运行wordcount实例任务卡在job running的多种情况及解决方法

第一种:配置问题 这是别人的图片,据楼主排查解决是因为hosts配置问题… 现象:各种无法运行、启动 解决办法: 1、修改日志级别 export HADOOP_ROOT_LOGGERDEBUG,console 查看下详细信息,定位到具体问题解决 第二种&…

5月26(信息差)

🌍 珠峰登顶“堵车”后冰架断裂 5人坠崖 2人没爬上来! 珠峰登顶“堵车”后冰架断裂 5人坠崖 2人没爬上来! 🎄 Windows 11 Beta 22635.3646 预览版发布:中国大陆地区新增“微软电脑管家”应用 ✨ 成都限购解除即将满…

[图解]产品经理-竞赛题解析:阿布思考法和EA

1 00:00:00,410 --> 00:00:02,330 今天我们来说一道 2 00:00:02,610 --> 00:00:04,690 前些天出的一道竞赛题 3 00:00:07,250 --> 00:00:09,310 怎么样用阿布思考法 4 00:00:09,320 --> 00:00:10,540 来改进EA 5 00:00:11,690 --> 00:00:12,620 题目是这样的…

Kivy 项目51斩百词 5

MRWord\pages\infopage\info.py def read_random_word(self) def read_random_word(self):"""随机读取一条数据"""sql "SELECT * FROM word WHERE id (SELECT word_id FROM today ORDER BY RANDOM() limit 1)"rows select_data(sq…

Django 里html模板

Django 提供两种方式让程序员自定义html模板。 第一种方法 在项目文件夹里的urls.py进行添加 修改代码如下 from django.contrib import admin from django.urls import path from app01 import views # 得添加这行urlpatterns [path(xxx/, views.home), # 添加这行path(…

TXT文本编辑器:一键提取,多关键字匹配,内容尽在掌控!

在浩如烟海的文档中,寻找关键信息往往是一项繁琐而耗时的任务。你是否曾经为了查找某个关键字而翻遍了整个文件夹,却仍然一无所获?现在,有了TXT文本编辑器,这一切都将变得轻松而高效 这款软件以其简洁明了的操作界面和…

最近5星好评的华为的书《常变与长青》

常变与长青 (豆瓣) 作者简介 郭平,1988年加入华为,历任产品开发部项目经理、供应链总经理、总裁办主任、管理工程部总裁、企业发展部总裁、终端公司董事长兼总裁、公司轮值CEO、财经委员会主任、公司副董事长、轮值董事长等职务,现任公…

微信小程序毕业设计-学生知识成果展示与交流系统项目开发实战(附源码+演示视频+LW)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

Keyshot v11 解锁版安装教程 (3D光线追踪与全域光渲染程序)

前言 keyshot是一款实时渲染模式的软件。实时渲染是目前比较流行的一种渲染方式,优点是快速。调节的材质,灯光修改,光影变化等修改的各种参数结果,所见即所得,意思是你在软件操作界面看到的,就是最终的结果…

绘制t-SNE图

什么是t-SNE图? 如下图,下图来源于论文Contrastive Clustering 一般用于分类问题/对比学习。 作用? 体现出经过层层训练,类内越来越紧密,类间差异越来越大;或者也可以做消融可视化。 怎么画&#xff1f…

vim操作手册

vim分为插入模式、命令模式、底行模式。 插入模式:编辑模式 命令模式:允许使用者通过命令,来进行文本的编辑控制 底行模式:用来进行让vim进行包括但不限于shell进行交互 w:保存 wq&am…

SwiftUI中的Stepper(系统Stepper以及自定义Stepper)

本篇文章主要介绍一下Stepper,这个组件在UIKit中也已经有较长的历史了,下面看看在SwiftUI中如何使用,有哪些更加便捷的方法呢? Stepper减号(-)和加号()按钮,可以点击后以指定的数值进行加减。 基础初始化方法 Stepp…

【动态规划】斐波那契数列模型(C++)

目录 1137.第N个泰波那契数 解法(动态规划) 算法流程 1. 状态表⽰: 2. 状态转移⽅程: 3. 初始化: 4. 填表顺序: 5. 返回值: C算法代码 优化: 滚动数组 测试: …

HP Laptop 15s-fq2xxx,15s-fq2706TU原厂Win11系统镜像下载

惠普星15青春版原装Windows11系统,恢复出厂开箱状态oem预装系统,带恢复重置还原 链接:https://pan.baidu.com/s/1t4Pc-Q0obApLkG8o_9Kkkw?pwdduzj 提取码:duzj 适用型号:15s-fq2xxx,15s-fq2000 15s-f…

ROS2入门21讲__第19讲__Rviz:三维可视化显示平台

目录 前言 Rviz三维可视化平台 Rviz介绍 运行方法 彩色相机仿真与可视化 仿真插件配置 运行仿真环境 图像数据可视化 三维相机仿真与可视化 仿真插件配置 运行仿真环境 点云数据可视化 激光雷达仿真与可视化 仿真插件配置 运行仿真环境 点云数据可视化 Rviz v…

月薪5万是怎样谈的?

知识星球(星球名:芯片制造与封测技术社区,星球号:63559049)里的学员问:目前是晶圆厂的PE,但是想跳槽谈了几次薪水,都没法有大幅度的增长,该怎么办?“学得文武…

联想单机游戏联运SDK接入攻略

1. 接入流程 本文档主要介绍了联想单机游戏SDK接入流程、联想游戏提供的功能等。 1.1. 接入方式 1. 联想单机游戏SDK1.0版本支持“账号防沉迷”接入方式; a. 联想提供账号注册、登录等能力 b. 联想判断账号是否购买游戏,提供游戏支付购买能力 c. 联…

RobotFramework测试框架(13)--内置测试库

Builtln Evaluate方法 Evaluate。它可以做很多事情,主要的作用是可以直接调用Python的方法 一般用Evaluate都是前面放变量接收值,第三列是具体的运算表达式,第四列是要用到的Python的module。这里就是用random来进行一个随机数的生成 Cons…