深度解析DPO及其变体在多种任务上的表现如何,该如何选择

3b18e3c7129dca791bb7baa9d6118b92.png

深度学习自然语言处理 原创
作者:wkk

单位:亚利桑那州立大学
paper:Insights into Alignment:Evaluating DPO and its Variants Across Multiple Tasks
Link:https://arxiv.org/pdf/2404.14723

今天,我要带大家深入了解一项关于大型语言模型(LLMs)的研究,这是由亚利桑那州立大学的Amir Saeidi、Shivanshu Verma和Chitta Baral三位专家带来的前沿成果。他们的最新论文《Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks》为我们揭开了直接偏好优化(DPO)及其衍生方法的神秘面纱,这些方法在优化模型以符合人类偏好方面展现出了巨大潜力。

引言

LLM在一系列任务中表现出了卓越的性能。直接偏好优化(DPO)作为一种RL-free的优化人类偏好的策略模型的方法出现了。然而,一些限制阻碍了这种方法的广泛采用。为了解决这些缺点,引入了各种版本的DPO。然而,在不同的任务中对这些变量的综合评估仍然缺乏。

在本研究中,通过研究三种不同场景下对齐方法的性能来弥合这一差距:

  • 场景一:保留监督微调(SFT)部分。

  • 场景二:跳过SFT部分。

  • 场景三:跳过SFT部分并利用指令微调调整模型。

此外,还探讨了不同训练规模对其性能的影响。本文的评估涵盖了一系列任务,包括对话系统、推理、数学问题解决、问题回答、真实性和多任务理解,包括MT-Bench、Big Bench和Open LLM Leaderboard等13个基准。

简介

LLM引发了一场解决现实世界挑战的革命,展示了跨不同领域令人印象深刻的能力,需要推理和专业知识。这些模型擅长数学推理/解决问题、代码生成/编程、文本生成、摘要和创造性写作等其他任务。

其中,基于监督微调(SFT)和来自人类反馈的强化学习(RLHF)的对齐方法,LLM在人类偏好方面取得了显着的性能。虽然与SFT相比,RLHF表现出显著的性能,但它面临着reward hacking等限制。相比之下,直接偏好优化(DPO)是一种最先进的离线强化学习方法,已被提出在不需要RL过程的情况下优化人类偏好。

对齐方法的局限性包括过度拟合、低效的学习和内存使用、偏好排名等问题,以及对对话系统等各种场景的偏好的依赖、摘要、情感分析、有用和有害的问答和机器翻译。尽管这些研究很重要,但都没有彻底研究对齐中的关键歧义,例如没有SFT出现的对齐方法的可学习性、这些方法之间的公平比较、SFT后对其性能的评估、数据量对性能的影响以及这些方法固有的弱点。它们在语言推理和推理中起着至关重要的作用。

研究创新

本文深入研究了基于无RL算法的对齐方法,如DPO、IPO、KTO和CPO的性能。这些方法通常包括两个步骤:

  • 策略模型的监督微调,

  • 使用对齐算法(如DPO)优化SFT模型。

本文实验涵盖了各种任务,包括对话系统、推理、数学问题解决、问题回答、真实性和多任务理解。并在13个基准上评估了这些对齐方法。

本文的贡献可以分为以下几点:

  1. 探索对齐方法的学习能力,旨在减轻DPO框架内的过拟合挑战。研究结果表明,在MT-Bench中跳过SFT部分,CPO和KTO表现出相当的性能。

  2. 在三种不同的场景中广泛地研究了跨对话系统、推理、数学问题解决、问答、真实性和多任务理解的对齐方法的有效性。

  3. 综合评估表明,对齐方法在推理任务中表现出缺乏性能,但在解决数学问题和真实性方面表现出令人印象深刻的性能。

  4. 在标准对齐过程中,使用一小部分训练数据对具有所有对齐算法的SFT模型进行微调可以产生更好的性能。

相关工作

随着预训练LLM的发展,在各种任务的零样本和少样本场景中取得了出色的性能。然而,当应用于下游任务时,LLM的性能往往会下降。虽然使用人工微调模型有助于对齐和性能提升,但获得人类对响应的偏好通常更可行。因此,最近的研究转向使用人类偏好微调LLM。以下是各种任务的对齐方法:

  • 人类反馈的强化学习(RLHF):提出通过使用近端策略优化(PPO)等强化算法,使用Bradley-Terry(BT)模型训练的奖励模型来优化最大奖励操作。虽然RLHF增强了模型的性能,但它要应对强化学习中固有的不稳定性、reward hacking和可扩展性等挑战。

  • 序列似然校准(SLiC):引入了一种新的方法来对监督微调(SFT)模型产生的偏好进行排名,在训练期间使用校准损失和正则化微调损失。同时,假设每个输入有多个排序响应,使用零边际似然对比损失训练SFT模型。

  • 统计拒绝抽样优化(RSO):结合了SLiC和DPO的方法,同时引入了一种通过统计拒绝抽样收集偏好对的增强方法。

  • KTO:受到Kahneman和Tversky关于前景理论的开创性工作的启发,旨在直接最大化LLM的效用,而不是最大化偏好的对数可能性。这种方法消除了对同一输入的两个偏好的需要,因为它专注于辨别一个偏好是可取的还是不可取的。

  • Self-Play fIne tuNing(SPIN):一种使用SFT步骤中使用的数据集来增强DPO的自我训练方法。这种方法的关键思想是利用生成的合成数据作为拒绝响应,并利用来自SFT数据集的gold response作为chosen response。同时,收缩偏好优化(CPO)提出了一种将最大似然损失和DPO损失函数相结合的有效学习偏好方法,旨在提高记忆和学习效率。

上述工作缺乏对完成和偏好学习的对齐方法的比较研究。虽然这些研究解决了DPO需要SFT步骤,但有必要进一步探索替代方法。尽管高质量偏好的重要性已被广泛认可,但仍然需要探索数据量对对齐方法性能的影响。此外,泛化的关键方面仍未得到探索。虽然对齐模型旨在增强所有类别的性能,但改进对齐方法通常以牺牲其他领域的性能为代价。

对齐方法

通常RL调整过程分为三个阶段:

  • 使用监督微调(SFT)微调策略模型,

  • 训练奖励模型,

  • 使用强化学习(RL)进一步微调初始策略模型,其中奖励模型提供反馈机制。

DPO最近的研究引入了一种RL-free的方法,旨在通过优化首选和非首选响应的可能性来对齐策略模型。DPO损失函数数学方式表述如下:

尽管DPO通过RTL-free的方法超越了RLHF,但它面临着过度拟合和需要大量正则化等约束,这可能会阻碍策略模型的有效性。为了解决这些限制,研究学者引入了IPO算法,该算法定义了DPO的一般形式并重新制定它以解决过度拟合和正则化。IPO损失函数如下式所示:

IPO算法解决了过度拟合的问题和DPO中存在的需要广泛正则化的缺陷,但基于两种偏好的对齐方法有不同的复杂性。KTO研究旨在通过实施仅利用单一偏好的策略来提高DPO方法的有效性。KTO损失函数表达式如下所示:

IPO和KTO增强了DPO模型的性能并解决了其中部分缺点。然而,当两个模型的同时加载时,会导致DPO算法的学习效率低下。为了改进这一点,研究学者开发了CPO方法,提高了DPO方法的效率。研究表明,在训练期间不需要加载参考策略模型。通过省略内存的参考模型,CPO提高了操作效率,与DPO相比,能够以更低的成本训练更大的模型。CPO损失函数表达式如下所示:

实验

研究团队设置了三个不同的实验场景,以评估DPO和其他几种对齐方法(如IPO、KTO、CPO)的性能:

  • 监督微调(SFT):首先训练一个SFT模型,然后使用对齐方法进行进一步的优化。

  • 预训练模型微调:绕过SFT阶段,直接在预训练模型上应用对齐方法。

  • 指令调整模型微调:跳过SFT阶段,使用指令调整的模型作为基础,再进行对齐方法的微调。这些实验覆盖了对话系统、推理、数学问题解决、问答、真实性和多任务理解等13个基准测试,包括MT-Bench、Big Bench和Open LLM Leaderboard。

方法

为了评估推理方法,实验利用ARC、HellaSwag、Winogrande、Big Bench体育理解(BBsports)、Big Bench因果判断(BB-casual)、Big Bench形式谬误(BB-formal)和PIQA。为了评估各种方法的数学问题解决能力,使用GSM8K基准。使用TruthfulQA基准评估真实性。此外,使用MLU基准来衡量它们在多任务理解方面的表现。OpenBookQA和BoolQ基准用于评估它们在问答任务中的表现。最后,为了评估它们在对话系统中的有效性,利用MT-Bench 基准,它由八个知识领域的 160 个问题组成,GPT-4在0到10的范围内对模型生成的答案进行评分。

实验结果

393466e2194963019bf993f590ff6865.png
图1
576240be0fe592773e88a43ee0a419f7.png
图2
0dbc6ee25f77e915dba9a2814d46415c.png
图3
17f1c86a252d24da48fccec582ca7e0b.png
图4
afa4cc8c26b676ade9b3b7a384308da0.png
图5
f7d16a24ecda9c7e74100fd583eefb3e.png
表1
8a831cd5abd2c18260f0ef9540621dd5.png
表2
f34dd8b002347a2f3f5e12562c9ebe1d.png
表3
bff5634737041af96c1002c18e0fb3d8.png
表4
场景结论
场景一:监督微调结合图1-2和表1中,可以看出,除了MLU之外,KTO在MT-Bench中超越了其他对齐方法,并且在所有学术基准测试中都表现出卓越的性能。特别值得注意的是KTO在GSM8K上的卓越性能,突出了其解决数学问题的强大能力。另外,没有采用任何对齐方法在MMLU中优于SFT。这表明SFT仍然优于其他多任务理解方法。此外,除了推理、真实性和问答中的KTO算法外,SFT表现出相当的性能。这表明对齐方法难以在这些任务中取得显著的性能改进。
场景二:预训练模型微调图3中的研究结果表明,跳过SFT阶段导致Mistral+IPO和Mistral+TPO在对话系统中表现不佳,因为与SFT相比,它们的得分较低。然而,Mistral+KTO和Mistral+CPO的得分与Mistral+SFT相当。图1所示的结果揭示了几个关键发现。首先,跳过SFT阶段会导致推理性能的边际提高,而不会产生显著影响。其次,除了GSM8K的IPO之外,GSM8K和TruthfulQA基准中的所有比对方法都有显著且一致的改进。此外,在MMLU基准中,跳过SFT阶段不仅提高了性能,而且导致所有对齐方法都优于SFT基准。
场景三:指令调整模型微调表3中显示的结果表明,KTO和IPO在 TruthfulQA 上的表现优于SFT,而基于预训练模型的KTO在TruthfulQA上的表现优于SFT。这强调了指令调整模型的高有效性,尤其是在真实性方面。此外,表4显示,IPO在MT-Bench中优于其他方法。表2和表3中显示的结果表明,SFT在推理、数学、问答和多任务理解基准上表现出相当的性能。虽然对齐方法表现出比 SFT 更好的性能,但准备偏好数据集的挑战仍然很重要,在大多数情况下使用SFT更可取。值得注意的是,在MT-Bench中,与SFT相比,CPO的性能更差,这表明与使用SFT进行微调的模型相比,使用CPO微调的模型在对话系统中表现出较弱的性能。图4显示,虽然提高了整体性能,但模型在某些领域的能力有所下降。图5中另一个有趣的发现是,不仅KTO在人文方面与GPT-4实现了相同的分数,而且CPO在STEM领域也优于GPT-4。这一发现突出了对齐方法与GPT-4等最先进模型相媲美的能力。

总结

本文评估了RL-free在各种任务上的性能,包括推理、数学问题解决、真实性、问答和多任务理解三个不同的场景。结果表明,在大多数情况下,KTO优于其他对齐方法。然而,这些技术在常规对齐过程中并没有显着提高推理和问答中的模型性能,尽管它们显着提高了数学问题解决。研究还表明,对齐方法对训练数据量特别敏感,在较小的数据子集下表现最佳。值得注意的是,与DPO不同,KTO和CPO可以绕过SFT部分并在MT-Bench上实现相当的性能。

这项研究不仅为LLMs的对齐方法提供了一个全面的评价框架,还为未来的研究方向——如何开发出更加健壮的模型来应对对齐挑战——提供了宝贵的见解。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

2e0af0840d4b1bd51d8a46755254f571.png

id:DLNLPer,记得备注呦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/8519.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VueReal将在Display Week上推出microLED创新技术

公司展示将microLED从晶圆转移到背板的“改变游戏规则”的平台 在2024年显示周(5月12日至16日在圣何塞举行)上,VueReal将展示其MicroSolid打印平台,并展示其在推动微LED显示器和其他微型半导体器件在智能手机显示器和AR/VR解决方案…

Crowd counting 系列NO.2—MCNN

声明:博客是用latex写的,所以直接用图片来展示吧,效果是一样的。下载资源网上都很容易搜到,如需下载资源,请留言。

(动画详解)LeetCode20.有效的括号

题目描述 20. 有效的括号 - 力扣(LeetCode) 解题思路 栈的方法 遍历整个字符串 当检测到左括号的时候,就让左括号入栈 当检测到右括号的时候,就让左括号出栈与右括号对比 如果相等则继续比较直到结束,如果不相等…

【C++历练之路】STL中的哈希——手搓哈希底层逻辑

W...Y的主页 💕 代码仓库分享 😊 前言: "hash"通常指的是哈希,它是一种将数据(如字符串或者数字)转换为一个固定长度的数值(通常是整数)的方法。哈希函数能够将任意长度…

《人工智能Ⅰ》课程复习资料(下)

本文是对我的大学课程——《人工智能Ⅰ》的课程知识整理,分上下两个部分,本文为下半部分,上半部分详见《人工智能Ⅰ》课程复习资料(上) 内容为速记精简版,若想进一步了解学习请参考更多资料。 目录 回归…

【工具推荐定制开发】一款轻量的批量web请求命令行工具支持全平台:hey,基本安装、配置、使用

背景 在开发 Web 应用的过程中,作为开发人员,为了确认接口的性能能够达到要求,我们往往需要一个接口压测工具,帮助我们快速地对我们所提供的 Web 服务发起批量请求。在接口联调的过程中,我们通常会用 Postman 等图形化…

Springboot 单体thymeleaf极简门户网站

企业门户网站,基于Springboot和layui 1、原介绍 使用技术:后端框架:SpringBoot,Mybatisplus ### 数据库:MySQL,redis ## 前端框架:Layui ## 权限框架:shiro ## 网页模板引擎:thyme…

嵌入式开发适不适合做鸿蒙南向开发?看完这篇你就了解了~

随着物联网和智能设备的快速发展,嵌入式开发和鸿蒙系统成为了当前技术领域的热门话题。鸿蒙系统作为华为推出的全场景分布式操作系统,旨在连接各种智能设备,提供无缝的跨设备体验。而南向开发则是鸿蒙系统中的一个重要方向,主要涉…

水面垃圾清理机器人的视觉算法研究

卷积神经网络是一种分层的数据表示模型,通常由数据输入层、卷积层、池化层、 非线性激活函数、全连接层以及输出结果预测层等组成,其中卷积层、池化层和非线 性激活函数是卷积神经网络中的重要组成部分。此外,有些模型会增加其他的层(归一 化…

白话机器3:PCA与SVM详细数学原理

一、PCA数学原理 1.数据标准化 首先,需要对原始数据进行标准化处理,使得每个特征的均值为0,方差为1。假设有一个的数据矩阵X,其中每一列是一个样本,每一行是一个特征。 标准化公式如下: 其中,…

TCP四次挥手中为什么 TIME_WAIT 等待的时间是 2MSL?

TCP 连接断开 1、TCP 四次挥手过程是怎样的?如下图 2、为什么 TIME_WAIT 等待的时间是 2MSL? MSL 是 Maximum Segment Lifetime,报文最大生存时间,它是任何报文在网络上存在的最长时间,超过这个时间报文将被丢弃。因…

CMakeLists.txt语法规则:改变行为的变量说明一

一. 简介 前面一篇文章学习了 CMakeLists.txt语法中的 部分常量变量,具体学习提供信息的变量,文章如下: CMakeLists.txt语法规则:提供信息的变量说明一-CSDN博客 CMakeLists.txt语法规则:提供信息的变量说明二-CSD…

文件加密软件排行榜前四名|好用的四款文件加密软件分享

在数据泄露事件频发的今天,文件加密软件成为了保护个人隐私与企业信息安全的必备工具。 选择一款高效、可靠且易用的加密软件至关重要。 本文精选了当前市场上备受好评的十款文件加密软件,旨在为您在数据保护之旅中提供方向。 1.域智盾 域智盾软件是一…

[报错解决]Communications link failure

报错 主机IDEA项目连接虚拟机的数据库报错。 主要报错信息有: com.mysql.cj.jdbc.exceptions.CommunicationsException: Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received a…

论文阅读】 ICCV-2021-3D Local Convolutional Neural Networks for Gait Recognition

motivation :现有方法方法无法准确定位身体部位,不同的身体部位可以出现在同一个条纹(如手臂和躯干),一个部分可以出现在不同帧(如手)的不同条纹上。其次,不同的身体部位具有不同的尺度,即使是不同帧中的同一部分也可以出现在不同…

O2O:Uni-O4

ICLR 2024 paper Intro 以往O2O方式普遍将离线与在线过程分开看待,为了避免过渡时容易出现performance drop,引入了各式正则化或者保守价值估计。本文启发于BPPO,提出on-policy的算法Uni-O4将离线与在线阶段的策略优化目标统一,…

制造业为什么需要质量管理系统

质量管理是一个企业最重要的核心竞争力之一。为了确保产品和服务的高质量,企业需要建立一个完善的质量管理体系。而质量管理系统(QMS)正是指导企业如何规范、组织和管理质量相关活动的框架和流程。 在智能制造时代,广大企业如何结…

react状态管理之state

第三章 - 状态管理 随着你的应用不断变大,更有意识的去关注应用状态如何组织,以及数据如何在组件之间流动会对你很有帮助。冗余或重复的状态往往是缺陷的根源。在本节中,你将学习如何组织好状态,如何保持状态更新逻辑的可维护性&…

《编译原理》阅读笔记:p1-p3

《编译原理》学习第 1 天,p1-p3总结,总计 3 页。 一、技术总结 1.compiler(编译器) p1, But, before a program can be run, it first must be translated into a form in which it can be executed by a computer. The software systems that do thi…

2023年谷歌拒了228万应用,禁了33.3万账号,开发者们应如何应对2024的挑战?

谷歌在上周一公布了去年如何应对恶意应用和恶意行为。 报告指出,去年谷歌在Google Play平台上,通过不断升级安全系统、更新政策规定、运用先进的机器学习技术,以及严格把关应用审核流程,成功阻止了高达228万个不合规的应用程序上架…