清华大学提出IFT对齐算法,打破SFT与RLHF局限性

监督微调(Supervised Fine-Tuning, SFT)和基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)是预训练后提升语言模型能力的两大基础流程,其目标是使模型更贴近人类的偏好和需求。

考虑到监督微调的有效性有限,以及RLHF构建数据和计算成本高昂,这两种方法常常被结合使用。但由于损失函数、数据格式的差异以及对辅助模型的需求,两个方法之间存在范式鸿沟,仅能通过串联的方法实现模型的训练。

清华大学最近提出将SFT与RLHF合二为一,引入了一种统一的对齐算法,称为直观微调(Intuitive Fine-Tuning,IFT),它以类似人类的方式直观地建立策略偏好估计,让模型在看到问题后,能够对完整答案有一个模糊的感知。相较于SFT,IFT更接近真实的策略偏好,因此在性能上达到了与SFT和RLHF结合使用相当甚至更好的对齐效果。

并且相比SFT+RLHF,RLHF仅依赖于正样本和单个策略,从预训练的基础模型开始进行对齐,大大提高了计算效率,降低了训练成本。

图片

IFT无需额外的数据收集或处理,其效率仅次于SFT,且表现出与其它对齐算法相当甚至更优的性能,这使得IFT在偏好数据难以获取或成本高昂的领域中也具有极高的实用价值。

论文标题:
Intuitive Fine-Tuning:Towards Unifying SFT and RLHF into a Single Process

论文链接
https://arxiv.org/pdf/2405.11870

3.5研究测试:
hujiaoai.cn
4研究测试:
askmanyai.cn
Claude-3研究测试:
hiclaude3.com

预备知识

为了对SFT和RLHF有更深入和统一的理解,作者试图通过在马尔可 夫决策过程 (MDP) 框架下定义偏好估计和状态-动作对优化,来解释SFT和RLHF之间的相似性和差异。

马尔科夫决策过程

马尔可夫决策过程(MDP)在语言模型中的应用可以被简洁地描述为一个五元组 。这里, 是由词汇表的有序排列形成的状态空间, 是基于分词器定义的词汇动作空间。 是转移矩阵,它描述了从一个状态转移到另一个状态时生成特定词汇的概率。 代表在特定状态执行动作后获得的奖励,而  是基于给定指令的初始状态分布。

语言建模的核心目标是训练一个策略 ,其对应的转移矩阵为 ,以模仿人类策略的转移矩阵 ,使两者变得完全一致:

图片

这个过程也可以用状态-状态转移矩阵来表示,其中等同于,但表示从一个状态到另一个状态的转移概率:

图片

偏好估计

当给定初始指令 ρ 时,可以定义策略  的偏好  为一个映射:

图片

在对齐阶段,模型偏好逐渐接近人类偏好:

图片

由于真正的偏好难以获取,通常通过模型和人类的偏好估计来进行对齐。为了让偏好变得可优化,每个策略的偏好也可以表示为:

图片

在这里, 表示由初始状态 ρ限定的条件状态空间,因此可以通过转移矩阵来优化模型偏好。本文将这种方法叫做Transition Optimization。接下来将详细描述这个过程。

Transition Optimization

理想情况下,希望在受到ρ约束的状态空间中,使模型和人类的状态动作转移矩阵保持一致:

图片

这相当于以下由状态-状态转移矩阵表示的格式:

图片

然而,考虑到有限的数据,只有表示数据集中包含的状态-动作/状态-状态对的矩阵元素才会对齐。给定指令为ρ、答案长度为N的目标样本,目标为:

图片

同样等价于:

图片

图片

其中,初始状态对应于ρ,并且最优的转换矩阵ρρ与模型θρρ在初始状态下的值均为1。因此,损失函数可以通过比较模型和人类的转换矩阵差异来推导得出。

从SFT 到RLHF

按照上述框架,本文重新表述了SFT、PPO和DPO,具体形式见下表:

图片

更易理解的版本如下图所示:

图片

图中的符号*和θ分别表示人类和模型。其中π(),。与PPO和DPO相比,SFT使用偏离模型分布的先验,导致对模型偏好的估计更有偏差。IFT利用临时剩余连接实现了比SFT更接近的估计,同时保持了SFT的数据和计算效率。

为了比较它们的差异,首先引入一个基本定理和推论:

定理: 对于一组事件 Z,任何事件 z ∈ Z的概率在0到1之间,如果所有事件相互独立,它们的概率之和等于1,最有可能的事件的概率大于或等于其他任何事件的概率:

语言模型作为一个概率估计模型,可以推论:语言模型倾向于给自己的一致性预测分配更高的概率,而非人类偏好。也就是说在给定相同初始指令的情况下,语言模型倾向于给自己生成的内容分配更高的概率,而不是目标答案。

图片

图片

SFT虽然提供了人类偏好的无偏估计,但对模型来说是带有偏见的估计。这是由于在预测每个后续token时使用了错误的先验状态所导致的。SFT 的状态转换优化目标为:

图片

但是在对齐与时,这导致了模型的过渡概率和偏好估计过高,从而影响了SFT的优化进程。因此,需要RLHF进行进一步的偏好校准。

PPO提供了模型偏好的无偏估计,同时采用逐步无偏的人类偏好估计:

图片

初始时,这种估计存在偏差,但随着模型随着时间逐渐与人类偏好一致,它变得越来越无偏。因此, 相对于SFT, PPO在模型优化中的过渡阶段提供了更接近实际情形:

图片

DPO理论上在所有情况下都能提供最佳估计,即使不进行奖励建模。然而,获取在线的成对偏好数据代价高昂,因为需要实时从模型中获取负样本并由人类进行偏好标注。因此,主流实现往往依赖优化模型外的非同分布的 off-policy 负样本,这可能导致偏好估计偏差和过渡优化不足,从而产生不稳定和次优的结果。

提出新方法

虽然SFT在数据和计算方面都很高效,但它在偏好估计和转移优化方面的近似效果较差。另一方面,以PPO和DPO为代表的RLHF在近似效果上做得更好,但这需要付出构建偏好数据的代价。因此,本文将结合两者的优点,提出了——Intuitive Preference Estimation直觉偏好估计。

直觉偏好估计

SFT和RLHF之间的关键区别在于是否对每个初始指令的模型偏好分布进行了采样。与RLHF不同,SFT中用于先验的目标答案的中间状态可能远离模型偏好,从而导致较差的结果。

为了获得更接近模型偏好的状态估计,作者引入了一个基于模型的分布扰动函数δθ,用于纠正偏差状态:

图片

这也可以解释为一个时间上的残差连接。通过这种方法,模型不仅能根据目标答案的中间状态预测下一个 token,还能仅凭初始指令发展出对整个答案生成的直观理解,从而得出更精确的偏好估计:

图片

动态关系传播

随着改进的偏好估计,可以实现了更接近原始目标的过渡优化过程:

图片

这可以通过量化模型与人类之间过渡差异的损失函数进行优化:

图片

与SFT相同,每个目标中间状态的优化目标的概率为1。因此损失函数可以重写为:

图片

这使得并行实现变得更加容易。并且通过这个损失函数优化的目标在对策略进行在线学习的情况下,隐含地满足贝尔曼方程。这确保了优化过程更接近RLHF。它还保证了优化目标不仅反映了当前 token 的预测准确性,而且考虑了当前选择对后续生成的影响,帮助模型获得对生成的直观理解,以及更好的因果性和事实遵循性。

实验

实验设置

本文选择UltraChat-200k 作为单目标数据集,UltraFeedback-60k 作为配对数据集。在Mistral-7B-v0.1 基础模型和已在UltraChat-200k上经过微调的版本Mistral-7B-sft-beta上进行实验。

考虑两种训练场景:一、单独使用RLHF训练;二、先用SFT再用RLHF顺序训练。在第一种场景中,直接使用基础模型Mistral-7B-v0.1与UltraFeedback进行对齐,并从UltraChat中随机抽取60k数据用于补充SFT和IFT,这两种方法仅使用目标数据。第二种场景则更为常见:首先使用SFT对Mistral-7B-sft-beta进行微调,随后再利用UltraFeedback通过RLHF进行进一步微调,该模型已先用SFT在UltraChat上微调过。

评估基准选用广泛使用的Open-LLM LeaderBoard和基于语言模型的评估,包括Alpaca-Eval和Alpaca-Eval-2。

实验结果与分析

实验结果如下所示:

图片

在基于LLMs的基准测试上。在顺序训练场景中,SFT+DPO仍然取得最高分,IFT的表现略逊一筹。但是,当直接从基础模型进行调整时,IFT不仅表现出色,而且与序列方法相当。这表明,IFT使用最少的数据和计算资源就达到了不错的效果。

图片

在开放LLM排行榜的聊天模板评估中,当使用相同的调参方法时,IFT在所有方法中实现了最高的平均分数。直接使用IFT使用最少的数据和计算资源进行对齐,但在所有方法中显示出最好的性能

IFT更擅长生成任务

从以上的实验结果,作者还发现在Open-LLM基准测试中,IFT更擅长生成任务,但在多选任务上则相对较弱;相反,DPO在多选任务上表现更佳。

这种差异可能源于两种任务不同的评估指标以及IFT和DPO的训练目标差异。多选任务通过评估模型对每个完整正确答案的似然度来度量性能,而生成任务要求模型根据Token构建最终答案,更能体现因果关系和推理能力。

DPO侧重于指令与完整答案的映射,而IFT则更强调Token间的因果关系,因此在需要模型逐Token探索的生成任务中表现更佳,而在多选这样的分布映射任务上,DPO则表现更优。

考虑到这一点,作者在ARC-Challenge中将其转换为生成任务,问题和候选答案会提前显示,答案将从模型生成中提取。在不改变基准测试分布的情况下,IFT在该设置中显示出优势。总的来说,IFT在不同任务上保持了最佳平衡,实现了最高的平均得分。

SFT+RLHF甚至不如单独使用SFT

传统的RLHF方法在指令跟随能力的增强方面表现出色,但使用SFT+RLHF的顺序训练方法需要更多的超参数的权衡,因此这种方法表现明显较差,甚至不如单独使用SFT。ORPO和IFT通过直接在基础模型上进行对齐,避免了超参数的权衡,从而实现更好的性能。

IFT的效率和扩展潜力

IFT不仅在性能上出众,甚至超越其他方法,更在多个方面展现了其高效性。与SFT和ORPO相似,IFT无需依赖参考模型,从而显著节省了GPU内存和计算资源。

更值得一提的是,IFT和SFT是仅有的两种无需偏好数据进行对齐的方法,这一特性带来了诸多优势:减少了GPU上同步存储和计算对偶数据的压力,降低了内存消耗和训练时间;同时,省去了生成负样本和标注偏好标签的繁琐过程,大大降低了对齐成本。此外,IFT仅依赖目标答案进行对齐,为流程扩展提供了可能性,进一步彰显了预训练技术的核心优势。

冰湖环境测试

Frozen-Lake Environment(冰湖环境)是一个经典的强化学习环境,常用于演示和测试强化学习算法。在这个环境中,一个agent试图在一个几乎结冰的湖面上找到一个礼物,游戏在找到礼物 或掉入洞中时结束。有限的状态和动作数量使得使用经典强化学习方法可以容易地得出最优策略。

为了模拟参数化策略的对齐,作者使用一个两层全连接神经网络,并设计了一个包含一个最优和一个次优轨迹的环境。最优的参数 化策略使用先前获得的最优状态-动作概率进行训练,然后比较各种来自语言模型的微调方法。通过计算最优和训练策略参数之间的 均方误差(MSE)距离来评估性能。

图片

实验结果显示,IFT在优化方面显著优于SFT和ORPO,但略逊于DPO。这主要归因于在探索网格与agent偏好对齐方面,DPO > IFT> ORPO > SFT。尽管ORPO考虑了从策略中采样的负轨迹,但其直接融入SFT损失并使用融合系数,一定程度上削弱了其效果。相比之下,DPO、ORPO和IFT探索的网格更为广泛,有助于agent更深入地理解环境。

结语

本文首先将SFT和一些典型的RLHF方法解释为一个统一的框架,即偏好估计和过渡优化。接着,提出了一种高效且有效的方法 IFT, 它直接从基础模型开始,使用无偏好标签的数据实现对齐。

通过实验来看,IFT可以使用更少的资源与成本实现与其他方法相当甚至更优的效果,为预训练技术的发展提供了一种新思路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/18722.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java基础入门day60

day60 购物车案例补充 设置欢迎页 打开也系统&#xff0c;就可以直接看到商品列表页面 之前曾经设置过欢迎页&#xff0c;都是针对页面&#xff0c;可以有html页面&#xff0c;也可以有jsp页面 但是今天我们将一个servlet设置成欢迎页 在web.xml文件中设置欢迎页 <welcome…

【C++】牛客——JZ38 字符串的排列

✨题目链接&#xff1a; JZ38 字符串的排列 ✨题目描述 输入一个长度为 n 字符串&#xff0c;打印出该字符串中字符的所有排列&#xff0c;你可以以任意顺序返回这个字符串数组。 例如输入字符串ABC,则输出由字符A,B,C所能排列出来的所有字符串ABC,ACB,BAC,BCA,CBA和CAB。 数…

Pi 母公司将开发情感 AI 商业机器人;Meta 科学家:Sora 不是视频生成唯一方向丨RTE 开发者日报 Vol.214

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE&#xff08;Real-Time Engagement&#xff09; 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「…

揭秘IDM:数字资产管理的未来之星

在当今数字化时代&#xff0c;数字资产管理的重要性日益凸显。随着科技的飞速发展&#xff0c;越来越多的企业和个人开始关注如何有效管理和保护他们的数字资产。在这个过程中&#xff0c;IDM&#xff08;身份管理系统&#xff09;逐渐成为了热门话题。IDM作为一种新兴的技术手…

动手学操作系统(四、MBR读取硬盘加载Loader)

动手学操作系统&#xff08;四、MBR读取硬盘加载Loader&#xff09; 在上一节中&#xff0c;我们学习了使用MBR来直接控制显卡进行显示&#xff0c;在这一节中我们学习如何让MBR来操作硬盘&#xff0c;加载Loader来完成操作系统的后续启动过程。 文章目录 动手学操作系统&…

神经网络与深度学习——第14章 深度强化学习

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第14章 深度强化学习 深度强化学习 强化学习&#xff08;Reinforcement Learning&#xff0c;RL&#xff09;&#xff0c;也叫增强学习&#xff0c;是指一类从与环境交互中不断学习的问题以及解决这类问题…

SQL刷题笔记day4补

1题目 我的正确代码 select e.last_name,e.first_name,d.dept_name from employees e left join (select departments.dept_name,dept_emp.emp_no,dept_emp.dept_no from departments join dept_emp on departments.dept_nodept_emp.dept_no) d on e.emp_nod.emp_no复盘&…

(文章复现)分布式电源接入配电网承载力评估方法研究

参考文献&#xff1a; [1]郝文斌,孟志高,张勇,等.新型电力系统下多分布式电源接入配电网承载力评估方法研究[J].电力系统保护与控制,2023,51(14):23-33. 1.摘要 随着光伏和风电等多种分布式电源的接入&#xff0c;使得传统配电网的结构及其运行状态发生了较大改变。因此&…

【网络】网络编程套接字

一、知识提及 1.源IP地址和目的IP地址 在IP数据包头部中, 有两个IP地址, 分别叫做源IP地址, 和目的IP地址 2.端口号 端口号(port)是传输层协议的内容. 端口号是一个2字节16位的整数;端口号用来标识一个进程, 告诉操作系统, 当前的这个数据要交给哪一个进程来处理;IP地址 …

一文介绍数据和模型漂移(Drift):漂移检测示例

大家好&#xff0c;漂移(Drift)是机器学习中用来描述模型在生产环境中随着时间推移而性能逐步下降的现象&#xff0c;由很多原因引起&#xff0c;主要原因是随着时间推移输入数据&#xff08;x&#xff09;分布的变化和期望目标&#xff08;y&#xff09;之间的关系发生了变化。…

PHP MySQL图解学习指南:开启Web开发新篇章

PHP曾经是最流行的Web开发语言&#xff0c;许多世界领先的网站(如Facebook、维基百科和WordPress)都是用它编写的。PHP运行在Web服务器端&#xff0c;通过使用存储在MySQL数据库中的数据&#xff0c;使得网站可以为每一位访问者显示不同的定制页面。书中采用简单、直观的图示化…

STL-priority_queue的使用及其模拟实现

优先级队列(priority_queue)默认使用vector作为其底层存储数据的容器&#xff0c;在vector上又使用了堆算法将vector中的元素构造成堆的结构&#xff0c;因此priority_queue就是堆&#xff0c;所有需要用到堆的位置&#xff0c;都可以考虑使用priority_queue。 注意&#xff1…

【好书分享第十三期】AI数据处理实战108招:ChatGPT+Excel+VBA

文章目录 一、内容介绍二、内页插图三、作者简介四、前言/序言五、目录 一、内容介绍 《AI数据处理实战108招&#xff1a;ChatGPTExcelVBA》通过7个专题内容、108个实用技巧&#xff0c;讲解了如何运用ChatGPT结合办公软件Excel和VBA代码实现AI办公智能化、高效化。随书附赠了…

NDIS驱动开发-NET_BUFFER体系

网络数据由通过网络发送或接收的数据包组成。 NDIS 提供数据结构来描述和组织此类数据。 NDIS 6.0 及更高版本的主要网络数据结构包括&#xff1a; NET_BUFFERNET_BUFFER LISTNET_BUFFER_LIST_CONTEXT 它们之间的关系如下: 在 NDIS 6.0 及更高版本中&#xff0c; NET_BUFFER …

串口调试助手中文乱码 解决方案

输出乱码 一般&#xff0c;当串口调试助手输出乱码时&#xff0c;可能有以下几个原因&#xff1a; 波特率设置错误&#xff1a;串口通信需要保证发送和接收的设备使用相同的波特率。请检查串口调试助手和目标设备的波特率设置是否一致。 数据位、停止位或校验位设置错误&…

【目标解算】相机内外参数详细解读+坐标系转换

一、相机参数介绍 1.1 相机内参矩阵 概念&#xff1a;内参矩阵用于描述相机的内部参数&#xff0c;它包含了相机的焦距、主点坐标和图像的畸变等信息。内参矩阵的形式通常为一个3x3的矩阵&#xff0c;常用表示为K。内参矩阵可以将相机坐标系中的三维点映射到图像平面上的二维…

linux安装mysql后,配置mysql,并连接navicat软件

Xshell连接登陆服务器 输入全局命令 mysql -u root -p 回车后&#xff0c;输入密码&#xff0c;不显示输入的密码 注意mysql服务状态&#xff0c;是否运行等 修改配置文件my.cnf&#xff0c;这里没找到就找my.ini&#xff0c;指定有一个是对的 find / -name my.cnf 接下…

GPT-4你了解多少呢

一、引言 在人工智能&#xff08;AI&#xff09;领域&#xff0c;自然语言处理&#xff08;NLP&#xff09;技术一直备受关注。近年来&#xff0c;随着深度学习技术的飞速发展&#xff0c;NLP领域也取得了显著进步。GPT-4&#xff0c;作为OpenAI公司最新发布的自然语言处理模型…

京东二面:为什么Netty要造FastThreadLocal?

FastThreadLocal 从字面意义上来看&#xff0c;它是“Fast”“ThreadLocal”的结合体&#xff0c;寓意为快速的 ThreadLocal。那么&#xff0c;问题来了&#xff0c;Netty 为什么要再造一个 FastThreadLocal&#xff1f;FastThreadLocal 运行快的原因是啥&#xff1f;除了快之外…

linnux上安装php zip(ZipArchive)、libzip扩展

安装顺序&#xff1a; 安装zip&#xff08;ZipArchive&#xff09;&#xff0c;需要先安装libzip扩展 安装libzip&#xff0c;需要先安装cmake 按照cmake、libzip、zip的先后顺序安装 下面的命令都是Linux命令 1、安装cmake 确认是否已安装 cmake --version cmake官网 未安装…