对齐大型语言模型与人类偏好:通过表示工程实现

1、写作动机:

强化学习表现出相当复杂度、对超参数的敏感性、在训练过程中的不稳定性,并需要在奖励模型和价值网络中进行额外的训练,导致了较大的计算成本。为了解决RL方法带来的上述挑战,提出了几种计算上轻量级的替代方案,在这些替代方案中,两个突出的范例包括对比学习和Hindsight指令重新标记(HIR),然而,无奖励微调容易受到训练集中包含的偏好注释响应对的嘈杂数据或不正确标签的影响。

几种方法的比较如下图:

2、主要贡献:

本研究从新兴的表示工程(RepE)领域汲取灵感,旨在识别嵌入在LLM活动模式中的高级人类偏好的相关表示,并通过转换其表示实现对模型行为的精确控制。这种新颖的方法,称为从人类反馈中的表示对齐(RAHF),被证明是有效的、计算高效的,并且易于实施。

3、方法:

通过一组偏好标注的响应对对LLMs进行人类偏好的指导。其次,我们收集LLMs在接收到偏好或不偏好的刺激时的活动模式。使用了两种新方法,用于对LLMs进行人类偏好的指导和提取它们的活动模式:一种涉及单个LLM(训练其区分响应相对质量的能力),另一种采用双LLMs("好人"和"坏人")。最后,通过训练一个低秩适配器来适应活动模式的差异,构建最终模型。

3.1单模型指导:

单LLM方法侧重于通过对比指令微调单个大型语言模型(SCIT)。其主要目标是有效地训练模型区分首选和不首选的响应,从而优化其与人类偏好的一致性。在这种方法中,培训数据集被精心策划,包括首选和不首选指令的配对,以及相关的查询和相应。受HIR的启发,对于与正面偏好相关的指令,目标是提高生成首选响应的概率,同时降低生成不首选响应的概率。相反,对于与负面偏好相关的指令,目标是提高生成不首选响应的概率,并降低生成首选响应的概率。形式上,让D表示训练数据集,其中qi表示查询,ri表示响应,pi表示指令(正面或负面)。LLM的微调涉及最大化以下目标:

3.2双模型中的偏好指令:

训练两个具有不同倾向的LLMs:一个模型倾向于生成首选响应,而另一个倾向于生成不首选响应。形式上,考虑数据集D,其中包含输入查询q和首选响应对的配对:首选响应rh和不首选响应rl。现在,我们将D分为首选数据集Dh​={(q,rh)}i​和不首选数据集Dl​={(q,rl)}i​。利用这些数据,采用监督学习方法(最大似然)对LLMs进行微调,从而获得表示首选的两个模型,分别表示为πh​和πl​。这两个LLMs的微调旨在最大化以下目标:

3.3收集活动模式和构建最终模型:

在提取活动模式的过程中,利用刺激对<p+,q,r>和<p−,q,r>从模型的中间层中引出表示。对于通过对比指令微调的单个大型语言模型(SCIT),这些对分别输入到同一模型中,以捕捉首选和不首选响应的不同激活模式。对于双LLMs方法,输入被馈送到相应的“好”模型和“坏”模型中,使其能够独立地提取每个模型的激活模式。对于这两种方法计算刺激对激活模式的差异,产生一个指示首选活动模式方向的差异向量。具体而言,对于首选和不首选的指令,计算响应中相应位置的每个token的隐藏状态的差异。随后,通过合并差异向量来扰动模型的原始表示。最后利用收集到的激活模式来训练一个目标模型,期望它与人类偏好一致。

其中,α 是一个超参数,控制差异向量vl​在模型整合过程中的干预程度。vl​ 是提取的差异向量。

4、实验:

数据集:2H数据集。

模型:用alpaca数据集微调llama-7b模型,成为alpaca模型,在实验中,所有模型都是使用Alpaca初始化的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/643332.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

el-select选项过多导致页面卡顿,路由跳转卡顿

问题&#xff1a;el-select数据量太大&#xff0c;导致渲染过慢&#xff0c;或造成页面卡顿甚至于卡死 卡顿原因&#xff1a;DOM中数据过多&#xff0c;超过内存限制 解决方法&#xff1a; 1.使用Virtualized Select 虚拟化选择器&#xff0c;页面就不卡了 2.el-select做分…

K8S四层代理Service-02

Service的四种类型使用 ClusterIP使用示例Pod里使用service的服务名访问应用 NodePort使用示例 ExternalName使用示例 LoadBalancer K8S支持以下4种Service类型&#xff1a;ClusterIP、NodePort、ExternalName、LoadBalancer 以下是使用4种类型进行Service创建&#xff0c;应对…

Datawhale 强化学习笔记(四)结合策略梯度和价值函数的 Actor-Critic 算法

策略梯度算法的缺点 采样效率低。由于使用的是蒙特卡洛估计&#xff0c;与基于价值算法的时序差分估计相比其采样速度必然是要慢很多的&#xff0c;这个问题在前面相关章节中也提到过。高方差。虽然跟基于价值的算法一样都会导致高方差&#xff0c;但是策略梯度算法通常是在估…

卡梅德-噬菌体肽库构建的流程与技术难度简述

噬菌体肽库构建技术是一种高效的蛋白质展示方法&#xff0c;广泛应用于抗体药物发现、抗原设计与疫苗研发等领域。本文将详细介绍噬菌体肽库的构建流程及其技术难度。 一、噬菌体肽库构建流程 基因合成与改造&#xff1a;首先&#xff0c;通过基因合成技术&#xff0c;将目标多…

使用k8s 配置 RollingUpdate 滚动更新实现应用的灰度发布

方案实现方式&#xff1a; RollingUpdate 滚动更新机制 当某个服务需要升级时&#xff0c;传统的做法是&#xff0c;先将要更新的服务下线&#xff0c;业务停止后再更新版本和配置&#xff0c;然后重新启动服务。 如果业务集群规模较大时&#xff0c;这个工作就变成了一个挑战…

HEGERLS智能物流机器人|场景为王 以存取为技术核心布局的仓储集群

随着物流需求的多样化、复杂化&#xff0c;四向穿梭车技术经过几年的蓬勃发展&#xff0c;正在各领域迎来愈加广泛的应用。河北沃克作为该领域的代表&#xff0c;凭借庞大的产品群、功能强大的软件系统以及资源丰富的生态合作伙伴体系实现了快速的发展。其中&#xff0c;海格里…

CSS实现三种常用的三角形效果

目录 前言 一、实现普通三角形效果 二、实现三角形的气泡框效果 三、实现空心三角形效果 四、总结 往期回顾 前言 CSS 提供了出色的方法可以实现基本的形状。本文就来看看如何使用这些方法来实现项目中常用的三种三角形效果。 一、实现普通三角形效果 实现步骤 &#…

cookie in selenium 定时更新token

1.selenium添加cookie访问 需要登录才能访问的链接 selenium 访问 “https://developer.org.com”&#xff0c;如果没登陆,则跳转到"https://console.org.com/login"&#xff0c;此时selenium取到的cookie的domain是&#xff1a;.console.org.com。 而domain 是 .c…

【Docker】Docker学习⑦ - Docker仓库之单机Dokcer Registry

【Docker】Docker学习⑦ - Docker仓库之单机Dokcer Registry 七、 Docker仓库之单机Dokcer Registry1 下载docker registry镜像2 搭建单机仓库2.1 创建授权使用目录2.2 创建用户2.3 验证用户密码2.4 启动docker registry2.5 验证端口和容器2.6 测试登录仓库2.7 在Server1登陆后…

每日一题——LeetCode1313.解压缩编码列表

这么简单的题目要说的这么复杂 nums里每相邻的两个元素nums[i]、nums[j]为一对&#xff0c;nums[i]表示nums[j]的次数 var decompressRLElist function(nums) {let res[]for(let i0,j1;j<nums.length-1;i2,j2){while(nums[i]--){res.push(nums[j])}}return res }; 消耗时…

Hudi0.14.0集成Spark3.2.3(Spark SQL方式)

1 整合Hive For users who have Spark-Hive integration in their environment, this guide assumes that you have the appropriate settings configured to allow Spark to create tables and register in Hive Metastore. 我们使用 Hive添加第三方jar包方式总结 中**{HIVE_H…

python实例100第36例:求100之内的素数

题目&#xff1a;求100之内的素数。 程序分析&#xff1a;素数是只能被1和他本身除尽的书。 程序源代码&#xff1a; 实例 #!/usr/bin/python # -*- coding: UTF-8 -*-# 输出指定范围内的素数# 用户输入数据 lower int(input("输入区间最小值: ")) upper int(i…

应用集成(iPaaS)和数据集成(ETL)高效协同的最佳实践

随着企业数字化的步伐加快&#xff0c;企业IT工程师和数据工程师在应用和数据集成方面的工作变得日益密切。IT工程师通常利用iPaaS&#xff08;Integration Platform as a Service&#xff09;来进行异构应用和数据的集成&#xff0c;而数据工程师则倾向于使用ELT/ETL&#xff…

Dify学习笔记-入门学习(二)

1、官方文档链接 https://docs.dify.ai/v/zh-hans/getting-started/readme 2、 Dify基础介绍 Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务&#xff08;Backend as Service&#xff09;和 LLMOps 的理念&#xff0c;使开发者可以快速搭建生产级的生成…

【深度学习:Collaborative filtering 协同过滤】深入了解协同过滤:技术、应用与示例

此图显示了使用协作筛选预测用户评分的示例。起初&#xff0c;人们会对不同的项目&#xff08;如视频、图像、游戏&#xff09;进行评分。之后&#xff0c;系统将对用户对项目进行评分的预测&#xff0c;而用户尚未评分。这些预测基于其他用户的现有评级&#xff0c;这些用户与…

在Vite5.x中使用monaco-editor

Uncaught (in promise) Error: Unexpected usage at _EditorSimpleWorker.loadForeignModule 如果你像我这样报错,那一般是getWorker部分出问题了. 首先推个帖子: https://github.com/vitejs/vite/discussions/1791 然后是代码 不需要在vite.config.ts中做任何设置,也不用…

硬件基础:数字电路概述与基础门电路

什么是数字逻辑电路 数字电路是一种利用离散信号进行信息处理的电子电路系统。 它的核心特点是使用数字信号来执行算术运算和逻辑运算。数字电路的工作信号是离散的&#xff0c;通常只取两个值&#xff1a;高电平和低电平&#xff0c;分别代表数值“1”和“0”。 这种电路的基础…

CSS基本知识总结

目录 一、CSS语法 二、CSS选择器 三、CSS样式表 1.外部样式表 2.内部样式表 3.内联样式 四、CSS背景 1.背景颜色&#xff1a;background-color 2.背景图片&#xff1a;background-image 3.背景大小&#xff1a;background-size 4.背景图片是否重复&#xff1a;backg…

活动回顾丨云原生技术实践营上海站「云原生 AI 大数据」专场(附 PPT)

AI 势不可挡&#xff0c;“智算”赋能未来。2024 年 1 月 5 日&#xff0c;云原生技术实践营「云原生 AI &大数据」专场在上海落幕。活动聚焦容器、可观测、微服务产品技术领域&#xff0c;以云原生 AI 工程化落地为主要方向&#xff0c;希望帮助企业和开发者更快、更高效地…

大数据学习之Flink算子、了解(Transformation)转换算子(基础篇三)

Transformation转换算子&#xff08;基础篇三&#xff09; 目录 Transformation转换算子&#xff08;基础篇三&#xff09; 三、转换算子&#xff08;Transformation&#xff09; 1.基本转换算子 1.1 映射&#xff08;Map&#xff09; 1.2 过滤&#xff08;filter&#xf…