SuperHF: Supervised Iterative Learning from Human Feedback

本文是LLM系列文章,针对《SuperHF: Supervised Iterative Learning from Human Feedback》的翻译。

SuperHF:从人的反馈中监督迭代学习

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 背景
  • 4 方法
  • 5 实验
  • 6 讨论与未来工作
  • 7 结论

摘要

人工智能领域越来越关注大规模语言模型,这些模型虽然表现出非凡的能力,但在安全性、与人类价值观的一致性以及训练过程中的稳定性方面往往存在挑战。在这里,我们重点介绍了两种常用的方法,即监督微调(SFT)和来自人类反馈的强化学习(RLHF)。SFT简单而稳健,为许多开源模型提供了动力,而RLHF是一种更复杂的方法,用于ChatGPT等顶级模型,但也存在不稳定性和易受奖励黑客攻击的问题。我们提出了一种新的方法,即从人类反馈中监督迭代学习(SuperHF),它试图利用这两种方法的优势。我们的假设有两个方面:我们假设RLHF中使用的奖励模型对于有效的数据使用和模型泛化至关重要,并且RLHF中可能没有必要使用近端策略优化(PPO),这可能会导致不稳定问题。SuperHF用简单的监督损失和Kullback-Leibler(KL)发散先验代替了PPO。它通过在在线学习机制中重复采样一批模型输出并通过奖励模型进行过滤来创建自己的训练数据。然后,我们将奖励优化问题分解为三个部分:稳健地优化训练奖励本身,防止奖励黑客攻击——或利用一种新的METEOR相似性度量来衡量可能降低模型性能的奖励模型,以及在下游评估中保持良好的性能。我们的实验结果表明,SuperHF在训练目标上超过了基于PPO的RLHF,轻松而有利地权衡了高回报和低回报的黑客攻击,改进了下游校准,并在我们基于GPT-4的定性评估方案上执行了相同的操作,同时实现起来明显更简单,突出了SuperHF作为一种具有竞争力的语言模型对齐技术的潜力。

1 引言

2 相关工作

3 背景

4 方法

5 实验

6 讨论与未来工作

7 结论

我们提出了一种从人类反馈中监督迭代学习(SuperHF),这是一种从标量人类反馈奖励信号中使基础模型与人类偏好相一致的新方法,它是基于近端策略优化(PPO)的人类反馈强化学习(RLHF)的替代方法。通过将人类反馈微调问题重新定义为贝叶斯推理,我们导出了SuperHF损失,这是一种简单的监督损失,包含了关键的KL发散先验。我们的实验表明,SuperHF有效地优化了问答的奖励模型分数,在使用KL分歧惩罚和从指令调整的基础模型开始时,在高奖励和低奖励游戏之间取得了良好的平衡,并将与RLHF一样好或更好的推广到GPT-4的下游任务和主观偏好评估中。
考虑到我们工作的更广泛影响,SuperHF简化了根据人类反馈进行的语言模型微调,使过程民主化,并提高了该领域的可访问性。重要的是要认识到这类工作中滥用增加的可能性——当前的语言模型对齐侧重于与任何偏好对齐的技术挑战,因此参与者既有将开放语言模型微调为不期望的偏好的风险,也有简单地使用指令遵循模型更容易输出有害或危险的响应的风险。但是,随着RLHF越来越广泛,越来越多的开源实现出现在网上,有必要对该方法进行批判性评估,发布更简单但希望更安全的方法成为一种越来越好的权衡(附录D中的X风险表中描述了其他考虑因素。总体而言,我们设想SuperHF和类似的研究方向最终有助于开发广泛的语言模型对齐工具,通过仔细的治理和稳健的评估,可以训练和部署未来的基础模型,使其更安全地与社会价值观对齐并保护社会价值观。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/120505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA: 自用主题及字体搭配推荐

文章目录 1. 字体设置推荐2. 主题推荐3. Rainbow Brackets(彩虹括号)4. 设置背景图片 下面是我的 IDEA 主题和字体,它们的搭配效果如下: 1. 字体设置推荐 在使用 IntelliJ IDEA 进行编码和开发时,一个合适的字体设置可以提高你的工作效率和舒…

Fabric.js 图案笔刷

本文简介 带尬猴,我是德育处主任 Fabric.js 有图案画笔功能,这个功能可以简单理解成“刮刮卡”效果。 如果只是看 Fabric.js 文档可能还不太明白 图案画笔 PatternBrush 是如何使用。 本文将讲解如何配置这款画笔的基础属性。 图案画笔(笔…

Kafka入门05——基础知识

目录 副本数据同步原理 HW和LEO的更新流程 第一种情况 第二种情况 数据丢失的情况 解决方案 Leader副本的选举过程 日志清除策略和压缩策略 日志清除策略 日志压缩策略 Kafka存储手段 零拷贝(Zero-Copy) 页缓存(Page Cache&…

关于JAVA中字节码文件版本号、产品版本号及开发版本号的关系

目录 关于字节码版本对应关系清单关于字节码格式说明的资料关于这些版本号 关于字节码版本 以二进制打开字节码文件: 如上图中第5-8标识(圈起来的)的即字节码版本号 十六进制: 34 十进制: 52 jdk 8 对应关系清单 …

四、【常用的几种抠图方式三】

文章目录 钢笔工具抠图通道抠图蒙版抠图色彩范围抠图 钢笔工具抠图 钢笔工具抠图适合边缘比较硬的主体对象,因此适合需要精修而且边缘比较生硬的图片,钢笔工具操作比较多,对一般的新手来讲不是很友好,想要使用好钢笔工具需要经常…

【Git LFS】huggingface 断点续传

这里有个很好的介绍:https://stackoverflow.com/questions/72610494/what-is-the-difference-between-git-lfs-fetch-git-lfs-fetch-all-and-git 提供的信息是关于如何作为普通用户使用Git LFS(Large File Storage),涵盖了各种Gi…

5G与医疗:开启医疗技术的新篇章

5G与医疗:开启医疗技术的新篇章 随着5G技术的快速发展和普及,它已经在医疗领域产生了深远的影响。5G技术为医疗行业提供了更高效、更准确、更及时的通信方式,从而改变了医疗服务的模式和患者的体验。本文将探讨5G技术在医疗领域的应用场景、优…

JS问题:项目中如何区分使用防抖或节流?

前端功能问题系列文章,点击上方合集↑ 序言 大家好,我是大澈! 本文约2300字,整篇阅读大约需要6分钟。 本文主要内容分三部分,第一部分是需求分析,第二部分是实现步骤,第三部分是问题详解。 …

CSS 基础知识-02

CSS 基础知识-01 1. flex布局2.定位3.CSS精灵4.CSS修饰属性 1. flex布局 2.定位 3.CSS精灵 4.CSS修饰属性

[③ADRV902x]: Digital Filter Configuration(接收端)

前言 本篇博客主要总结了ADRV9029 Rx接收端链路中各个滤波器的配置。配置不同的滤波器系数以及不同的参数,可以对输入的数字信号灵活得做decimation处理,decimation信号抽取,就是降低信号采样率的过程。 Receiver Signal Path 下图为接收端…

Java之System.getProperty()的作用及使用说明

目录 一、Java之System 1、getProperty() 一、Java之System 1、getProperty() System.getProperties()可以确定当前的系统属性,返回值是一个Properties; System.load(String filename)等同于:System.getProperties().load(String filename)它们的作用是可以从作…

程序化广告系列之一---名词解释

基础 1、DSP:全称“Demand-Side Platform”,需求方平台,是为广告主、代理商提供一个综合性的管理平台,通过统一界面管理多个数字广告和数据交换账户。 2、SSP:SSP是Sell-Side Platform的缩写,即供应方平台…

通信基础(一):数据传输基础

一、波特率与比特率关系 比特率(信息传输速率、信息速率):指单位时间内在信道上传 送的数据量(即比特数),单位为比特每秒 (bit/s), 简记为b/s或bps。 波特率与比特率有如下换算关系: bitbaud *log 2(N) 其中, N是码元总类数。 特别注意&#xff…

Linux | 进程地址空间

目录 前言 一、初始进程地址空间 1、实验引入 2、虚拟地址空间 二、什么是进程地址空间 1、基本概念 2、深入理解进程地址空间 3、进程地址空间的本质 4、遗留问题解决 三、为什么要有进程地址空间 1、知识扩展 2、进程地址空间存在意义 3、重新理解挂起 前言 本…

Vue引入异步组件

defineAsyncComponent 函数:异步引入组件。 Suspense 标签:异步引入组件时,显示默认的内容。 异步引入组件的基本使用: 异步引入组件: import { defineAsyncComponent } from vue; const Child defineAsyncComponen…

没有电脑也不用担心,在Android设备上也可以轻松使用ppt

PowerPoint是制作幻灯片的好工具,无论是工作、学校还是个人使用。但有时你无法使用电脑或笔记本电脑,你必须在旅途中做演示。 这就是PowerPoint for Android派上用场的地方。它允许你在移动设备上创建、编辑和呈现幻灯片。以下是要遵循的步骤&#xff1…

【单例模式】饿汉式,懒汉式?JAVA如何实现单例?线程安全吗?

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ 单例设计模式 Java单例设计模式 Java单例设计模…

031-从零搭建微服务-监控中心(一)

写在最前 如果这个项目让你有所收获,记得 Star 关注哦,这对我是非常不错的鼓励与支持。 源码地址(后端):mingyue: 🎉 基于 Spring Boot、Spring Cloud & Alibaba 的分布式微服务架构基础服务中心 源…

KMS在腾讯云的微服务实践助力其降本50%

背景介绍 KMS 是一家日本的游戏公司,主要经营游戏业务、数字漫画业务、广告业务、云解决方案业务等,出品了多款在日本畅销的漫画风游戏,同时有网络漫画专业厂牌,以内容创作为目标,拥有原创 IP 创作、游戏开发等多元化发…

第三篇:实践篇 《使用Assembler 实现图片任意切割功能》

实现原理: 共用一个texture、material、渲染状态等。紧通过修改vertex、uvs、indexes数据即可实现任意切割功能。 一、线段分割多边形,并分散多边形 线段分割多边形 已知多边形points,线段sp、ep。线段分割多边形得到两个多边形。 publi…