RLAIF：一个不依赖人工的RLHF替代方案

RLAIF：一个不依赖人工的RLHF替代方案

news/2025/4/20 14:03:08/文章来源:https://blog.csdn.net/qq_27590277/article/details/132769778

深度学习自然语言处理原创
作者：Winnie

LLM可以标记人类偏好数据，用于强化学习吗？尽管之前有一些类似的研究，但从没有人系统地对比RLHF和RLAIF的性能。今天，我们为大家带来一项Google最新的研究，来看看LLM是否懂得人类的偏好。

Paper: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Link： https://arxiv.org/abs/2309.00267

进NLP群—>加入NLP交流群

基于人类反馈的强化学习(RLHF)通过收集人类反馈，以强化学习方法训练LLM，可以更好地理解人类偏好。然而，这个方法有一个很大的问题：收集高质量的人类反馈非常困难和耗时。

那有没有更好的方法呢？

🌟 RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顾名思义，RLAIF是指使用LLM来代替人类标记偏好，基于这些标记数据训练奖励模型，然后进行RL微调。

下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。

如图所示，在RLAIF中，首先使用LLM来评估给定的文本和2个候选回复，然后，这些由LLM生成的偏好数据被用来训练一个奖励模型，这个奖励模型用于强化学习，以便进一步优化LLM。

一个LLM用于评估回复的prompt示例如下图，遵循以下流程：

Preamble-描述任务介绍和说明
Few-shot exemplars(可选)
Sample to annotate
结束字符串

在这篇研究中，作者还探索了：

避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序，尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响，作者进行了双重推理和平均处理。
prompt改进: 还尝试了使用思维链（CoT）推理和self-consistency等方法促进LLM的评估。

🎯 实验结果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。

对于RLHF方法，奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。
对于RLAIF方法，使用PaLM 2 L生成AI标记的偏好
对于强化学习，使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。

实验主要有以下发现：

在性能方面：RLAIF与RLHF有相似的表现。

在人类评估上，与SFT策略相比，RLAIF被偏好71%的时间，而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF，但这个差异在统计上并不显著。
直接对比胜率：RLAIF与RLHF在被偏好的程度上是平等的，胜率都是50%。
与人工写的摘要比较：RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好，与参考摘要的差异也不具统计意义。
影响因素：RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要，这可能是质量提升的一个因素。
长度调整后表现：即使控制摘要的长度，RLAIF和RLHF都依然在同样的幅度内优于SFT策略。

下图是SFT，RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。

对于prompt方式，使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性，甚至可能使它变得更糟。

Self-Consistency with CoT对性能的影响如下，用T=1采样会导致与人类偏好的一致性较低。

作者还对用于评估的LLM的参数大小进行了探索，发现与人类偏好的一致性随着LLM大小的增加而增加。

🔮 总结

这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是，为了更好地了解这些发现是否能推广到其他NLP任务，还需要在更广泛的任务范围内进行实验。

进NLP群—>加入NLP交流群

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/73462.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python标准数据类型-List(列表)

Python标准数据类型-List(列表)

✅作者简介：CSDN内容合伙人、阿里云专家博主、51CTO专家博主、新星计划第三季python赛道Top1🏆 📃个人主页：hacker707的csdn博客 🔥系列专栏：零基础入门篇 💬个人格言：不断的翻越一座…

阅读更多...

C语言课程作业

C语言课程作业

本科期间c语言课程作业代码整理： Josephus链表实现 Josephus 层序遍历树二叉树的恢复哈夫曼树链表的合并中缀表达式链接：https://pan.baidu.com/s/1Q7d-LONauNLi7nJS_h0jtw?pwdswit 提取码：swit

阅读更多...

自动驾驶——估计预瞄轨迹YawRate

自动驾驶——估计预瞄轨迹YawRate

1.Introduction 在ADAS控制系统中，通常根据预瞄距离x去估计横向距离y，有如下关系： y a0 a1 x a2 * x^2 a3 * x^3 ，那么现在有个需求，希望根据上述x和y的关系，去估计规划预瞄轨迹yawRate 2.How to es…

阅读更多...

Linux之修改服务端口号

Linux之修改服务端口号

本次演示以SSH服务为例，SSH默认监听端口是22,先保留了22端口，所以我们要进入ssh的配置文件添加新端口并注释或删掉原有端口。 1、使用vi编辑器修改文件 sshd_config,路径是/etc/ssh/sshd_config,找到“#Port 22”,添加新的端口号10086。 2、如果你关闭了…

阅读更多...

Ubuntu目录和linux内核文件用途

Ubuntu目录和linux内核文件用途

一，目录： 1./:根目录，是整个文件系统的起点 2./bin:binary 二进制可执行文件目录，包含用于系统启动和运行的基本命令 3./boot: 启动加载器目录，包含用于系统启动的内核和引导程序文件。 4./dev: device 设备文件目录&a…

阅读更多...

SSM项目整合Redis

SSM项目整合Redis

一、前言上次发布的SpringBoot集成Redis，这次来说明一下SSM整合Redis。 SpringBoot集成Redis请看： 将Spring Boot与Redis集成_曾几何时…的博客-CSDN博客二、操作实现步骤一：在pom.xml文件中添加Redis依赖 <dependencies><…

阅读更多...

深度学习实战51-基于Stable Diffusion模型的图像生成原理详解与项目实战

深度学习实战51-基于Stable Diffusion模型的图像生成原理详解与项目实战

大家好，我是微学AI，今天给大家介绍一下深度学习实战51-基于Stable Diffusion模型的图像生成原理详解与项目实战。大家知道现在各个平台发的漂亮小姐姐，漂亮的图片是怎么生成的吗？这些生成的底层原理就是用到了Stable Diffusion模型。Stable Diffusion是一种基于深度学习的图…

阅读更多...

【Docker】Docker的使用案例以及未来发展、Docker Hub 服务、环境安全的详细讲解

【Docker】Docker的使用案例以及未来发展、Docker Hub 服务、环境安全的详细讲解

Docker的工具实践及root概念和Docker容器安全性设置 1. 使用案例2. Docker解决的问题3. Docker未来发展4. Docker Hub 服务5. 技术局限6. Docker环境安全7. 容器部署安全 1. 使用案例 Docker是一个命令行工具，它提供了中央“docker”执行过程中所需的所有工具。这使…

阅读更多...

Codeforces Round 866 (Div 2)(A - D)

Codeforces Round 866 (Div 2)(A - D)

Codeforces Round 866 (Div. 2)(A - D) Dashboard - Codeforces Round 866 (Div. 2) - Codeforces A. Yura’s New Name（思维） 思路：枚举每个下划线 ， 计算其前后需要补齐的 ‘^’ 个数 ， 注意特判样例四的特殊情况…

阅读更多...

图的应用（最小生成树，最短路径，有向无环图）

图的应用（最小生成树，最短路径，有向无环图）

目录一.最小生成树 1.生成树 2.无向图的生成树 3.最小生成树算法二.最短路径 1.单源最短路径---Dijkstra（迪杰斯特拉）算法 2.所有顶点间的最短路径---Floyd（弗洛伊德）算法三.有向无环图的应用 1.AOV网（拓扑…

阅读更多...

day52（补）

day52（补）

300.最长递增子序列力扣题目链接(opens new window) 给你一个整数数组 nums ，找到其中最长严格递增子序列的长度。子序列是由数组派生而来的序列，删除（或不删除）数组中的元素而不改变其余元素的顺序。例如，[3,6,2…

阅读更多...

【Kafka系列】（一）Kafka入门

【Kafka系列】（一）Kafka入门

有的时候博客内容会有变动，首发博客是最新的，其他博客地址可能会未同步,认准https://blog.zysicyj.top 首发博客地址系列文章地址 Kafka是什么？ 一句话概括：「Apache Kafka 是一款开源的消息引擎系统」什么是消息引擎系统&#…

阅读更多...

【LeetCode-中等题】22. 括号生成

【LeetCode-中等题】22. 括号生成

文章目录题目方法一：递归：方法二：递归回溯题目方法一：递归： 递归入口空子结果集，左括号数目（初始为0），右括号数目（初始为0） 递归出口若左括…

阅读更多...

linux(centos7)配置SSH免密登录

linux(centos7)配置SSH免密登录

给三台机器配置主机名映射在Windows系统中修改hosts文件，新增以下内容； 192.168.xxx.xxx bigdata_node1 192.168.xxx.xxx bigdata_node2 192.168.xxx.xxx bigdata_node33台Linux的/etc/hosts文件中，填入如下内容。 192.168.xxx.xxx bigda…

阅读更多...

在UE4虚幻引擎中加入导航网格体边界体积后丧尸不能移动和发现玩家

在UE4虚幻引擎中加入导航网格体边界体积后丧尸不能移动和发现玩家

UE4系列文章目录文章目录 UE4系列文章目录前言一、用到的知识点二、问题原因前言最近使用ue4做第一人称视角射击游戏发现问题，加入导航网格体边界体积后丧尸不能移动和发现玩家。下图是出现的问题图片一、用到的知识点 1.行为树：控制并显示AI的决…

阅读更多...

DTCC 2023丨云原生环境下，需要什么样的 ETL 方案？

DTCC 2023丨云原生环境下，需要什么样的 ETL 方案？

2023年8月16日~18日，第14届中国数据库技术大会（DTCC 2023）于北京隆重召开，拓数派受邀参与本次大会，PieCloudDB 技术专家邱培峰在大会做了《云原生虚拟数仓 PieCloudDB ETL 方案设计与实现》的主题演讲，详…

阅读更多...

promise详细的适用

promise详细的适用

promise promise的理解 promise对象创建自身带有一个函数，函数中有两个参数(resolve和reject)，这两个参数可以控制promise状态； promise状态默认是pending待定状态，promise中可以通过resolve状态修改成fulfilled 成功状态&#…

阅读更多...

PostgresSQL----基于Kubernetes部署PostgresSQL

PostgresSQL----基于Kubernetes部署PostgresSQL

【PostgresSQL----基于Kubernetes部署PostgresSQL】文章目录一、创建SC、PV和PVC存储对象1.1 准备一个nfs服务器1.2 编写SC、PV、PVC等存储资源文件1.3 编写部署PostgresSQL数据库的资源声明文件二、部署PostgresSQL2.1 部署 PV、PVC等存储对象2.2 部署PostgresSQL数据库2.3…

阅读更多...

php获取客户端ip地址及ip所在国家、省份、城市、县区

php获取客户端ip地址及ip所在国家、省份、城市、县区

摘要获取客户端ip地址，然后使用这个ip地址获取所在的国家、省份、城市，可以在网站中实现IP属地，发布地等功能。本文的获取IP地址信息均采自网络上免费的IP查询网站，通过其API或者网页HTML解析出的ip地址信息。代码 <?p…

阅读更多...

【Git】Git 基础

【Git】Git 基础

Git 基础参考 Git 中文文档 — https://git-scm.com/book/zh/v2 1.介绍 Git 是目前世界上最先进的分布式版本控制系统，有这么几个特点： 分布式：是用来保存工程源代码历史状态的命令行工具保存点：保存点可以追溯源码中的文件…

阅读更多...

最新文章