RLAIF:一个不依赖人工的RLHF替代方案

31ed3ed554821ef9d3112c5228960aeb.png

深度学习自然语言处理 原创
作者:Winnie

LLM可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比RLHF和RLAIF的性能。今天,我们为大家带来一项Google最新的研究,来看看LLM是否懂得人类的偏好。

Paper: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Link: https://arxiv.org/abs/2309.00267

进NLP群—>加入NLP交流群

b72dba071b4d1fc3ad9f0e9a714956d7.png

基于人类反馈的强化学习(RLHF)通过收集人类反馈,以强化学习方法训练LLM,可以更好地理解人类偏好。然而,这个方法有一个很大的问题:收集高质量的人类反馈非常困难和耗时。

那有没有更好的方法呢?

🌟 RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顾名思义,RLAIF是指使用LLM来代替人类标记偏好,基于这些标记数据训练奖励模型,然后进行RL微调。

下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。7f61705fd62a34821f4a98cde1256d1b.png

如图所示,在RLAIF中,首先使用LLM来评估给定的文本和2个候选回复,然后,这些由LLM生成的偏好数据被用来训练一个奖励模型,这个奖励模型用于强化学习,以便进一步优化LLM。

一个LLM用于评估回复的prompt示例如下图,遵循以下流程:

  • Preamble-描述任务介绍和说明

  • Few-shot exemplars(可选)

  • Sample to annotate

  • 结束字符串d7500eb153968cb4b091c252ac63ae8c.png

在这篇研究中,作者还探索了:

  • 避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序,尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响,作者进行了双重推理和平均处理。b5ce192080845030c7666a9ec9205cb5.png

  • prompt改进: 还尝试了使用思维链(CoT)推理和self-consistency等方法促进LLM的评估。

🎯 实验结果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。

  • 对于RLHF方法,奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。

  • 对于RLAIF方法,使用PaLM 2 L生成AI标记的偏好

  • 对于强化学习,使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。

实验主要有以下发现:

在性能方面:RLAIF与RLHF有相似的表现。

  • 在人类评估上,与SFT策略相比,RLAIF被偏好71%的时间,而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF,但这个差异在统计上并不显著。53f951553c7a4699eecea0f2049fd1ff.png

  • 直接对比胜率:RLAIF与RLHF在被偏好的程度上是平等的,胜率都是50%。

  • 与人工写的摘要比较:RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好,与参考摘要的差异也不具统计意义。

  • 影响因素:RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要,这可能是质量提升的一个因素。

  • 长度调整后表现:即使控制摘要的长度,RLAIF和RLHF都依然在同样的幅度内优于SFT策略。

下图是SFT,RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。d0dba67ca3ecf1047f1d3a6a92724dbe.png

对于prompt方式,使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性,甚至可能使它变得更糟。

9501b96c6b59f4ad67ecca602e1cc0f1.png

Self-Consistency with CoT对性能的影响如下,用T=1采样会导致与人类偏好的一致性较低。

1e49d6a3cc6655903f008dc6129a88ea.png

作者还对用于评估的LLM的参数大小进行了探索,发现与人类偏好的一致性随着LLM大小的增加而增加。

9d698ce6913acaab9f11a8e9d27469f4.png

🔮 总结

这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是,为了更好地了解这些发现是否能推广到其他NLP任务,还需要在更广泛的任务范围内进行实验。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/73462.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python标准数据类型-List(列表)

✅作者简介:CSDN内容合伙人、阿里云专家博主、51CTO专家博主、新星计划第三季python赛道Top1🏆 📃个人主页:hacker707的csdn博客 🔥系列专栏:零基础入门篇 💬个人格言:不断的翻越一座…

C语言课程作业

本科期间c语言课程作业代码整理: Josephus链表实现 Josephus 层序遍历树 二叉树的恢复 哈夫曼树 链表的合并 中缀表达式 链接:https://pan.baidu.com/s/1Q7d-LONauNLi7nJS_h0jtw?pwdswit 提取码:swit

自动驾驶——估计预瞄轨迹YawRate

1.Introduction 在ADAS控制系统中,通常根据预瞄距离x去估计横向距离y,有如下关系: y a0 a1 x a2 * x^2 a3 * x^3 ,那么现在有个需求,希望根据上述x和y的关系,去估计规划预瞄轨迹yawRate 2.How to es…

Linux之修改服务端口号

本次演示以SSH服务为例,SSH默认监听端口是22,先保留了22端口,所以我们要进入ssh的配置文件添加新端口并注释或删掉原有端口。 1、使用vi编辑器修改文件 sshd_config,路径是/etc/ssh/sshd_config,找到“#Port 22”,添加新的端口号10086。 2、如果你关闭了…

深度学习实战51-基于Stable Diffusion模型的图像生成原理详解与项目实战

大家好,我是微学AI,今天给大家介绍一下深度学习实战51-基于Stable Diffusion模型的图像生成原理详解与项目实战。大家知道现在各个平台发的漂亮小姐姐,漂亮的图片是怎么生成的吗?这些生成的底层原理就是用到了Stable Diffusion模型。Stable Diffusion是一种基于深度学习的图…

【Docker】Docker的使用案例以及未来发展、Docker Hub 服务、环境安全的详细讲解

Docker的工具实践及root概念和Docker容器安全性设置 1. 使用案例2. Docker解决的问题3. Docker未来发展4. Docker Hub 服务5. 技术局限6. Docker环境安全7. 容器部署安全 1. 使用案例 Docker是一个命令行工具,它提供了中央“docker”执行过程中所需的所有工具。这使…

图的应用(最小生成树,最短路径,有向无环图)

目录 一.最小生成树 1.生成树 2.无向图的生成树 3.最小生成树算法 二.最短路径 1.单源最短路径---Dijkstra(迪杰斯特拉)算法 2.所有顶点间的最短路径---Floyd(弗洛伊德)算法 三.有向无环图的应用 1.AOV网(拓扑…

day52(补)

300.最长递增子序列 力扣题目链接(opens new window) 给你一个整数数组 nums ,找到其中最长严格递增子序列的长度。 子序列是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序。例如,[3,6,2…

【Kafka系列】(一)Kafka入门

有的时候博客内容会有变动,首发博客是最新的,其他博客地址可能会未同步,认准https://blog.zysicyj.top 首发博客地址 系列文章地址 Kafka是什么? 一句话概括:「Apache Kafka 是一款开源的消息引擎系统」 什么是消息引擎系统&#…

【LeetCode-中等题】22. 括号生成

文章目录 题目方法一:递归:方法二:递归回溯 题目 方法一:递归: 递归入口 空子结果集,左括号数目(初始为0),右括号数目(初始为0) 递归出口 若左括…

linux(centos7)配置SSH免密登录

给三台机器配置主机名映射 在Windows系统中修改hosts文件,新增以下内容; 192.168.xxx.xxx bigdata_node1 192.168.xxx.xxx bigdata_node2 192.168.xxx.xxx bigdata_node33台Linux的/etc/hosts文件中,填入如下内容。 192.168.xxx.xxx bigda…

在UE4虚幻引擎中加入导航网格体边界体积后丧尸不能移动和发现玩家

UE4系列文章目录 文章目录 UE4系列文章目录前言一、用到的知识点二、问题原因 前言 最近使用ue4做第一人称视角射击游戏发现问题,加入导航网格体边界体积后丧尸不能移动和发现玩家。下图是出现的问题图片 一、用到的知识点 1.行为树:控制并显示AI的决…

DTCC 2023丨云原生环境下,需要什么样的 ETL 方案?

​2023年8月16日~18日,第14届中国数据库技术大会(DTCC 2023)于北京隆重召开,拓数派受邀参与本次大会,PieCloudDB 技术专家邱培峰在大会做了《云原生虚拟数仓 PieCloudDB ETL 方案设计与实现》的主题演讲,详…

PostgresSQL----基于Kubernetes部署PostgresSQL

【PostgresSQL----基于Kubernetes部署PostgresSQL】 文章目录 一、创建SC、PV和PVC存储对象1.1 准备一个nfs服务器1.2 编写SC、PV、PVC等存储资源文件1.3 编写部署PostgresSQL数据库的资源声明文件 二、部署PostgresSQL2.1 部署 PV、PVC等存储对象2.2 部署PostgresSQL数据库2.3…

【Git】Git 基础

Git 基础 参考 Git 中文文档 — https://git-scm.com/book/zh/v2 1.介绍 Git 是目前世界上最先进的分布式版本控制系统,有这么几个特点: 分布式:是用来保存工程源代码历史状态的命令行工具保存点:保存点可以追溯源码中的文件…

解决防火墙导致虚拟机不能ping通宿主机的问题

今天,无缘无故的,虚拟机突然用不了,网络连上不了,一番折腾翻找,最后才发现,是因为虚拟机ping不同宿主主机了,连网关都ping不通了,但是,宿主主机却可以ping通虚拟机 。 最…

文本识别 (OCR)引擎之Tesseract的使用

Tesseract OCR Tesseract概述常见OCR识别平台下载安装配置命令使用语法测试验证 Tesseract的使用安装python库基本使用可能的异常更换语言字体库识别 Tesseract的训练 Tesseract 概述 Tesseract是一个开源文本识别 (OCR)引擎,是目前公认最优秀、最精确的开源OCR系统…

『Bug挖掘机 - 赠书02期』|〖Effective软件测试〗

大家好,我是洋子,前段时间给大家推荐了《测试设计思想》,今天再给大家推荐一本软件测试领域的新书 这本书就比较接地气了,是一本软件测试的入门书籍,但同样适用于1-3年软件测试经验的读者阅读 这本书第一章就用Java代…

深入了解 Axios 的 put 请求:使用技巧与最佳实践

在前端开发中,我们经常需要与后端服务器进行数据交互。其中,PUT 请求是一种常用的方法,用于向服务器发送更新或修改数据的请求。通过发送 PUT 请求,我们可以更新服务器上的资源状态。 Axios 是一个流行的 JavaScript 库&#xff0…

NSV60600MZ4T1G 双极型晶体管(BJT)学习总结

双极型晶体管的起源: 双极型晶体管是在1947年发明的,第一个晶体管是将两条具有尖锐端点的金属线与锗衬底(germanium substrate)形成点接触(point contact),以今天的水准来看,此第一个晶体管虽非常简陋但它却改变了整个电子工业及人类的生活方…