NLP_ChatGPT的RLHF实战

文章目录

  • 介绍
  • 小结


介绍

ChatGPT 之所以成为ChatGPT,基于人类反馈的强化学习是其中重要的一环。而ChatGPT 的训练工程称得上是复杂而又神秘的,迄今为止,OpenAl也没有开源它的训练及调优的细节。
从 OpenAl已经公开的一部分信息推知,ChatGPT的训练主要由三个步骤组成,如下图所示。

原文:
在这里插入图片描述

译文:
在这里插入图片描述

  • 第1步,先使用大量数据(从Prompt数据库中抽样)通过监督学习在预训练的 GPT-3.5基础上微调模型,得到一个初始模型,就是监督学习微调模型(Supervised Fine-Tune Model,SFT)——暂且把它命名为“弱弱的ChatGPT”。

  • 第2步,请标注人员为初始模型“弱弱的ChatGPT”对同一问题给出的不同答案排序,评估这些答案的质量,并为它们分配一个分数。然后使用这些数据训练出一个具有人类偏好的奖励模型(Reward Model,RM)–这个奖励模型能够代替人类评估 ChatGPT 的回答大概会得到多少奖励。

  • 第3步,初始化“弱弱的ChatGPT”模型,从Prompt数据库中抽样,与模型进行对话。然后使用奖励模型对“弱弱的ChatGPT”模型的输出进行打分。再将结果反馈给“弱弱的 ChatGPT”模型,通过近端策略优化(Proximal Policy Optimization, PPO)算法进一步优化模型。

不过,这还没完,此时ChatGPT模型经过优化,能生成更高质量的回答,那么,再回到第1步用优化后的ChatGPT初始化模型,就得到更好的SFT模型;用更好的 SFT 在第2步中取样,又得到更好的回答;对更高质量的回答进行排序、评分后,就能训练出更好的奖励模型,于是获得更好的反馈……这样不断循环,ChatGPT 就一步接着一步,在接受人类的反馈的同时,不断自我优化,一波接一波,越变越强。

小结

ChatGPT训练三阶段:
阶段1:收集数据,通过监督学习微调模型
阶段2:收集模型生成的数据,训练一个奖励模型
阶段3:通过奖励模型以PPO强化学习算法优化策略,得到优化后的模型


学习的参考资料:
(1)书籍
利用Python进行数据分析
西瓜书
百面机器学习
机器学习实战
阿里云天池大赛赛题解析(机器学习篇)
白话机器学习中的数学
零基础学机器学习
图解机器学习算法

动手学深度学习(pytorch)

(2)机构
光环大数据
开课吧
极客时间
七月在线
深度之眼
贪心学院
拉勾教育
博学谷
慕课网
海贼宝藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/685101.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机组成原理(2)-----存储芯片与CPU的连接

目录 一.单块存储芯片与CPU的连接 二.多块存储芯片与CPU的连接 1.位扩展 2.字扩展 (1)线选法 (2)译码器片选法 3.字位同时扩展 三.译码器相关 一.单块存储芯片与CPU的连接 如图所示是8*8位的芯片,总共8个存储…

OS设备管理

设备管理 操作系统作为系统资源的管理者,其提供的功能有:处理机管理、存储器管理、文件管理、设备管理。其中前三个管理都是在计算机的主机内部管理其相对应的硬件。 I/O设备 I/O即输入/输出。I/O设备即可以将数据输入到计算机,或者可以接收…

高校危化试剂管理:Java与SpringBoot的革新

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

Vue核心基础6:Vue内置指令、自定义指令、生命周期

1 Vue中的内置指令 <script>const vm new Vue({el: #root,data: {n: 1,m: 100,name: Vue,str: <h3>你好</h3>}})</script> 1.1 v-text <div v-text"name"></div>1.2 v-html <div v-html"str"></div> …

最小生成树(Kruskal算法及相关例题)

1.Kruskal算法概念以及基本思路 &#xff08;1&#xff09;概念&#xff1a; 克鲁斯卡尔算法是求连通网的最小生成树的另一种方法。它的时间复杂度为O&#xff08;ElogE&#xff09;(E是图G的边的总数)&#xff0c;适合于求边稀疏的网的最小生成树 。 其基本思想是&#xff…

黄金交易策略(Nerve Nnife.mql4):做单手数设计

完整EA&#xff1a;Nerve Knife.ex4黄金交易策略_黄金趋势ea-CSDN博客 NK的做单量是由参数设定的&#xff0c;以下分别是参数项&#xff1a; 考虑到复利的情况&#xff0c;若10000本金&#xff0c;在以上三个参数的设计下&#xff0c;第1单的购买量是0.01*10,第2单是0.01*10*2…

Java迭代器详解,看这一篇就够了

文章目录 &#x1f6a9;Java 迭代器详解 &#x1f4da;迭代器的定义 &#x1f4d2;认识Iterator ✏️类结构图 ✒️Iterable接口 &#x1f58d;️Iterator接口 &#x1f4c3;Iterator接口的方法 &#x1f4d9;迭代器的使用 &#x1f3f7;️使用迭代器遍历集合 &#x1f516;Ite…

ES实战--集群扩展

查看ES集群状态: GET /_cluster/health?prettytrue当一个节点加入集群的时候,ES会自动地尝试将分片在所有节点上进行均匀分配. 如果更多的节点加入集群,ES将试图在所有节点上均匀分配分片数量.这样每一个新加入的节点都能通过部分数据来分担负载 第二个节点发现第一个节点,并…

[BIZ] - 1.金融交易系统特点

1. 典型数据汇总 数据 说明 新增数据量(条/天) Qps(条/s) 消息大小(Byte) 实时性 可丢失性 可恢复性 实时行情 1.使用场景&#xff1a;交易&#xff0c;报价&#xff0c;策略验证&#xff1b; 2.冷热分离&#xff1a;彭博行情/其他行情&#xff1b;黄金&期货行情/…

数组操作C

数组操作 Description 给你一个长度为 n 的数组&#xff0c;并给出如下几种操作&#xff1a; 在下标为 a 的位置插入一个整数 b&#xff0c;如果其后有元素&#xff0c;则全部后移。例如&#xff0c;数组为 1, 2, 3&#xff0c;在下标为 1 的位置插入 4&#xff0c;则数组变为…

acwing周赛115第二题-奶牛照相

5132. 奶牛照相 - AcWing题库 约翰的农场有 n 头奶牛&#xff0c;编号 1∼n。 其中&#xff0c;第 i 头奶牛的宽度为 wi&#xff0c;高度为 hi&#xff0c; 有一天&#xff0c;它们聚餐后决定拍照留念。 关于拍照的描述如下&#xff1a; 它们一共拍了 n 张照片&#xff0c;其中…

PyQt5中exec()与exec_()的区别

在PyQt5中&#xff0c;exec()和exec_()是两个不同的方法&#xff0c;用于执行动态创建的Python代码。它们的主要区别在于exec()是Python的关键字&#xff0c;但不能直接用作方法名&#xff0c;因此在PyQt5中&#xff0c;使用exec_()作为替代。 exec_()方法接受一个字符串作为参…

debian11 安装 k8s,containerd ,阿里云镜像(已成功)

1. 环境准备 系统要求&#xff1a;至少 2GB RAM&#xff08;建议 4GB 或更多&#xff09;&#xff0c;网络连接。 节点准备&#xff1a;至少 3 台机器&#xff0c;1 台作为 Master 节点&#xff0c;2 台作为 Worker 节点。 安装sudo apt update apt install sudo设置主机名&a…

Java图形化界面编程——AWT概论 笔记

2.3 Container容器 2.3.1 Container继承体系 Winow是可以独立存在的顶级窗口,默认使用BorderLayout管理其内部组件布局;Panel可以容纳其他组件&#xff0c;但不能独立存在&#xff0c;它必须内嵌其他容器中使用&#xff0c;默认使用FlowLayout管理其内部组件布局&#xff1b;S…

Spring Cloud Feign:声明式服务调用

1. 介绍 Spring Cloud Feign 1.1 什么是 Spring Cloud Feign Spring Cloud Feign 是一个基于 Netflix Feign 的声明式服务调用客户端&#xff0c;它简化了基于 REST 的服务调用&#xff0c;使得服务之间的通信变得更加轻松和直观。通过 Feign&#xff0c;开发人员可以像调用本…

交通管理|交通管理在线服务系统|基于Springboot的交通管理系统设计与实现(源码+数据库+文档)

交通管理在线服务系统目录 目录 基于Springboot的交通管理系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、用户信息管理 2、驾驶证业务管理 3、机动车业务管理 4、机动车业务类型管理 四、数据库设计 1、实体ER图 五、核心代码 六、论文参考 七、最新计…

MySQL学习Day15——MySQL安装与使用

一、Linux下的MySQL的安装与使用: 卸载MySQL: 1.关闭当前MySQL服务:systemctl stop mysql.service 2.查看当前mysql安装状况:rpm -qa | grep -i mysql 3.卸载上述命令查询出的已安装的程序:yum remove mysql-xxx mysql-xxx mysql-xxxx 4.删除mysql相关文件: (1)查找相关文…

Python五级考试笔记

Python五级考试笔记【源源老师】 五级标准 一、 掌握字符串的转义符、format()格式化方法。 二、 掌握列表、元组、字符串、range类型的用法及常用操作。 三、 理解字典类型的概念&#xff0c;掌握它的基础用法及操作。 四、 理解集合类型的概念&#xff0c;掌握它的基础用法及…

解决vscode报错,在赋值前使用了变量“XXX“

问题&#xff1a;如图所示 解决方法&#xff1a; 法一&#xff1a; 补全函数使其完整 法二&#xff1a; 使用断言

c++Qt网络操作

1、基础概念 1.1 TCP/UDP TCP 是一种面向连接的传输层协议&#xff0c;它能提供高可靠性通信(即数据无误、数据无丢失、 数据无失序、数据无重复到达的通信) 适用情况&#xff1a; 1.SN/QQ等即时通讯软件的用户登录账户管理相关的功能通常采用TCP协议 2、适合于对传输质量要求较…