ppo-clip的本质以及它为什么是另一种ppo-KL-penalty

显然,clip在优势函数A>0且重采样比例过大时截断了上限,在优势函数A<0且重采样比例过小时也截断了负值的上限。
我以第一种情况解释clip的作用。

首先,所有选择的action都是RL中你希望增大概率的action。
当A>0时,说明这个action本来就很好,不需要我们调,SFT model大概率已经给了它高概率,因此我们甚至容许它概率缩小一点,使得最终重采样比例>1,如果一切如我们所愿,则重采样比例应该<1。然而训练时出现了>1+ε的情况,这就缩得离谱了,说明RL训练出了错误。怎么办呢?clip选择截断到1+ε,这等于是人为地增大了RL训练后的策略选中该action的概率(这就是说它等于KL散度的原因),也等于减小了目标函数R的值,反向凸显了其他采样里导致负A的action,彼消,此就涨,就能让RL后的策略选择正确action的概率回上来。
当A<0时,说明action在原本SFT里不好,SFT肯定给了这个action一个小概率值。可是我们RL喂的数据肯定是我们希望生成的,所以还是希望它尽量能概率大点。假设SFT给action的概率是0.1,你这边RL稍微训练一下就变成0.2了,只增加了0.1,但是倍率上可是2倍。这肯定不合理,不能因为你要求这样生成,就把原本合理的生成概率给破坏了。于是希望你增加,但是别太狠,就给你增加的量上设个限制,最多上涨一点,就有了负A时重采样比例<1-ε的说法,这样就能继续让这个action提供大比例的负A,打压目标函数R,R就会持续地缩小该action的概率。

这时候一定有问题:A>0为什么不设下限?A<0为什么不设上限?不是说好了KL散度吗,怎么只堵一边?另一边不管了?
对,还真就不管了。想一下,对于A>0且重采样比例<1-ε,说明什么?说明目的达成了呀,action的概率真的被提高了。对于A<0且重采样比例>1+ε呢?本来没调RL的时候概率就没多少(只要SFT没毛病,肯定是这样),RL后概率就算再小能小到哪去,真训不大就算了,不纠结那个,不如大过头了有危害。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/21226.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WordPress中借助Table of Contents Plus+Widget Options插件,实现仅在文章侧边栏显示文章目录的功能

本文转自博主的个人博客&#xff1a;https://blog.zhumengmeng.work,欢迎大家前往查看。 原文链接&#xff1a;点我访问 序言&#xff1a;今天心血来潮&#xff0c;写了一篇文章&#xff0c;忽然发现自己的文章极少有目录&#xff0c;这对于长文章的阅读来说是十分不利的&#…

【自动驾驶】针对低速无人车的线控底盘技术

目录 术语定义 一般要求 操纵装置 防护等级 识别代号 技术要求 通过性要求 直线行驶稳定性 环境适应性要求 功能安全要求 信息安全要求 故障处理要求 通信接口 在线升级(OTA) 线控驱动 动力性能 驱动控制响应能力 线控制动 行车制动 制动响应能力 线控转向 总体要求 线控…

车联网安全入门——ICSim模拟器使用

文章目录 车联网安全入门——ISCim模拟器使用介绍主要特点&#xff1a;使用场景&#xff1a; 安装使用捕获can流量candumpcansnifferwiresharkSavvyCAN主要特点&#xff1a;使用场景&#xff1a; 重放can报文cansendSavvyCAN 总结 车联网安全入门——ISCim模拟器使用 &#x1…

SQL刷题笔记day8——SQL进阶——表与索引操作

目录 1 创建一张新表 2 修改表 3 删除表 4 创建索引 5 删除索引 1 创建一张新表 我的答案 create table if not exists user_info_vip (id int(11) primary key auto_increment Comment自增ID, # 有了主键就不用写not nul了 uid int(11) unique not null Comment用户ID, …

发现真正的诉求

在不久前&#xff0c;我在负责一个项目&#xff0c;设计了一个方案。但是&#xff0c;与我一同合作的同事对其中的一个设计点持有异议。我们尝试讨论解决&#xff0c;但似乎没有找到共识。然而&#xff0c;尽管双方的观点没有达成一致&#xff0c;我们都清楚地表达了自己的想法…

272 基于matlab的形态滤波和局域值分解(LMD)的齿轮故障诊断

基于matlab的形态滤波和局域值分解&#xff08;LMD&#xff09;的齿轮故障诊断&#xff0c;GUI交互界面。通过形态滤波对一维信号进行降噪处理&#xff0c;并通过LMD局部均值分解提取故障信号&#xff0c;最后提取处故障频率。程序已调通&#xff0c;可直接运行。 272 形态滤波…

[AIGC] DAG模型在任务调度中有什么优势?

DAG(Directed Acyclic Graph&#xff0c;有向无环图)在任务调度中的应用带来了以下优势&#xff1a; 清晰的任务依赖关系&#xff1a;在DAG模型中&#xff0c;任务以节点的形式存在&#xff0c;任务间的依赖关系通过有向边来表示。这使得任务关系清晰明了&#xff0c;易于理解和…

Mysql学习经验总结(一)

Mysql的简介&#xff1a; MySql是一个开源的关系型数据库管理系统&#xff0c;广泛应用于Web应用程序的数据存储和管理。它支持多用户并发访问&#xff0c;具有高性能、稳定可靠、易于使用和管理的特点。 MySql官网提供了详细的文档、下载、社区等资源&#xff0c;官网的地址…

微信小程序的服务调取

微信小程序的服务调取概述 微信小程序允许开发者通过网络请求与服务器进行交互&#xff0c;从而实现数据的上传和下载。这是通过小程序提供的API&#xff0c;如wx.request、wx.downloadFile、wx.uploadFile等来完成的。这些API使得小程序可以从远程服务器获取数据&#xff0c;…

文档智能开源软件

文档智能介绍&#xff1a; 文档智能通常指的是利用人工智能技术来处理和分析文档内容&#xff0c;以实现自动化、智能化的文档管理。文档智能的应用领域非常广泛&#xff0c;包括但不限于&#xff1a; 1. **文档识别**&#xff1a;使用OCR&#xff08;光学字符识别&#xff0…

Java+SVNCloud+Mysql课程设计

文章目录 1、主要内容2、所需准备3、与sql访问的中间类&#xff1a;SqlMessage4、窗口界面5、main方法 1、主要内容 课程设计&#xff0c;主要通过Javas wing创建窗口&#xff0c;jdbc连接云端mysql数据库进行基本操作&#xff0c;支持随机生成数据并用动态展示数据结果。 先…

一种最大重叠离散小波包特征提取和支持向量机的ECG心电信号分类方法(MATLAB 2018)

目前小波分析算法常采用Mallat快速算法。该算法由与滤波器卷积、隔点采样和隔点插零等三个环节组成。由于实际使用的滤波器并不具有理想频域特性&#xff0c;使得在标准二进小波算法中存在着频率混叠和小波系数失真等缺点&#xff0c;在标准二进小波包算法中还存在频带错乱现象…

matlab误差估计扩展卡尔

在MATLAB中实现扩展卡尔曼滤波&#xff08;Extended Kalman Filter, EKF&#xff09;时&#xff0c;误差估计是一个关键步骤。EKF是一种用于非线性系统状态估计的算法&#xff0c;它通过线性化非线性系统模型&#xff0c;并利用卡尔曼滤波的框架进行状态估计和误差估计。以下是…

展现市场布局雄心,ATFX再度亮相非洲峰会,开启区域市场新篇章

自2023年全球市场营销战略部署实施以来&#xff0c;ATFX在全球各区域市场取得了丰硕成果&#xff0c;其品牌实力、知名度、影响力均有大幅提升。在这场全球扩张的征程中&#xff0c;非洲市场日益成为集团关注的焦点。自2023年首次踏上这片充满潜力的市场以来&#xff0c;ATFX持…

【TB作品】MSP430 G2553 单片机口袋板,读取单片机P1.4电压显示,ADC

功能 读取P1.4电压&#xff0c;显示到口袋板显示屏&#xff0c;电压越高亮灯越多。 部分程序 while (1){ADC10CTL0 | ENC ADC10SC; // Sampling and conversion startLPM0;adcvalue ADC10MEM; //原始数据 0到1023adtest (float) adcvalue / 1024.…

PKCS #8的原理及作用

标签: PKCS #8的原理及作用; PKCS #8;PKCS8 PKCS #8的原理及作用 概述 PKCS #8(Public-Key Cryptography Standards #8)是由RSA实验室发布的一种标准,用于存储私钥信息。它定义了私钥的语法,包括如何对私钥进行编码和加密,以确保其安全性和可移植性。 英文原文: I…

【大模型应用开发极简入门】构建新闻稿生成器:提示词的使用与基于事实的提示词

文章目录 一. 提示词怎么写二. 完整代码三. 基于事实的prompt GPT-4和ChatGPT等LLM专用于生成文本。我们可以使用GPT-4和ChatGPT在各种场景中生成文本&#xff0c;举例如下。 电子邮件合同或正式文档创意写作逐步行动计划头脑风暴广告职位描述 对于本项目&#xff0c;我们将创建…

列表标签 ul+ol/li

04-07、列表标签 ulol/li 概述 列表标签&#xff1a;无序列表ulli、有序列表olli和定义列表 dl dt dd 三种&#xff0c;在网页制作中应用非常广泛&#xff0c;列表就是信息资源的一种展示形式。 特点&#xff1a; 它们都是块元素&#xff0c;可以受到宽度&#xff0c;高度&…

springboot 实现kafka多源配置

文章目录 背景核心配置自动化配置类注册生产者、消费者核心bean到spring配置spring.factoriesyml配置使用 源码仓库 背景 实际开发中&#xff0c;不同的topic可能来自不同的集群&#xff0c;所以就需要配置不同的kafka数据源&#xff0c;基于springboot自动配置的思想&#xf…

SwiftUI知识点(一)

前言&#xff1a; Swift知识点&#xff0c;大至看完了&#xff0c;公司项目是Swift语言写的&#xff0c;后续苹果新出的SwiftUI&#xff0c;也需要学习一下 不知觉间&#xff0c;SwiftUI是19年出的&#xff0c;现在24年&#xff0c;5年前的东西了 学习的几个原因&#xff1a; …