机器学习:增强式学习Reinforcement learning

在这里插入图片描述

  • 收集有标签数据比较困难的时候
  • 同时也不知道什么答案是比较好的时候
  • 可以考虑使用强化学习
  • 通过互动,机器可以自己知道什么结果是好的,什么结果是坏的

Outline

在这里插入图片描述

什么是RL

在这里插入图片描述

  • Action就是一个function
  • Environment就是告诉这个Action是好的还是坏的

例子 Space invader

在这里插入图片描述

  • 只能左移动,右移动,开火
  • 任务就是杀死外星人
  • 奖励就是分数
  • 终止:杀死所有的外星人,或者自己被外星人杀死
    在这里插入图片描述
  • 找到一个function使得得分总和最大

例子:Play Go

在这里插入图片描述
在这里插入图片描述

  • 下围棋的score只有在游戏结束的时候才有分数,+1, -1, 0
  • 中间时刻是没有得分的

RL和ML关系

在这里插入图片描述

Step1: 未知数的Function

在这里插入图片描述

  • 在RL中,未知数的Function就是Action
  • 输入是网络观察到的
  • 输出是每个动作的反馈
  • 分数就是激励,基于分数去有概率的随机性采取对应的行动,增加多样性

Step2:定义Loss

在这里插入图片描述
在这里插入图片描述

  • 把所有的reward进行累加作为最终分数
  • Loss就是要最大虾该总和分数

Step3:优化器

在这里插入图片描述

  • 给定的随机行为,有随机的反应
  • 如何找到一组参数去使得分数越大越好
  • 类比于GAN,但是Reward和env不能当作是network,是一个黑盒子

Policy Gradient

在这里插入图片描述
如何控制你的action
在这里插入图片描述

  • 希望采用的模型,可以类比一个分类器
  • 希望不采用什么动作的模型,可以使用上面取反
    在这里插入图片描述
  • 使得e1越小越好,使得e2越大越好

收集一些训练数据
在这里插入图片描述
但不一定是只有两种情况,不是二分类问题,可以采用不同的数字表示不同程度的期待
在这里插入图片描述

定义A

版本1

随机的Action得到结果,然后进行评价正负
在这里插入图片描述

  • 该版本不是一个好的版本
  • 短视近利的Action,没有长远规划
  • 每个动作都影响后续的动作
  • 奖励延迟,需要牺牲短期利益获得长远利益
    在这里插入图片描述

版本2

在这里插入图片描述

  • 把每个动作之后的分数都加起来作为该动作的分数

版本3

在这里插入图片描述

  • 相邻的动作影响更大一点,越远的距离的动作影响越小

版本4

在这里插入图片描述

  • 需要对分数进行标准化,减掉一个baseline b,使得分数有正有负

Policy Gradient

在这里插入图片描述

  • 收集资料是在epoch循环中
    在这里插入图片描述
    在这里插入图片描述
  • 每次Update之后需要重新收集资料
  • RL训练非常耗时
    同一种行为对于不同的s是好坏是不一样的,是一个连续的。
    在这里插入图片描述
    在这里插入图片描述
  • off-policy可以不用在更新前收集资料了,只需要收集一次
    在这里插入图片描述
    在这里插入图片描述
  • 增加随机性,尝试不同的action

PPO

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/231547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法专题二:滑动窗口

算法专题二:滑动窗口 一.长度最小的子数组:1.思路一:暴力解法2.思路二:滑动窗口双指针3.GIF题目解析:思路一:思路二: 二.无重复字符的最长子串:1.思路一:滑动窗口2.GIF题…

Android-----AndroidManifests.xml 之meta-data

一、概念 meta-data:元数据、文件元数据。主要用来定义一些组件相关的配置值。 metadata是一组供父组件使用的名值对(name-value pair),一个组件元素可以包含任意数量的meta-data子元素。这些子元素的值存放在一个 Bundle 对象中…

【具身智能评估9】Open X-Embodiment: Robotic Learning Datasets and RT-X Models

论文标题:Open X-Embodiment: Robotic Learning Datasets and RT-X Models 论文作者:– 论文原文:https://arxiv.org/abs/2310.08864 论文出处:– 论文被引:–(12/18/2023) 论文代码&#xff1a…

轻量封装WebGPU渲染系统示例<53>- 多盏灯灯光照在地面的效果

WebGPU实时渲染实现模拟多盏灯的灯光照在地面的效果灯光效果 。 当前示例源码github地址: https://github.com/vilyLei/voxwebgpu/blob/feature/material/src/voxgpu/sample/MultiLightsTest.ts 当前示例运行效果: 此示例基于此渲染系统实现,当前示例TypeScript源…

2018年第七届数学建模国际赛小美赛B题世界杯足球赛的赛制安排解题全过程文档及程序

2018年第七届数学建模国际赛小美赛 B题 世界杯足球赛的赛制安排 原题再现: 有32支球队参加国际足联世界杯决赛阶段的比赛。但从2026年开始,球队的数量将增加到48支。由于时间有限,一支球队不能打太多比赛。因此,国际足联提议改变…

计网02-计算机网络参考模型

一、OSI七层参考模型 1、分层的思想 分层模型用于网络协议的设计方法,本质是将网络节点间复杂的通信问题分成若干简单的问题逐一解决,通过网络的层次去找问题,将复杂问题简单化。 2、OSI参考模型 由于早期计算机厂商使用的是私有的网络模…

【PHP入门】2.1-运算符

-运算符- 运算符:operator,是一种将数据进行运算的特殊符号,在PHP中一共有十种运算符之多。 2.1.1赋值运算符 赋值运算:符号是“”,表示将右边的结果(可以是变量、数据、常量和其它运算出来的结果&#…

scroll-behavior属性使用方法

定义和用法&#xff1a; scroll-behavior 属性规定当用户单击可滚动框中的链接时&#xff0c;是否平滑地&#xff08;具动画效果&#xff09;滚动位置&#xff0c;而不是直线跳转。 <style>element{/* 核心代码 */scroll-behavior: smooth;} </style> 属性值&am…

云原生之深入解析减少Docker镜像大小的优化技巧

一、什么是 Docker&#xff1f; Docker 是一种容器引擎&#xff0c;可以在容器内运行一段代码&#xff0c;Docker 镜像是在任何地方运行应用程序而无需担心应用程序依赖性的方式。要构建镜像&#xff0c;docker 使用一个名为 Dockerfile 的文件&#xff0c;Dockerfile 是一个包…

linux修改用户uid和gid并且修改文件所有权(所属用户及所属用户组)(chown命令、chgrp命令)(批量修改查找并修改文件、目录uid和gid)

文章目录 修改Linux用户UID和GID以及文件所有权1. 修改用户的UID和GID1.1 用户UID和GID的概念1.2 修改用户UID1.3 修改用户GID 2. 修改文件所有权2.1 文件所有权的概念2.2 修改文件所有者&#xff08;chown命令&#xff09;2.3 修改文件所属用户组&#xff08;chgrp命令&#x…

Gitlab仓库推送到Gitee仓库的一种思路

文章目录 Gitlab仓库推送到Gitee仓库的一种思路1、创建Gitee的ssh公钥&#xff08;默认已有Gitlab的ssh公钥&#xff09;2、添加Gitlab远程仓库地址3、添加Gitee远程仓库地址4、拉取Gitlab远程仓库指定分支到本地仓库指定分支&#xff08;以test分支为例&#xff09;5、推送本地…

PyTorch机器学习与深度学习

近年来&#xff0c;随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生&#xff0c;人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术&#xff0c;在许多行业都取得了颠覆性的成果。另外&#xff0c;近年来&#xff0c;Pytorch深度学习框架受…

早期的OCR是怎么识别图片上的文字的?

现在的OCR技术融合了人工智能技术&#xff0c;通过深度学习&#xff0c;无论是识别的准确率还是效果都非常不错&#xff0c;那您知道在早期的OCR是通过什么技术来实现的吗&#xff1f;如果您不知道&#xff0c;那么&#xff0c;就让我来告诉您&#xff1a;它主要是基于字符的几…

【工具使用-Qt】Qt如何查看帮助文档

一&#xff0c;简介 Qt不需要单独下载帮助文档&#xff0c;在安装的时候&#xff0c;就已经帮你下载好了&#xff0c;在目录&#xff1a;安装目录/Qt5.14.2/Docs/目录下了。 二&#xff0c;查看方法 打开IDE&#xff0c;点击“帮助”&#xff1a; 输入想要查找的内容&…

阿里云主导《Serverless 计算安全指南》国际标准正式立项!

日前&#xff0c;在韩国召开的国际电信联盟电信标准分局 ITU-T SG17 全会上&#xff0c;由阿里云主导的《Serverless 计算安全指南》国际标准正式立项成功。 图 1 项目信息 在现今数字化时代&#xff0c;Serverless 计算正逐渐成为云计算的一个新的发展方向&#xff0c;其灵活…

【目标检测】视频输出体积太大?分析视频的编码与码率问题

在做视频目标检测时&#xff0c;发现一个问题&#xff0c;检测输出完的视频时大时小&#xff0c;有时输出体积过大&#xff0c;造成播放器播放时严重卡顿现象。本文就这一情况进行分析&#xff0c;并就该问题提出相关解决方案。 视频基础知识 隔行扫描和逐行扫描 早期电视台在…

恒创:多链路负载均衡是什么意思

多链路负载均衡是一种网络架构技术&#xff0c;它通过将流量分散到多个网络链路上&#xff0c;以提高网络的性能和可靠性。这种技术可以应用于各种场景&#xff0c;如数据中心、云计算、企业网络等。 在多链路负载均衡中&#xff0c;流量被分配到多个网络链路上&#xff0c;以…

【深度学习目标检测】十、基于yolov5的火灾烟雾识别(python,目标检测)

YOLOv5是目标检测领域一种非常优秀的模型&#xff0c;其具有以下几个优势&#xff1a; 1. 高精度&#xff1a;YOLOv5相比于其前身YOLOv4&#xff0c;在目标检测精度上有了显著的提升。YOLOv5使用了一系列的改进&#xff0c;如更深的网络结构、更多的特征层和更高分辨率的输入图…

物联网对接使用蓝牙还是WiFi,应该如何选择?

蓝牙是一种无线技术协议&#xff0c;可促进连接设备之间短距离的数据交换。它依赖于物理邻近性并使用2.400至2.485 GHz之间的UHF&#xff08;超高频&#xff09;无线电波。蓝牙旨在创建个人区域网络&#xff08;PAN&#xff09;并在笔记本电脑、智能手机和外围设备等计算设备之…

Unity SRP 管线【第四讲:URP 阴影】

URP 全文源码解析参照 引入 在UniversalRenderer.cs/ line 505行处 此处已经准备好了所有渲染数据&#xff08;所有数据全部存储在了renderingData中&#xff09; 我们只用renderingData中的数据初设置mainLightShadows bool mainLightShadows m_MainLightShadowCasterPass…