【机器学习】强化学习 (一)强化学习简介

232210aa58be97aa9208ed8483c9ee84.png

一、强化学习简介

1.1 问题定义

66df5625eaed961b036b17b4741798e0.png

424a3d525f5000e1c4ac65f6a32c1706.png

1.2 马尔可夫决策过程

8ae84d9f30a4a8696fc846bb19a5ad6f.png

e426cdfd41460c57970567184b9493f6.png

ab8ef9c06a18955476d912a716fa7e6d.png

b238cc8c60d8f64f4919954cee512e4b.png

举例说明马尔可夫决策过程

63f70f979cef70cf8f4499a05bd973a6.png

例1:

5be2366b1575c693fc27bff4e44c5033.png

例2:

30d6c38aecdf1e1eb2e6b8ccea391e5b.png

执行动作的策略

cd1d05a49dd5b4ed270bec3b07fa5a2e.png

强化学习的目标是让智能体通过不断尝试,找到最优的策略(policy),即在每个状态下选择什么动作,以最大化累积的奖励。强化学习的常见算法有:

  • Q学习(Q-learning):一种基于值函数(value function)的方法,它用一个表格(Q-table)记录每个状态-动作对的期望奖励(Q-value),并根据贪心或探索-利用的原则更新表格。

  • 策略梯度(policy gradient):一种基于策略函数(policy function)的方法,它用一个参数化的函数(如神经网络)表示策略,并根据奖励的梯度方向更新参数。

  • 深度强化学习(deep reinforcement learning):一种结合深度学习和强化学习的方法,它用深度神经网络来近似值函数或策略函数,如DQN、DDPG、A3C等。

如何通过马尔可夫决策过程找到最优策略?

6bf6b4795a23164b8d073a8c726f7247.png

f4790269d6b85d90180f3c63b70a15db.png

09ae0b8c94e1c8dc144bb23f28a63c17.png

强化学习在制造业中的应用

d4c5a5f16232ee35f535ea1d55d25967.png

d159a3d0f26613da7f5c57d5b5bc5196.png

4ee7229ee7663c100bc4dc193c73fd30.png

f4eaedf78f242d895b8e2915634dbdec.png

参考网址:

https://zh.wikipedia.org/wiki/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0 强化学习 - 维基百科,自由的百科全书 (wikipedia.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/628709.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

消息中间件RabbitMQ

1. 消息队列 1.1. MQ 的相关概念 1.1.1. 什么是MQ MQ(message queue),从字面意思上看,本质是个队列,FIFO 先入先出,只不过队列中存放的内容是message 而已,还是一种跨进程的通信机制,用于上下游传递消息…

给APM固定翼增加相机

一、原因 由于要做固定翼仿真和末端视觉制导方面的工作,所以需要对APM固件的固定翼飞机添加相机模型。 对于SDF文件而言,其本质是有XML语言进行描述的,所以我们只需要对其相机的添加过程进行描述即可。 二、要求 (1)mavros和ros确保已经安装 (2)gazebo确保已经安装 (…

【vue】-

目录 pinia搭建pinia环境存储、读取数据修改数据(三种方式) pinia 搭建pinia环境 一、第一步:npm install pinia 二、第二步:操作src/main.ts import { createApp } from vue import App from ./App.vue/* 引入createPinia&…

如何将github copilot当gpt4用

现在写代码已经离不开ai辅助了我用的是github copilot,一方面是因为它和vscode结合得比较好,另一方面就是copilot chat了。可以在不切换工具的情况下,问它问题,在copilot chat还在内测阶段的时候我就申请使用了(现在已…

Android studio 简单登录APP设计

一、登录界面: 二、xml布局设计: <LinearLayoutandroid:id="@+id/linearLayout"android:layout_width="match_parent"android:layout_height="match_parent"android:orientation="vertical"tools:layout_editor_absoluteX="…

Git Merge、Rebase 和 Squash 之间的区别

文章目录 Git MergeGit RebaseGit Squash结论 作为一名开发人员&#xff0c;您可能使用过 Git 和 GitHub&#xff0c;掌握了版本控制的要点。通常通过拉取请求将分支的更改集成到主分支中是一项常见任务。许多人的默认选择是“合并”功能。 然而&#xff0c;版本控制领域提供了…

多级缓存(nginx本地缓存、JVM进程缓存、redis缓存)

文章目录 整体示意图1.nginx缓存2.进程缓存Caffeine示例 3.Lua语法(为了在nginx中做编程)4.OpenResty5.封装向Tomcat发送的Http请求&#xff0c;获取数据6.Tomcat集群的负载均衡7.redis缓存8.查询Redis缓存9.Nginx本地缓存 整体示意图 1.nginx缓存 2.进程缓存 Caffeine示例 3.…

纯前端实现加减运算验证码

纯前端实现加减运算验证码 实现效果 //页面展示 <template><view class"form-input-item" style"padding:8rpx 22rpx;"><input class"form-input" placeholder"请输入验证码" type"text" maxlength"6…

使用Python读写Redis——Lists

之前详细介绍了 Redis命令 - Lists命令组常用命令&#xff0c;同样的命令&#xff0c;本文将用python调用redis库封装好的方法。 要操作的Lists命令如下 1、LSET key index value 2、LINSERT key BEFORE|AFTER pivot value 3、LPUSH key value [value …] 4、RPUSH key value …

【加速排坑】docker设置国内image镜像源

第零步&#xff0c;查看阿里最新的镜像源&#xff1a;https://cr.console.aliyun.com/cn-hangzhou/instances/mirrors 第一步&#xff1a;在/etc/docker/daemon.json中添加镜像源 sudo mkdir -p /etc/docker sudo tee /etc/docker/daemon.json <<-EOF {"registry-m…

C++随机数生成:std标准库和Qt自带方法

std标准库 std::rand()是C中的一个随机数函数&#xff0c;它生成一个范围在0到RAND_MAX之间的伪随机整数。 在使用std::rand()之前&#xff0c;需要包含<cstdlib>头文件。 #include <cstdlib> 设置种子 在每次程序运行时&#xff0c;通常需要使用不同的种子值…

基于pyqt5+scapy 根据ip 具体端口 进行扫描 的程序

先给出代码 import sysfrom PyQt5 import uic from PyQt5.QtWidgets import *from scapy.all import * import argparse import logging from scapy.layers.inet import IP, TCP from scapy.sendrecv import sr1class MyWindow(QWidget):def __init__(self):super().__init__(…

【QML COOK】- 010-动态创建组件

上节介绍了Component的概念&#xff0c;本节介绍一下如何使用javascript动态创建对象。 1. 创建工程&#xff0c;新建一个MyComponent.qml的qml import QtQuickRectangle {color: "red" }它很简单就是一个红色框 2. 编辑main.qml import QtQuickWindow {id: root…

Vscode 上安装 Compilot

GitHub Copilot 是由 OpenAI 和 GitHub 开发的 AI 工具。其目的是通过自动完成代码来帮助开发人员使用集成开发环境 &#xff08;IDE&#xff09;&#xff0c;如 Visual Studio Code。它目前仅作为技术预览版提供&#xff0c;因此只有已在候补名单上被接受的用户才能访问它。对…

MySQL 管理端口

错误 客户出现 MySQL连接数 超过 最大连接数的现象 ERROR 1040 (HY000): Too many connections 出现该现象&#xff0c;一般的解决方法&#xff1a; 1.修改配置文件中的最大连接数&#xff0c;之后重启数据库 2.如果配置文件中没有设置 连接超时时间的参数。8小时后&#…

xbox如何提升下载速度

Xbox下载速度慢的问题通常是由于网络环境或微软服务器的问题。以下是一些提升Xbox下载速度的方法&#xff1a; 使用加速器&#xff1a;如果您的网络环境不稳定或存在其他问题&#xff0c;可以使用加速器来优化网络环境&#xff0c;从而提高下载速度。检查网络连接&#xff1a;…

gin-vue-admin二开使用雪花算法生成唯一标识 id

场景介绍 需求场景&#xff1a; 总部采集分支的数据&#xff0c;由于分支的 id 是子增的主键 id&#xff0c;所以会出现重复的 id&#xff0c;但是这个 id 需要作为标识&#xff0c;没有实际作用&#xff0c;这里选择的是分布式 id 雪花算法生成 id 存储用来标识&#xff0c;这…

GAMES104-现代游戏引擎:从入门到实践 - 物理引擎课程笔记汇总

文章目录 0 入门资料1 物理引擎基本概念Actor & shapesRigid body dynamicsCollision DetectionCollision Resolution 应用与实践Character controllerRagdoll 0 入门资料 GAMES104-现代游戏引擎&#xff1a;从入门到实践_课程视频_bilibiliGAMES104官方账号 - 知乎课程主页…

微服务实战项目_天机学堂01_初识项目

文章目录 一.项目简述二.Jenkins三.模拟真实业务:紧急bug修复和代码阅读 一.项目简述 Q:天机学堂是什么? A:天机学堂是一个基于微服务架构的生产级在线教育项目 主要有两个端(项目已上线,可以点击查看): 管理后台: https://tjxt-admin.itheima.net 其核心业务主体包括老师、…

QT上位机开发(dock窗口在软件布局中的应用)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 在软件开发中&#xff0c;一般有主窗口和子窗口之分。主窗口也就是main window&#xff0c;是最重要的操作界面。子窗口就是各种属性配置、参数配置…