强化学习第1天:强化学习概述

  c0e90a73eecb4225b1119f65a39ae785.png

☁️主页 Nowl

🔥专栏《机器学习实战》 《机器学习》

📑君子坐而论道,少年起而行之 

178df7fef0cf44119524865535cee8ff.gif

文章目录

介绍

强化学习要素

强化学习任务示例

环境搭建:gym

基本用法

环境信息查看

创建智能体

过程可视化

完整代码

结语


 

介绍

强化学习是机器学习中一种独特的存在,以其独特的思想逐渐发展为一门独立的学科,强化学习适用的场景是:一个学习主体根据环境做出不同的决策,得到相应的奖励与惩罚来改进决策

它既不是监督学习也不是无监督学习,从这段描述中也可以看出,它不适合用来进行回归或者聚类等任务

bf850658e3944837bb6e928f1bc2dd53.png


强化学习要素

强化学习中有一些重要的概念,我们接下来一一介绍他们,如果有些不理解不要着急,我们会举一个具体例子来解释

  • 智能体:智能体是强化学习中的主体,它能够观测环境,做出决策,这些概念我们也将在之后说明

  • 环境:环境是智能体所处的环境,能够根据智能体的状态变化给出反馈,使智能体改进策略

  • 状态:即环境中智能体当前的状态

  • 行动:智能体会根据当前状况做出行动

  • 奖励:智能体每做出一次行动会得到一个奖励值,这也是一个导致智能体调整策略的因素

65f5fa5b5558448fa9d03183d2e465ba.png


强化学习任务示例

环境搭建:gym

gym是一个集成了一些常用环境的库,我们可以通过调用这个环境库来快速入门强化学习,在python命令行中执行命令安装

!pip install gym[toy_text,classic_control,atari,accept-rom-license,other]

基本用法

导入库后可以查看库中的所有环境和一些关于环境的说明

# 导入库
import gym# 打印库中的所有环境和说明
print(gym.envs.registry)

我们使用小车上山任务来进行后续教学

import gym
import matplotlib.pyplot as plt# 选择小车上山环境,并设置渲染方式,之后我们可以获取环境的图像数组
env = gym.make('MountainCar-v0', render_mode="rgb_array")
# 初始化环境
env.reset()
# 获取环境图片数组
image = env.render()
#显示环境图片
plt.imshow(image)
plt.show()

 这段代码完成了一些初始设置,具体作用见代码注释,运行结果如下图

686524f698f942a8b8d4e3ebf8072fda.png

环境信息查看

我们导入环境后要查看一些环境的信息,还记得我们最开始说的强化学习要素吗,策略,行动等,我们要查看的就是这些

import gymenv = gym.make('MountainCar-v0', render_mode="rgb_array")
env.reset()
for key in vars(env.spec):print(key, vars(env.spec)[key])

963dcdf3cf184a81a92fc1cd1bde30e7.png

这段代码打印了一些环境的基础信息,我们解释一些重要的

id—代表当前环境的名称

reward_threshold—代表奖励阈值,即当奖励大于-110时就算任务成功

max_episode_steps—表示最大回合数,到达这个数时任务就算没完成也会停止

import gymenv = gym.make('MountainCar-v0', render_mode="rgb_array")
env.reset()
for key in vars(env.unwrapped):print(key, vars(env.unwrapped)[key])

这段代码会打印一些环境具体信息,由于结果太长,请读者自行打印,这里同样解释一些重要信息

min_position: -1.2: 车辆位置的最小值。

max_position: 0.6: 车辆位置的最大值。

max_speed: 0.07: 车辆速度的最大值。

goal_position: 0.5: 车辆成功达到的目标位置。

goal_velocity: 0: 车辆成功达到的目标速度。

force: 0.001: 施加在车辆上的力的大小。

gravity: 0.0025: 重力的大小。

low: [-1.2 -0.07]: 观察空间的最小值。

high: [0.6 0.07]: 观察空间的最大值。

action_space: Discrete(3): 动作空间,表示可用的离散动作数量为 3。

observation_space: Box([-1.2 -0.07], [0.6 0.07], (2,), float32): 观察空间,表示观察的状态空间是一个2维的Box空间,范围在 [-1.2, -0.07] 到 [0.6, 0.07] 之间。

创建智能体

接下来我们将使用类定义一个智能体

class CloseFormAgent:def __init__(self):passdef step(self, observation):position, velocity = observationlb = min(-0.09*(position+0.25)**2+0.03, 0.3*(position+0.9)**4-0.008)ub = -0.07*(position+0.38)**2+0.07if lb < velocity < ub:action = 2else:action = 0return action

这个类定义了一个step函数,代表智能体决策的部分,它输入一个观测环境,在这个任务中,可以观测到小车所处的位置和速度,接着,根据这两个值来做出行为,往右或者往左

我们再定义一个智能体与环境交互的函数

# 保存图片的列表
image = []
# 实例化智能体对象
agent = CloseFormAgent()def play_episoe(env, agent, render=False):# 获取初始化环境状态observation, _ = env.reset()# 初始化奖励,同时设置回合数和是否完成为Falsereward, terminated, truncated = 0., False, False# 初始化奖励与行动次数episode_reward, elapsed_step = 0., 0# 循环进行任务while True:# 获取决策action = agent.step(observation)# 保存当前状态图片(之后可视化要用到)image.append(env.render())# 如果到达了最大回合数或者完成任务就退出if terminated or truncated:break# 记录做出行动后的数据observation, reward, terminated, truncated, _ = env.step(action)# 记录回合数与行动次数episode_reward += rewardelapsed_step += 1return episode_reward, elapsed_step

 这个函数实现了智能体与环境交互的过程,它接收行动,再返回状态,同时记录回合数,行动次数等信息,具体作用见代码注释

过程可视化

matplotlib库中有一个将图片组变成一组动画的库:FuncAnimation,我们保存每次智能体的状态图片后,用这个库就可以将整个过程显示出来了

import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimationimage = []# 创建一个空白的图形窗口
fig, ax = plt.subplots()# 定义更新函数,用于在每一帧中更新图像
def update(frame):ax.clear()  # 清空当前图轴ax.imshow(image[frame])ax.set_title(f'Frame {frame+1}/{len(image)}')# 创建动画对象
animation = FuncAnimation(fig, update, frames=len(image), repeat=False)
# 显示动画
plt.show()

完整代码

import gym
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimationenv = gym.make('MountainCar-v0', render_mode="rgb_array")
env.reset()image = []class CloseFormAgent:def __init__(self):passdef step(self, observation):position, velocity = observationlb = min(-0.09*(position+0.25)**2+0.03, 0.3*(position+0.9)**4-0.008)ub = -0.07*(position+0.38)**2+0.07if lb < velocity < ub:action = 2else:action = 0return actionagent = CloseFormAgent()def play_episoe(env, agent, render=False):observation, _ = env.reset()reward, terminated, truncated = 0., False, Falseepisode_reward, elapsed_step = 0., 0while True:action = agent.step(observation)image.append(env.render())if terminated or truncated:breakobservation, reward, terminated, truncated, _ = env.step(action)episode_reward += rewardelapsed_step += 1return episode_reward, elapsed_stepepisode_reward, elapsed_steps = play_episoe(env, agent, render=True)
env.close()
print("奖励:", episode_reward, "行动次数:", elapsed_steps)# 创建一个空白的图形窗口
fig, ax = plt.subplots()# 定义更新函数,用于在每一帧中更新图像
def update(frame):ax.clear()  # 清空当前图轴ax.imshow(image[frame])ax.set_title(f'Frame {frame+1}/{len(image)}')# 创建动画对象
animation = FuncAnimation(fig, update, frames=len(image), repeat=False)
# 显示动画
plt.show()

运行后代码将打印最终奖励与行动次数,以及显示一个智能体与环境交互的动画,效果如下

77820ec1368444efb523a90208c91054.gif


结语

  • 了解了什么是强化学习
  • 学习了强化学习的基本概念
  • 通过一个简单示例直观感受了强化学习的基本流程
  • 学习了将图片动画化的技术

9741edbb1a0546229968c1f90d259244.gif

感谢阅读,觉得有用的话就订阅下本专栏吧,有错误也欢迎指出

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/202735.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

有线传输介质

目录 1、双绞线 &#xff08;1&#xff09;无屏蔽双绞线 UTP(Unshielded Twisted Pair) &#xff08;2&#xff09;屏蔽双绞线 STP (Shielded Twisted Pair) &#xff08;3&#xff09;布线标准EIA/TIA-568-&#xff21; &#xff08;4&#xff09;双绞线的特点 2、同轴电…

变频电机的负载曲线核对

1.问题导入 月初偶然接触到一个很奇怪的现象&#xff0c;一款变频电机在各个档位下的输入线电流&#xff0c;如果负载不变&#xff0c;无论怎样切换变频器输出频率&#xff0c;电流会保持近乎恒定。这个特性让我感觉很好奇。直觉的理解&#xff0c;因为频率变化&#xff0c;而…

Linux指令学习

目录 1.ls指令 2.pwd命令 3.cd 指令 4. touch指令 5.mkdir指令 6.rmdir指令 && rm 指令 7.man指令 8.cp指令 9.mv指令 10.cat指令 11.more指令 12.less指令 13.head指令 14.find指令&#xff1a; -name 15.grep指令 16.zip/unzip指令&#xff1a; 17.tar…

Windows驱动中使用数字签名验证控制设备访问权限

1. 背景 在一般的驱动开发时&#xff0c;创建了符号链接后在应用层就可以访问打开我们的设备并进行通讯。 但我们有时候不希望非自己的进程访问我们的设备并进行交互&#xff0c;虽然可以使用 IoCreateDeviceSecure 来创建有安全描述符的设备&#xff0c;但大数的用户账户为了方…

二叉树的右视图[中等]

优质博文&#xff1a;IT-BLOG-CN 一、题目 给定一个二叉树的 根节点root&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节点值。 示例 1: 输入: [1,2,3,null,5,null,4] 输出: [1,3,4] 示例 2: 输入: [1,null,3] 输出…

西工大计算机学院计算机系统基础实验一(函数编写11~14)

稳住心态不要慌&#xff0c;如果考试周冲突的话&#xff0c;可以直接复制这篇博客和上一篇博客西工大计算机学院计算机系统基础实验一&#xff08;函数编写1~10&#xff09;-CSDN博客最后的代码&#xff0c;然后直接提交&#xff0c;等熬过考试周之后回过头再慢慢做也可以。 第…

如何做好软文推广的选题?媒介盒子分享常见套路

选题是软文推广的重中之重&#xff0c;主题选得好&#xff0c;不仅能够戳到用户&#xff0c;提高转化率&#xff0c;还能让各位运营的写作效率大幅度提升&#xff0c;今天媒介盒子就来和大家分享软文选题的常见套路&#xff0c;助力各位品牌进行选题。 一、 根据产品选题 软文…

【AI-Fix】解决地图展示包leafmap在Jupyter NoteBook中地图不显示的问题

1. 问题描述 新创建的环境想使用leafmap在Jupyter中进行地图展示&#xff0c;结果发现运行完成之后不显示&#xff0c;不论怎么重启都没有办法显示出来&#xff0c;以经验来看&#xff0c;多半是缺了包了。 于是去leafmap的官方文档查找原因&#xff0c;一开始并没有发现什么问…

C++ 拷贝构造函数

目录 拷贝构造函数概述 拷贝构造函数特性 拷贝构造函数概述 当我们定义好一个类&#xff0c;不做任何处理时&#xff0c;编译器会自动生成以下6个默认成员函数&#xff1a; 默认成员函数&#xff1a;如果用户没有手动实现&#xff0c;则编译器会自动生成的成员函数。 同样&…

JavaWeb(十)

一、JavaWeb概述 Web&#xff1a;全球广域网&#xff0c;也称为万维网(www)&#xff0c;能够通过浏览器访问的网站。 JavaWeb&#xff1a;使用 Java技术进行web互联网开发。 二、JavaWeb 技术栈 2.1、B/S 架构 B/S 架构&#xff1a;Browser/Server&#xff0c;浏览器/服务器…

解决找不到msvcr120.dll无法执行代码的4个方法,快来看看解决方法!

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中最常见的就是“缺少xxx.dll文件”。而msvcr120.dll就是其中之一。那么&#xff0c;msvcr120.dll到底是什么呢&#xff1f;它又有什么作用呢&#xff1f;本文将从多个方面对msvcr120.dll进行详细的解析…

华为鸿蒙爆发真实力!原生应用媲美iOS,使用流畅度将提升20至30%

随着华为鸿蒙原生应用开发计划的启动&#xff0c;一场席卷全球的科技浪潮正在涌动。鸿蒙生态的快速发展&#xff0c;吸引了无数企业和开发者的关注&#xff0c;他们纷纷拥抱这个新兴的生态系统&#xff0c;共同构建一个更加繁荣的鸿蒙世界。 华为鸿蒙原生应用开发计划引爆全球…

【电路笔记】-交流电路中的电阻器

交流电路中的电阻器 文章目录 交流电路中的电阻器1、概述2、交流电路中的电阻器示例 13、交流电路中的电阻器示例2 电阻器也可用于交流电源&#xff0c;其中消耗的电压、电流和功率以有效值给出。 1、概述 在之前的文章中&#xff0c;我们研究了电阻器及其连接&#xff0c;并使…

Leetcode刷题笔记题解(C++):BM11 链表相加(二)

思路&#xff1a;先对两个链表进行反转&#xff0c;反转求和注意进位运算&#xff0c;求和完成之后再进行反转得到结果 /*** struct ListNode {* int val;* struct ListNode *next;* ListNode(int x) : val(x), next(nullptr) {}* };*/ #include <cstddef> class Soluti…

Excel 删除空白行

目录 一. 方式一: 筛选删除二. 方式二: 定位条件三. 方式三: 隐藏非空白行&#xff0c;删除空白行 一. 方式一: 筛选删除 选中空白行对应的列&#xff0c;按下Ctrl Shift L&#xff0c;给列添加过滤条件。过滤出空白行&#xff0c;然后删除即可。 二. 方式二: 定位条件 按下…

【Qt】QLineEdit显示输入十六进制,位数不足时按照规则填充显示及每两个字符以空格填充

问题 在实际开发中&#xff0c;有时候需要对输入进行限制&#xff0c;一是更加合理&#xff0c;二是防止出现误操作。 比如&#xff1a; 使用Qt进行应用程序开发时&#xff0c;对单行编辑框QLineEdit控件&#xff0c;设置只可输入十六进制。 限制输入的方式常用且经典的是使用…

Linux常用指令详解

目录 前言&#xff1a; Linux的目录结构 Linux常用指令简介 whoami指令 ls指令 pwd指令 cd指令 tree指令 touch指令 mkdir指令 rmdir指令与rm指令 man指令 cp&#xff08;copy&#xff09;指令 mv&#xff08;move&#xff09;指令 cat指令 重定向及重定向的类型…

Redis——某马点评day03——part2:秒杀业务异步优化

异步秒杀思路 原本的流程是如下所示&#xff0c;必须从开始到创建订单成功才会返回响应。就像饭店里面从下单到上菜都是一个人在服务&#xff0c;就导致服务员利用率很低&#xff0c;后一个顾客要等到前一个顾客上完菜才可以下单。 最简单的优化就是加员工&#xff0c;一次性…

6.1810: Operating System Engineering 2023 <Lab3: page tables>

一、本节任务 实验环境&#xff1a; 二、要点 如何防止程序破坏内核或其他进程空间&#xff1f;隔离地址空间&#xff0c;进程只能读写自己的内存空间。 在保证隔离的同时&#xff0c;如何将多个地址空间复用到一个物理内存上&#xff1f;虚拟内存/页表。操作系统通过页表来为…

DDSP-SVC-3.0完全指南:一步步教你用AI声音开启音乐之旅

本教程教你怎么使用工具训练数据集推理出你想要转换的声音音频&#xff0c;并且教你处理剪辑伴奏和训练后的音频合并一起&#xff0c;快来试试看把&#xff01; 1.使用的工具 要想训练ai声音&#xff0c;首先需要有各种工具&#xff0c;还需要我们提供你需要训练的声音&#…