强化学习,快速入门与基于python实现一个简单例子(可直接运行)

文章目录

  • 一、什么是“强化学习”
  • 二、强化学习包括的组成部分
  • 二、Q-Learning算法
  • 三、迷宫-强化学习-Q-Learning算法的实现
      • 全部代码(复制可用)
      • 可用状态空间
      • 检查是否超出边界
      • epsilon 的含义
      • 更新方程
  • 总结


一、什么是“强化学习”

本文要记录的大概内容:

强化学习是一种机器学习方法,旨在让智能体通过与环境的交互学习如何做出最优决策以最大化累积奖励。在强化学习中,智能体通过尝试不同的行动并观察环境的反馈(奖励或惩罚)来学习。它不依赖于预先标记的训练数据,而是通过与环境的实时交互进行学习。

强化学习的核心概念包括以下几个要素:

智能体(Agent):执行动作并与环境进行交互的学习主体。
环境(Environment):智能体所处的外部环境,它对智能体的动作做出反应,并提供奖励或惩罚信号。
状态(State):在特定时间点,环境所处的情境或配置,用于描述环境的特征。
动作(Action):智能体在某个状态下可以执行的操作或决策。
奖励(Reward):环境根据智能体的动作提供的反馈信号,用于评估动作的好坏。
策略(Policy):智能体采取行动的方式或决策规则,它映射状态到动作的选择。
价值函数(Value Function):评估在特定状态下采取特定动作的长期价值或预期回报。
Q值(Q-Value):表示在给定状态下采取特定动作的预期回报值。

强化学习的目标是通过学习最优策略或价值函数来使智能体能够在不同的状态下做出最佳决策,以最大化累积奖励。学习过程通常使用基于迭代的方法,例如Q-learning、SARSA、深度强化学习等。强化学习在许多领域具有广泛的应用,包括自动驾驶、机器人控制、游戏智能以及优化和决策问题等。


以下是本篇文章正文内容

二、强化学习包括的组成部分

当涉及到设计一个完整的强化学习过程时,需要考虑多个方面,包括环境、代理程序、奖励函数、状态空间、动作空间等。为了提供一个简单而完整的示例,下面以设计一个基于强化学习的迷宫求解问题为例进行分析:

环境 Environment:

我们选择一个简单的方格迷宫作为环境。迷宫由多个方格组成,其中包括起点和终点。
迷宫中可能存在障碍物,代表着无法通过的区域。
环境会提供代理程序当前的状态信息,并接受代理程序的动作。

代理程序 Agent:

代理程序就是智能体,就是我们所设计算法
我们设计一个简单的代理程序,它会根据当前的状态选择一个动作。
代理程序将使用强化学习算法来学习如何在迷宫中移动,以找到终点。
在这个示例中,我们将使用Q-learning算法作为强化学习算法。

状态空间 state_space:

状态空间定义了代理程序可能处于的不同状态。在迷宫中,状态可以表示为当前的位置坐标。
动作空间定义了代理程序可以执行的不同动作。

动作空间 action_space:

在迷宫中,可选的动作可以是上、下、左、右四个方向的移动。

奖励函数 reward:

我们定义奖励函数来指导代理程序的学习过程。
当代理程序达到终点时,奖励为正值,表示取得了成功。
当代理程序遇到障碍物时,奖励为负值,表示不可行的移动。
其他情况下,奖励为零。

这是一个基本的强化学习过程的设计示例。要使其运行,需要实现Q-learning算法和迷宫环境的交互逻辑,并根据定义的状态空间、动作空间和奖励函数进行训练和学习,下面介绍Q-Learning算法。

二、Q-Learning算法

Q-Learning(Q学习)是一种强化学习算法,用于解决马尔可夫决策过程(MDP)。它是一种无模型算法,意味着它不需要显式地了解环境动态。Q-Learning的目标是学习一个最优的动作值函数,称为Q函数,它表示在给定状态下采取特定动作的预期累积奖励。Q-Learning的主要目标是学习一个能够最大化累积奖励的策略。

注意: 传统的Q-Learning算法不涉及深度学习的知识

以下是Q-Learning算法的详细步骤:

  1. 初始化:对所有状态(s)和动作(a),使用任意值初始化Q函数,记作Q(s, a)。通常,Q函数以表格或矩阵的形式表示。

  2. 探索与利用:选择在当前状态下执行的动作。在探索与利用之间存在一个权衡。初期通常会更多地进行探索,以便探索不同的状态和动作,随着学习的进行逐渐增加利用已知的高价值动作。

  3. 执行动作:根据选择的动作,与环境进行交互,观察下一个状态(s’)和获得的即时奖励(r)。

  4. 更新Q函数:使用Q-Learning更新Q函数的值。根据观察到的即时奖励和下一个状态的最大Q值,更新当前状态和动作的Q值。更新公式为:Q(s, a) = (1 - α) * Q(s, a) + α * (r + γ * max(Q(s’, a’))),其中α是学习率(控制新信息的重要性),γ是折扣因子(控制未来奖励的重要性)。

  5. 转移到下一个状态:将当前状态更新为下一个状态,继续执行步骤2-4,直到达到终止状态或达到指定的停止条件。

  6. 收敛:通过不断地与环境交互和更新Q函数,最终Q函数会收敛到最优的动作值函数,表示了在每个状态下采取最佳动作的预期累积奖励。

Q-Learning算法的核心思想是基于试错学习,通过与环境的交互不断优化动作策略,以获得最大的累积奖励。通过迭代更新Q函数,Q-Learning能够学习到最优的策略,从而在复杂的环境中实现自主决策。

三、迷宫-强化学习-Q-Learning算法的实现

全部代码(复制可用)

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import joblib# 定义迷宫环境
class MazeEnvironment:def __init__(self):self.grid = np.array([[0, 0, 0, 0, 0],[0, -1, -1, -1, 0],[0, 0, 0, 0, 0],[0, -1, -1, -1, 1],[0, 0, 0, 0, 0]])  # 0表示可通过的空格,-1表示障碍物,1表示目标self.state_space = np.argwhere(self.grid == 0).tolist()  # 可用的状态空间self.victory = np.argwhere(self.grid == 1).tolist()self.state_space.extend(self.victory)  # # 最终可用的状态空间self.action_space = ['up', 'down', 'left', 'right']  # 动作空间self.num_states = len(self.state_space)self.num_actions = len(self.action_space)self.current_state = Nonedef reset(self):self.current_state = [0, 0]  # 设置起始状态return self.current_statedef step(self, action):if action == 'up':next_state = [self.current_state[0] - 1, self.current_state[1]]elif action == 'down':next_state = [self.current_state[0] + 1, self.current_state[1]]elif action == 'left':next_state = [self.current_state[0], self.current_state[1] - 1]elif action == 'right':next_state = [self.current_state[0], self.current_state[1] + 1]# 检查下一个状态是否合法if (next_state[0] < 0or next_state[0] >= self.grid.shape[0]or next_state[1] < 0or next_state[1] >= self.grid.shape[1]or self.grid[tuple(next_state)] == -1):next_state = self.current_state# 判断是否到达目标状态done = (self.grid[tuple(next_state)] == 1)self.current_state = next_statereturn next_state, int(done)# 定义强化学习代理程序
class QAgent:def __init__(self, state_space, action_space):self.state_space = state_spaceself.action_space = action_spaceself.num_states = len(state_space)self.num_actions = len(action_space)self.q_table = np.zeros((self.num_states, self.num_actions))def choose_action(self, state, epsilon=0.1):if np.random.uniform(0, 1) < epsilon:action = np.random.choice(self.action_space)else:state_idx = self.state_space.index(state)q_values = self.q_table[state_idx]max_q = np.max(q_values)max_indices = np.where(q_values == max_q)[0]action_idx = np.random.choice(max_indices)action = self.action_space[action_idx]return actiondef update_q_table(self, state, action, next_state, reward, learning_rate, discount_factor):state_idx = self.state_space.index(state)next_state_idx = self.state_space.index(next_state)q_value = self.q_table[state_idx, self.action_space.index(action)]max_q = np.max(self.q_table[next_state_idx])new_q = q_value + learning_rate * (reward + discount_factor * max_q - q_value)self.q_table[state_idx, self.action_space.index(action)] = new_q# 训练强化学习代理程序
def train_agent(agent, environment, num_episodes, learning_rate, discount_factor, epsilon):for episode in range(num_episodes):state = environment.reset()done = Falsewhile not done:action = agent.choose_action(state, epsilon)next_state, reward = environment.step(action)# 更新 Q 值表agent.update_q_table(state, action, next_state, reward, learning_rate, discount_factor)state = next_state  # 更新当前状态为下一个状态if reward == 1:  # 到达目标状态,结束当前回合done = Truejoblib.dump(agent, './Agent.agt') # 保存智能体# 创建迷宫环境实例
maze_env = MazeEnvironment()# 创建强化学习代理实例
agent = QAgent(maze_env.state_space, maze_env.action_space)# 训练强化学习代理
num_episodes = 1000
learning_rate = 0.1
discount_factor = 0.9
epsilon = 0.1  # 在强化学习中,ε(epsilon)通常用于控制智能体在选择动作时的探索与利用的平衡。train_agent(agent, maze_env, num_episodes, learning_rate, discount_factor, epsilon)

可用状态空间

self.state_space = np.argwhere(self.grid == 0).tolist()
在这里插入图片描述

检查是否超出边界

在这里插入图片描述

epsilon 的含义

在强化学习中,ε(epsilon)通常用于控制智能体在选择动作时的探索与利用的平衡。

ε-greedy策略是一种常见的动作选择策略,其中ε表示以随机动作进行探索的概率,而1-ε表示以具有最高Q值的动作进行利用的概率。

具体含义如下:

当随机数小于ε时,智能体会随机选择一个动作,以便在尚未探索或不确定的状态下进行探索。这有助于发现新的、可能更好的动作。
当随机数大于或等于ε时,智能体会选择具有最高Q值的动作,以利用已经学到的知识和经验。
ε的取值范围通常为0到1之间,根据具体问题和需求进行调整。较小的ε值会更倾向于利用已知的最优动作,而较大的ε值会更倾向于探索未知的动作。

需要注意的是

在训练初期,智能体通常会更多地进行探索,因此ε的初始值可能会较高,随着训练的进行逐渐减小,以便智能体更多地进行利用。

示例:

假设ε的值为0.2,即以20%的概率进行随机动作选择,80%的概率进行利用。
在某个状态下,智能体根据ε-greedy策略进行动作选择:

如果随机数小于0.2,智能体会以20%的概率随机选择一个动作进行探索。
如果随机数大于等于0.2,智能体会以80%的概率选择具有最高Q值的动作进行利用。
通过调整ε的值,可以在探索与利用之间找到适当的平衡,以使智能体能够有效地学习和提高性能。

更新方程

new_q = q_value + learning_rate * (reward + discount_factor * max_q - q_value)
self.q_table[state_idx, self.action_space.index(action)] = new_q

这行代码使用贝尔曼方程更新当前状态和动作对应的Q值。贝尔曼方程表示当前状态和动作的Q值等于当前收益加上折扣因子乘以下一个状态的最大Q值,再减去当前状态和动作的Q值。学习率乘以这个差值,控制了新Q值的更新速度。最后,将更新后的Q值存储回Q表中,以便在后续的训练中使用。

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/169835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C3 多媒体查询

文章目录 前言CSS3 多媒体查询CSS2 多媒体类型CSS3 多媒体查询浏览器支持多媒体查询语法CSS3 多媒体类型多媒体查询简单实例 媒体类型媒体功能更多实例后言 前言 hello world欢迎来到前端的新世界 &#x1f61c;当前文章系列专栏&#xff1a;CSS &#x1f431;‍&#x1f453;博…

SpringBoot 2 系列停止维护,Java8 党何去何从?

SpringBoot 2.x 版本正式停止更新维护&#xff0c;官方将不再提供对 JDK8 版本的支持 SpringBoot Logo 版本的新特性 3.2 版本正式发布&#xff0c;亮点包括&#xff1a; 支持 JDK17、JDK21 版本 对虚拟线程的完整支持 JVM Checkpoint Restore&#xff08;Project CRaC&…

quickapp_快应用_某些css样式不兼容问题

样式问题 引入css样式文件[1] 单位px [2]选择器[3]盒模型[4]样式布局-默认弹性布局且不可取消[5-1]样式切换-类名的动态切换-语法[5-2]样式切换 - 类名的动态切换-目标元素[5-3] 样式切换 - 行内样式动态切换[6]background[7]overflow[8]border-radius[9]盒子阴影[10] 定位erro…

1、Mysql架构与历史

Mysql逻辑架构 最上层是服务并不是Mysql所独有的&#xff0c;大多数基于网络的客户端/服务器的工具或者服务都有类似的架构&#xff0c;比如连接处理&#xff0c;授权认证&#xff0c;安全等。 第二层是Mysql比较有意思的部分。大多数Mysql的核心服务都在这一层&#xff0c;…

用户与组管理:如何在服务器系统中管理用户和权限

你是否想过&#xff0c;当你登录到一个服务器系统时&#xff0c;你是如何被识别和授权的&#xff1f;你是否知道&#xff0c;你可以通过创建和管理用户和组来简化和优化你的系统管理工作&#xff1f;你是否想了解一些常用的用户和组管理命令和技巧&#xff1f;如果你的答案是肯…

Walrus 入门教程:如何创建模板以沉淀可复用的团队最佳实践

模板是 Walrus 的核心功能之一&#xff0c;模板创建完成后用户可以重复使用&#xff0c;并在使用过程中逐渐沉淀研发和运维团队的最佳实践&#xff0c;进一步简化服务及资源的部署。用户可以使用 HCL 语言自定义创建模板&#xff0c;也可以一键复用 Terraform 社区中上万个成熟…

批量按顺序1、2、3...重命名所有文件夹里的文件

最新&#xff1a; 最快方法&#xff1a;先用这个教程http://文件重命名1,2......nhttps://jingyan.baidu.com/article/495ba841281b7079b20ede2c.html再用这个教程去空格&#xff1a;利用批处理去掉文件名中的空格-百度经验 (baidu.com) 以下为原回答 注意文件名有空格会失败…

LeetCode Hot100 105.从前序与中序遍历序列构造二叉树

题目&#xff1a;给定两个整数数组 preorder 和 inorder &#xff0c;其中 preorder 是二叉树的先序遍历&#xff0c; inorder 是同一棵树的中序遍历&#xff0c;请构造二叉树并返回其根节点。 代码&#xff1a; class Solution {private Map<Integer, Integer> indexM…

ESP32网络开发实例-远程Web串口监视器

远程Web串口监视器 文章目录 远程Web串口监视器1、应用介绍2、软件准备3、硬件准备4、代码实现在本文中,我们将构建一个 ESP32 网络服务器,用作远程串行监视器。 基于 Web 的串行监视器的工作方式与通常用于调试目的的 Arduino IDE 串行监视器的工作方式相同。 1、应用介绍 …

数字逻辑电路基础-时序逻辑电路之移位寄存器

文章目录 一、移位寄存器定义二、verilog源码三、仿真结果一、移位寄存器定义 移位寄存器定义 A shift register is a type of digital circuit using a cascade of flip flops where the output of one flip-flop is connected to the input of the next. 移位寄存器是一种将…

基于51单片机超市快递寄存自动柜设计源程序

一、系统方案 1、本设计采用这51单片机作为主控器。 2、存包&#xff0c;GSM短信取件码。 3、液晶1620显示。 4、矩阵键盘输入取件码&#xff0c;完成取包。 二、硬件设计 原理图如下&#xff1a; 三、单片机软件设计 1、首先是系统初始化 /******************************…

量子计算的发展

目录 一、量子力学的发展历程二、量子计算的发展历程三、量子计算机的发展历程四、量子信息科学的发展 一、量子力学的发展历程 量子力学是现代物理学的一个基本分支&#xff0c;它的发展始于20世纪初。以下是量子力学发展的几个重要阶段&#xff1a; 普朗克&#xff08;1900&…

steam搬砖还能做吗?CSGO饰品未来走势如何?

steam/csgo搬砖项目真能月入过万吗&#xff1f;到底真的假的&#xff1f; 如何看待CSGO饰品市场的整体走向&#xff1f; 从整体来说&#xff0c;CSGO的饰品市场与规模肯定会持续不断的上升&#xff0c;大盘不会发生特别大的波动&#xff0c;目前处于稳定期&#xff01;&#x…

WGCLOUD 中文繁体版本 下载

wgcloud 繁体版下载 下載繁體版安裝包 - WGCLOUD

Compose入门

​ 本篇文章主要是为了对Compose有一个初步了解。知道Compose是做什么的&#xff0c;用Compose能干什么&#xff0c;在目前的各种UI框架下面有些优势&#xff0c;参考Google官网的解释加上一些自己的理解生成的一篇文章。本人也是Compose初学者&#xff0c;通过每一步学习遇到哪…

【Qt之QFileInfo】使用

描述 QFileInfo类提供了与系统无关的文件信息。 QFileInfo提供有关文件的名称和位置&#xff08;路径&#xff09;在文件系统中的信息&#xff0c;以及它的访问权限、是否为目录或符号链接等。还可以获取文件的大小和最后修改/读取时间。QFileInfo还可以用于获取关于Qt资源的信…

基于java技术的社区交易二手平台

基于java技术的社区交易二手平台的设计与实现 &#xff08;一&#xff09;开发背景 随着因特网的日益普及与发展&#xff0c;更多的人们开始通过因特网来寻求便利。但是&#xff0c;许多人都觉得网上商店里的东西不贵。所以&#xff0c;有些顾客宁愿去那些用二次定价建立起来的…

kafka精准一次、事务、幂等性

Kafka事务 消息中间件的消息保障的3个级别 At most once 至多一次。数据丢失。At last once 至少一次。数据冗余Exactly one 精准一次。好&#xff01;&#xff01;&#xff01; 如何区分只要盯准提交位移、消费消息这两个动作的时机就可以了。 当&#xff1a;先消费消息、…

Java基准测试工具JMH的简介与使用

JMH是一套Java基准测试工具&#xff0c;用于对Java执行进行基准测试以及生成测试报告。平时应用于Java一些基础Api或者一些工具类这种离开网络因素的纯系统测试。 使用方式 maven引入&#xff1a; <dependency><groupId>org.openjdk.jmh</groupId><art…

2024北京理工大学计算机考研分析

24计算机考研|上岸指南 北京理工大学 计算机学院始建于1958年&#xff0c;是全国最早设立计算机专业的高校之一。2018年4月&#xff0c;计算机学院、软件学院、网络科学与技术研究院合并成立新的计算机学院。学院累计为国家培养各类人才15000余名。计算机科学学科ESI排名进入全…