【强化学习】SARAS代码实现

前言

SARAS,假设环境状态和动作状态都是离散的。利用动作价值矩阵来进行行为的预测。其主要就是利用时序差分的思想,对动作价值矩阵进行更新。

代码实现

import gymnasium as gym
import numpy as npclass sarsa():def __init__(self, states_n, action_n, greedy_e=0.1):self.Q = np.zeros((states_n, action_n)) #动作价值矩阵self.greedy_e = greedy_e #随机探索的概率self.states_n = states_n #环境状态个数self.action_n = action_n #行动状态个数self.gamma=0.9 #价值衰减值self.lr=0.1 #学习率def predict(self, states):action_list=self.Q[states]#先拿出对应的行#再取出对应价值最大的行为,如果有重复则在重复项中随机选取,返回索引action=np.random.choice(np.flatnonzero(action_list==action_list.max()))return actiondef act(self, states):'''由对应环境产生对应的行动@param states: 当前环境@return: 行动动作'''if np.random.uniform() < self.greedy_e:#是否采取随即探索action = np.random.choice(np.arange(self.action_n))#随机探索else:action = self.predict(states) # 根据行动价值矩阵进行预测return actiondef learning(self,state,action,reward,next_state,next_action,does):'''学习更新参数@param state: 环境状态@param action: 采取的行动@param reward: 回报@param next_state: 采取行动后的下一个环境状态@param next_action: 下一个环境状态对应的行为@param does: 游戏是否结束@return:'''current_q=self.Q[state,action] #取出对应的行动价值if does: #查看是否已经完成游戏,完成则直接将当前回报作为下一个行动价值next_q=rewardelse:# 计算当前回报和下一个环境状态和下一个行动对应的价值,加和next_q=reward+self.gamma*self.Q[next_state,next_action]self.Q[state,action]+=self.lr*(next_q-current_q) #时序差分,更新行动价值矩阵def train():env = gym.make("FrozenLake-v1", render_mode="human")#初始化游戏环境obs,info=env.reset()#重置位置agent=sarsa(env.observation_space.n,env.action_space.n)#初始化模型action = agent.act(obs)#预测行为num=0while True:num+=1# 由行为产生回报和下一个环境状态next_obs, reward, done, truncated, info = env.step(action)#预测下一个动作next_action=agent.act(obs)# 更新参数agent.learning(obs,action,reward,next_obs,next_action,done)obs=next_obsaction=next_action# 判断游戏是否结束或者中断,是则重置游戏if done or truncated:obs, info = env.reset()if num % 100 == 0 :env.close()if __name__ == '__main__':train()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/588075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Apollo自动驾驶:改变交通运输的游戏规则

前言 「作者主页」&#xff1a;雪碧有白泡泡 「个人网站」&#xff1a;雪碧的个人网站 ChatGPT体验地址 文章目录 前言1. Apollo缓存层2. 本地状态管理库3. 离线同步和冲突解决4. 离线数据同步和离线优先策略结论 &#x1f4f2;&#x1f50c; 构建离线应用&#xff1a;Apollo…

ssm基于web 的个人时间管理系统+vue论文

基于web 的个人时间管理系统的设计与实现 摘要 当下&#xff0c;正处于信息化的时代&#xff0c;许多行业顺应时代的变化&#xff0c;结合使用计算机技术向数字化、信息化建设迈进。传统的个人时间信息管理模式&#xff0c;采用人工登记的方式保存相关数据&#xff0c;这种以人…

【数据结构】排序之交换排序(冒泡 | 快排)

交换目录 1. 前言2. 交换排序3. 冒泡排序3.1 分析3.2 代码实现 4. 快速排序4.1 hoare版本4.1.1 分析4.1.2 hoare版本代码 4.2 挖坑法4.2.1 分析4.2.2 挖坑法代码实现 4.3 前后指针版本4.3.1 分析4.3.2 前后指针版本代码实现 1. 前言 在之前的博客中介绍了插入排序&#xff0c;…

QT designer的ui文件转py文件之后,实现pycharm中运行以方便修改逻辑,即添加实时模板框架

为PyCharm中的实时模板&#xff0c;你需要遵循以下步骤&#xff1a; 打开PyCharm的设置: 选择 File > Settings&#xff08;在macOS上是 PyCharm > Preferences&#xff09;。 导航到实时模板: 在设置中找到 Editor > Live Templates。 添加新的模板组 (可选): 为了…

Linux基础知识学习2

tree命令的使用 可以看到dir2目录下的这些文件&#xff0c;要想显示dir2的具体结构&#xff0c;可用tree命令 mv命令 它可以实现两个功能 1.将文件移动到另一个目录中 2.对某一个文件进行重命名 1.将文件移动到另一个目录中 这里将dir1中的2.txt移动到他的子目录dir3中 执行…

解构赋值的使用

结构赋值&#xff08;Destructuring Assignment&#xff09;是一种方便的语法&#xff0c;允许你从数组或对象中提取数据并赋值给变量。以下是结构赋值的一些常见用法&#xff1a; 1. 对象解构赋值&#xff1a; 基本语法&#xff1a; let { key1, key2 } { key1: value1, k…

“C语言与人生:手把手教你玩转C语言数组,从此编程无难题“

各位少年&#xff0c;我是博主那一脸阳光&#xff0c;由我来给大家介绍C语言的数组的详解。 在C语言中&#xff0c;数组是一种极其重要的数据结构&#xff0c;它允许我们存储和管理相同类型的一系列相关数据。通过理解并熟练掌握数组的使用&#xff0c;开发者能够高效地处理大量…

超真实随身WiFi测评,你确定不看一下?随身WiFi靠谱吗? 看完这篇文章你就懂了?随身WiFi真实评测

用了一年多的格行随身wifi&#xff0c;屏幕都磨花了。直接看图&#xff0c;都是自己实测&#xff01; 设备是去年买的&#xff0c;到现在也快1年了&#xff0c;一直有朋友蹲后续&#xff0c;现在把后续给大家&#xff01;到底是大牌子&#xff0c;确定是不跑路的随身wifi&…

Vue独立组件开发-递归组件

文章目录 一、前言二、实现三、总结四、最后 一、前言 递归组件就是指组件在模板中调用自己。 二、实现 开启递归组件的必要条件&#xff0c;就是在组件中设置一个 name 选项。 <template><div><my-component></my-component></div> </te…

JavaScript 中 Set 和 Map 的区别

JavaScript 中的 Set 和 Map 都是用来存储数据的数据结构&#xff0c;它们之间的区别如下&#xff1a; Set 是一组唯一值的集合&#xff0c;而 Map 是一组键值对的集合。Set 中的值是唯一的&#xff0c;不允许重复&#xff1b;Map 中的键是唯一的&#xff0c;值可以重复。Set …

提取 PE 文件的各种信息

前段时间项目需要实现对 Windows PE 文件版本信息的提取&#xff0c;如文件说明、文件版本、产品名称、版权、原始文件名等信息。获取这些信息在 Windows 下当然有一系列的 API 函数供调用&#xff0c;简单方便。 我们先看一下PE文件结构&#xff0c;PE文件由DOS首部&#xff0…

AES - 在tiny-AES-c基础上封装了2个应用函数(加密/解密)

文章目录 AES - 在tiny-AES-c基础上封装了2个应用函数(加密/解密)概述增加2个封装函数的AES库aes.haes.c在官方测试程序上改的测试程序(用来测试这2个封装函数)END AES - 在tiny-AES-c基础上封装了2个应用函数(加密/解密) 概述 在github山有个星数很高的AES的C库 tiny-AES-c …

LOJ #6277 数列分块1题解 2023年最后一篇题解

Part #0 . 前言 \text{Part \#0 . 前言} Part #0 . 前言 分块是一种优雅的暴力。 Part #1 . 数列分块入门1 \text{Part \#1 . 数列分块入门1} Part #1 . 数列分块入门1 传送门 这题是一个基础的分块&#xff0c;块外的暴力&#xff0c;块内做标记&#xff0c;块长 n \sqrt{…

2023-12-21 LeetCode每日一题(美丽塔 II)

2023-12-21每日一题 一、题目编号 2866. 美丽塔 II二、题目链接 点击跳转到题目位置 三、题目描述 给你一个长度为 n 下标从 0 开始的整数数组 maxHeights 。 你的任务是在坐标轴上建 n 座塔。第 i 座塔的下标为 i &#xff0c;高度为 heights[i] 。 如果以下条件满足&a…

linux驱动(一):led

本文主要探讨210的led驱动相关知识。 驱动 操作系统驱动硬件的代码,驱动上层是系统调用API,下层是硬件 宏内核&#xff1a;内核整体上为一个过程实现,运行在同一地址空间,相互调用简单高效 微内核&#xff1a;功能为独立过程,过程间通过IPC通信 …

致最后【个人】

致最后【个人】 前言版权推荐我的大学课程学习致最后感谢鼓励后期规划日星月云留下你想说的话吧最后 前言 现在时间是2023-12-31 12:30:35 我放假回到家的第二天 也是公历2023年的最后一天 写这篇文章&#xff0c;恰好是佳作天成。 以下内容源自《【计算机图像处理】》 仅…

【华为OD机试真题2023CD卷 JAVAJS】测试用例执行计划

华为OD2023(C&D卷)机试题库全覆盖,刷题指南点这里 测试用例执行计划 时间限制:1s 空间限制:256MB 限定语言:不限 题目描述: 某个产品当前迭代周期内有N个特性()需要进行覆盖测试,每个特性都被评估了对应的优先级,特性使用其ID作为下标进行标识。 设计了M个测试用…

在Linux运行LaTeX

共有三个步骤1. 装LaTexTeX Live - TeX Users Group 下载对应版本安装包安装 文件比较大&#xff0c;这步花的时间多一点&#xff0c;不过也不会太多&#xff0c;感觉5分钟十分钟的样子吧 2. 装TexStidio 这一步是安装一个类似在windows系统下的TaTeX GUI软件 图标是这样3. 配置…

Tensorflow2.X的GPU版框架最快最稳搭建方法

一、环境基础 Windows10以上 已装Anaconda 支持GPU 二、搭建步骤 1. 在Anaconda中创建并进入虚拟环境 conda create -n envname python3.8 conda activate envname 注意&#xff1a;envname 替换为你自己想命名的&#xff0c;下文将以“Ljdenv”出现 2.安…

配置打开QT designer

要在PyCharm中配置打开Qt Designer的外部工具&#xff0c;可以遵循以下步骤。这个配置将允许你直接从PyCharm打开Qt Designer&#xff0c;编辑.ui文件。 打开PyCharm的设置: 选择File > Settings&#xff08;在macOS上是PyCharm > Preferences&#xff09;。 导航到外部…