使用 actor-critic 方法来控制 CartPole-V0 游戏

CartPole 介绍

在一个光滑的轨道上有个推车,杆子垂直微置在推车上,随时有倒的风险。系统每次对推车施加向左或者向右的力,但我们的目标是让杆子保持直立。杆子保持直立的每个时间单位都会获得 +1 的奖励。但是当杆子与垂直方向成 15 度以上的位置,或者推车偏离中心点超过 2.4 个单位后,这一轮局游戏结束。因此我们可以获得的最高回报等于 200 。我们这里就是要通过使用 PPO 算法来训练一个强化学习模型 actor-critic ,通过对比模型训练前后的游戏运行 gif 图,可以看出来我们训练好的模型能长时间保持杆子处于垂直状态。

Actor Critic 介绍

当 agent 采取行动并在环境中移动时,它在观察到的环境状态的情况下,学习两个可能的输出:

  • 接下来最合适的一个操作,actor 负责此部分输出。
  • 未来可能获得的奖励总和,critic 负责此部分的输出。

actor 和 critic 通过不断地学习,以便使得 agent 在游戏中最终获得的奖励最大,这里的 agent 就是那个小车。

库准备

tensorflow-gpu==2.10.0
imageio==2.26.1
keras==2.10,0
gym==0.20.0
pyglet==1.5.20
scipy==1.10.1

设置超参数

这部分代码主要有:

(1)导入所需的Python库:gym、numpy、tensorflow 和 keras。

(2)设置整个环境的超参数:种子、折扣因子和每个回合的最大步数。

(3)创建 CartPole-v0 环境,并设置种子。

(4)定义一个非常小的值 eps ,表示的机器两个不同的数字之间的最小差值,用于检验数值稳定性。

import gym # 导入Gym库,用于开发和比较强化学习算法
import numpy as np # 导入NumPy库,用于进行科学计算
import tensorflow as tf # 导入TensorFlow库
from tensorflow import keras # 导入keras模块,这是一个高级神经网络API
from tensorflow.keras import layers # 导入keras中的layers模块,用于创建神经网络层seed = 42 # 设定随机种子,用于复现实验结果
gamma = 0.99 # 定义折扣率,用于计算未来奖励的现值
max_steps_per_episode = 10000 # 设定每个 episode 的最大步数
env = gym.make("CartPole-v0") # 创建 CartPole-v0 环境实例
env.seed(seed) # 设定环境的随机种子
eps = np.finfo(np.float32).eps.item() # 获取 float32 数据类型的误差最小值 epsilon 

Actor Critic 结构搭建

(1)Actor:将环境的状态作为输入,返回操作空间中每个操作及其概率值,其实总共只有两个操作,往左和往右。

(2)Critic:将环境的状态作为输入,返回未来奖励综合的估计。

(3)在这里网络结构中我们在一开始接收 inputs 之后,我们的 Actor 和 Critic 共用了中间的部分隐藏层 common 层,然后在一个输出分支上连接了一个全连接进行动作分类作为 action ,另一个分支上连接了一个全连接层进行未来奖励计算作为 critic 。

num_inputs = 4 # 状态空间的维度,即输入层的节点数
num_actions = 2 # 行为空间的维度,即输出层的节点数
num_hidden = 128 # 隐藏层的节点数inputs = layers.Input(shape=(num_inputs,)) # 创建输入层,指定输入的形状
common = layers.Dense(num_hidden, activation="relu")(inputs) # 创建一个全连接层,包含num_hidden 个神经元,使用 ReLU 作为激活函数
action = layers.Dense(num_actions, activation="softmax")(common) # 创建一个全连接层,包含 num_actions 个神经元,使用 softmax 作为激活函数
critic = layers.Dense(1)(common) # 创建一个全连接层,包含1个神经元model = keras.Model(inputs=inputs, outputs=[action, critic]) # 创建一个 Keras 模型,包含输入层、共享的隐藏层和两个输出层

训练前的样子

import imageio
start = env.reset() 
frames = []
for t in range(max_steps_per_episode):frames.append(env.render(mode='rgb_array'))start = start.reshape(1, -1)start, reward, done, _ = env.step(np.random.choice(num_actions, p=np.squeeze(action_probs)))if done:breakwith imageio.get_writer('未训练前的样子.gif', mode='I') as writer:for frame in frames:writer.append_data(frame)

模型训练

设置训练所需要的优化器,以及各种参数来记录每个时间步上的数据。

optimizer = keras.optimizers.Adam(learning_rate=0.01) # 创建 Adam 优化器实例,设置学习率为 0.01
huber_loss = keras.losses.Huber() # 创建损失函数实例
action_probs_history = [] # 创建一个列表,用于保存 action 网络在每个步骤中采取各个行动的概率
critic_value_history = [] # 创建一个列表,用于保存 critic 网络在每个步骤中对应的值
rewards_history = [] # 创建一个列表,用于保存每个步骤的奖励值
running_reward = 0 # 初始化运行过程中的每轮奖励
episode_count = 0 # 初始化 episode 计数器

一直训练下去,直到满足奖励大于 195 才会停下训练过程。

while True:  state = env.reset()  # 新一轮游戏开始,重置环境episode_reward = 0  # 记录本轮游戏的总奖励值with tf.GradientTape() as tape:  # 构建 GradientTape 用于计算梯度for timestep in range(1, max_steps_per_episode): # 本轮游戏如果一切正常会进行 max_steps_per_episode 步state = tf.convert_to_tensor(state)  # 将状态转换为张量state = tf.expand_dims(state, 0)  # 扩展维度,以适应模型的输入形状action_probs, critic_value = model(state)  # 前向传播,得到 action 网络输出的动作空间的概率分布,和 critic 网络预测的奖励值critic_value_history.append(critic_value[0, 0])  # 将上面 critic 预测的奖励值记录在 critic_value_history 列表中action = np.random.choice(num_actions, p=np.squeeze(action_probs))  # 依据概率分布抽样某个动作,当然了某个动作概率越大越容易被抽中,同时也保留了一定的随机性action_probs_history.append(tf.math.log(action_probs[0, action]))  # 将使用该动作的对数概率值记录在 action_probs_history 列表中state, reward, done, _ = env.step(action)  # 游戏环境使用选中的动作去执行,得到下一个游戏状态、奖励、是否终止和其他信息rewards_history.append(reward)  # 将该时刻的奖励记录在 rewards_history 列表中episode_reward += reward  # 累加本轮游戏的总奖励值if done:  # 如果到达终止状态,则结束循环breakrunning_reward = 0.05 * episode_reward + (1 - 0.05) * running_reward  # 计算平均奖励returns = []  # 存储折扣回报discounted_sum = 0for r in rewards_history[::-1]:  # 从后往前遍历奖励的历史值discounted_sum = r + gamma * discounted_sum  # 计算折扣回报returns.insert(0, discounted_sum)  # 将折扣回报插入列表的开头,最后形成的还是从前往后的折扣奖励列表returns = np.array(returns)  # 将折扣回报转换为数组returns = (returns - np.mean(returns)) / (np.std(returns) + eps)  # 归一化折扣回报returns = returns.tolist()  # 将折扣回报转换为列表形式history = zip(action_probs_history, critic_value_history, returns)  # 将三个列表进行 zip 压缩actor_losses = []  # 存储 action 网络的损失critic_losses = []  # 存储 critic 网络的损失for log_prob, value, ret in history:diff = ret - valueactor_losses.append(-log_prob * diff)  # 计算 actor 的损失函数critic_losses.append(huber_loss(tf.expand_dims(value, 0), tf.expand_dims(ret, 0)) # 计算 critic 的损失函数)loss_value = sum(actor_losses) + sum(critic_losses) # 计算总损失函数grads = tape.gradient(loss_value, model.trainable_variables) # 计算梯度optimizer.apply_gradients(zip(grads, model.trainable_variables)) # 更新模型参数action_probs_history.clear() # 清空之前的历史记录critic_value_history.clear() # 清空之前的历史记录rewards_history.clear() # 清空之前的历史记录episode_count += 1 # 当一轮游戏结束时, episode 加一if episode_count % 10 == 0: # 每训练 10 个 episode ,输出当前的平均奖励template = "在第 {} 轮游戏中获得奖励: {:.2f} 分"print(template.format(episode_count, running_reward))if running_reward > 195:  # 如果平均奖励超过195,视为任务已经解决print("奖励超过 195 ,训练结束")break

打印:

在第 10 轮游戏中获得奖励: 11.17 分
在第 20 轮游戏中获得奖励: 17.12 分
...
在第 170 轮游戏中获得奖励: 155.02 分
在第 180 轮游戏中获得奖励: 171.67 分
...
在第 220 轮游戏中获得奖励: 193.74 分
奖励超过 195 ,训练结束

训练后的样子

import imageio
start = env.reset() 
frames = []
for t in range(max_steps_per_episode):frames.append(env.render(mode='rgb_array'))start = start.reshape(1, -1)action_probs, _ = model(start)action = np.random.choice(num_actions, p=np.squeeze(action_probs))start, reward, done, _ = env.step(action)if done:breakwith imageio.get_writer('训练后的样子.gif', mode='I') as writer:for frame in frames:writer.append_data(frame)

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.2.1 什么是Prompt
    • L2.2.2 Prompt框架应用现状
    • L2.2.3 基于GPTAS的Prompt框架
    • L2.2.4 Prompt框架与Thought
    • L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
    • L2.3.1 流水线工程的概念
    • L2.3.2 流水线工程的优点
    • L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
    • L3.1.1 Agent模型框架的设计理念
    • L3.1.2 Agent模型框架的核心组件
    • L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
    • L3.2.1 MetaGPT的基本概念
    • L3.2.2 MetaGPT的工作原理
    • L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
    • L3.3.1 ChatGLM的特点
    • L3.3.2 ChatGLM的开发环境
    • L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
    • L3.4.1 LLAMA的特点
    • L3.4.2 LLAMA的开发环境
    • L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/26037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C#自定义类的属性名并且通过反射获取属性名

一般情况下我们的返回实体都为英文命名,某些时候我们想自定义返回的属性名称。在C#中,不能直接通过内置的反射API来获取属性的“自定义名字”,因为属性本身在元数据中并没有这样的概念。但是,可以使用自定义属性(Attri…

qt Json操作

说明 该例子说明了字符串转Json对象&#xff0c;再从Json对象转字符串 代码 #include <QCoreApplication> #include <QTextCodec> #include <iostream> #include <QDebug> #include <QJsonDocument> #include <QJsonObject>using names…

安装torch报cannot uninstall TBB,its a distutils installed project

pycahrm的设置-解释器安装torch&#xff0c;去anaconda文件夹的Lib下site-packages里找&#xff0c;TBB名称的egg.info的文件删掉即可&#xff0c;然后再次安装torch成功

SQLynx荣登Web SQL工具榜首,中国软件快速崛起

近年来&#xff0c;随着互联网技术的迅猛发展&#xff0c;数据库管理工具也在不断进步和创新。 作为一种便捷且高效的数据库管理方式&#xff0c;Web SQL IDE工具逐渐成为开发者和数据库管理员的首选。在众多Web SQL工具中&#xff0c;SQLynx凭借其卓越的功能和用户体验&#x…

随便写写之——CSDN个人主页布局

最近一直在看题&#xff0c;真的好无聊&#xff0c;晚上睡觉前脑子里想的都是JS&#xff0c;不会是焦虑症犯了吧&#xff0c;赶紧写点东西&#xff0c;现在是上午9点38分&#xff0c;想着写个csdn的布局练练手吧。 现在是11点半&#xff0c;写个将近两个小时就写了那么点&#…

web前端教育机构:深度剖析与选择指南

web前端教育机构&#xff1a;深度剖析与选择指南 在数字化时代&#xff0c;web前端技术已成为互联网行业的核心驱动力。为了培养更多优秀的前端开发者&#xff0c;web前端教育机构如雨后春笋般涌现。然而&#xff0c;面对众多的教育机构&#xff0c;如何选择一家适合自己的机构…

如何有效处理服务器后台密码暴露

服务器后台密码的暴露是信息安全领域中的严重事件&#xff0c;它可能引发未经授权的数据访问、恶意软件植入或系统功能滥用等一系列问题。本文将探讨几种处理服务器后台密码暴露的有效策略&#xff0c;包括紧急响应步骤、密码安全增强措施及长期预防机制&#xff0c;并提供实际…

开关电源RCD吸收电路解析与设计

开关电源RCD吸收电路解析与设计 引言 在电源设计中,RCD电路以其出色的能量吸收能力,有效降低电阻损耗,从而被广泛应用。然而,对于新手来说,理解和掌握开关电源中的RCD吸收电路可能是一个挑战。本文旨在深入剖析RCD吸收电路的设计原理和步骤,帮助读者更好地理解和应用这…

Oracle考证对我们有什么帮助?

提升专业技能&#xff1a; Oracle认证考试要求考生掌握Oracle数据库管理的核心知识和技能&#xff0c;通过学习和考试&#xff0c;考生能够系统地掌握Oracle数据库的管理、优化、备份恢复等关键技术&#xff0c;从而显著提升个人在Oracle数据库领域的专业技能。增强职业竞争力&…

流媒体传输基本原理-RTSP

一、相关的基本概念 媒体&#xff1a;信息的载体 多媒体&#xff1a;多种媒体的组合体。 传媒&#xff1a;全称是“传播媒体”&#xff0c;媒体概念中偏重于传播方面的技术组织体系行业。 流媒体&#xff1a;流式地传输媒体&#xff0c;是传播媒体的一种技术&#xff0c;将媒体…

硬件开发笔记(十七):RK3568底板电路串口、485、usb原理图详解

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/139589308 红胖子网络科技博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

ROS IMU航向锁定(Python实现)

ROS IMU航向锁定&#xff08;Python实现&#xff09; 实现思路 让大管家rospy发布速度控制话题/cmd_vel设定一个目标朝向角&#xff0c;当姿态信息中的朝向角和目标朝向角不一致时&#xff0c;控制机器人转向目标朝向角 代码示例 要使用Python实现IMU航向锁定的功能&#x…

爬虫案例:建设库JS逆向

爬虫流程 1. 确定目标网址和所需内容 https://www.jiansheku.com/search/enterprise/ 只是个学习案例&#xff0c;所以目标就有我自己来选择&#xff0c;企业名称&#xff0c;法定代表人&#xff0c;注册资本&#xff0c;成立日期 2. 对目标网站&#xff0c;进行分析 动态…

认识Spring 中的BeanPostProcessor

关于BeanPostProcessor和BeanFactoryPostProcessors&#xff0c;将分2篇文章来写&#xff0c;这篇文章是对Spring 中BeanPostProcessor进行了总结 先看下大模型对这个类的介绍&#xff0c;随后再看下这两个类的示例&#xff0c;最后看下这两个类的实现。 这两个类从名字看都很类…

btstack协议栈实战篇--GATT Client - Discover Primary Services

btstack协议栈---总目录-CSDN博客 这个示例展示了如何使用 GATT 客户端 API 来发现第一个其服务的已发现设备的主要服务及其特征。 在 HCI 和 GATT 客户端数据包处理器之间划分逻辑处理。HCI 数据包处理器负责找到远程设备、连接到它,并启动第一个 GATT 客户端…

HTML静态网页成品作业(HTML+CSS)—— 兰蔻化妆品网页(1个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有1个页面。 二、作品演示 三、代…

vue阶段复习基础知识以及简单的按钮绑定相关的知识!

vue阶段复习 理论练习 请简述Vue、Node.js、Vscode是什么&#xff0c;以及有什么关系 1.vue是一个轻量级、比较灵活的且支持组件开发的网络框架 2.node.js是让JavaScript运行在服务器上的一种环境 3.Vscode是一款有着丰富插件的代码编辑器 4.vscode就如同画布&#xff0c;node…

排查Spring条件注解未能生效的常见原因

在撰写关于排查Spring条件注解未能生效的文章时&#xff0c;可以按照以下结构进行组织&#xff1a; 标题&#xff1a; 解决Spring条件注解不生效的问题&#xff1a;常见原因与解决方案 引言&#xff1a; 简要介绍Spring条件注解&#xff08;如Conditional&#xff09;的用途&…

网卡聚合链路配置

创建名为mybond0的绑定&#xff0c;使用示例如下&#xff1a; # nmcli con add type bond con-name mybond0 ifname mybond0 mode active-backup添加从属接口&#xff0c;使用示例如下&#xff1a; # nmcli con add type bond-slave ifname enp3s0 master mybond0要添加其他从…

反射...

一、反射的定义 二、获取Class对象三种方式 全类名&#xff1a;包名类名。 public class test {public static void main(String [] args) throws ClassNotFoundException {//第一种方式Class class1Class.forName("test02.Student");//第二种方法Class class2Stud…