【项目案例】基于强化学习Q-Learning训练“汉诺塔Tower of Hanoi”游戏策略

文章目录

  • 1. 引言
  • 2. 基本要素定义
  • 3. 训练过程
    • 3.1 初始化动作价值函数
    • 3.2 采集完整状态序列
    • 3.3 更新动作估计价值
  • 4. 策略检验


1. 引言

汉诺塔游戏(Tower of Hanoi)是根据一个传说形成的数学问题,小规模汉诺塔问题也常常作为强化学习的入门案例。它的规则是,在游戏台上,有若干根杆子,在第一根杆子上有若干 N ≥ 1 N\geq 1 N1 个穿孔圆盘,圆盘的尺寸由下到上依次变小,需要按如下规则将第一根杆子上的圆盘转移到另一根杆子上:

  1. 每次只能移动一个圆盘;
  2. 在移动圆盘过程中,始终不能将大圆盘叠在较小圆盘的上面。

需要求出一个移动次数最少的方案。

为了方便演示,本文案例中,游戏台只有 N _ p o l e = 3 N\_pole=3 N_pole=3 根杆子,以及总共只有 N = 3 N=3 N=3 个圆盘,分别为大圆盘 L L L,中圆盘 M M M,小圆盘 S S S,根据转移规则可知, 3 3 3 个圆盘在游戏台上的摆放组合一共有 27 27 27 种,从大到小依次选择位置 3 N 3^N 3N,底数 3 3 3 是游戏台上的杆子数 N_pole,指数 3 3 3 是游戏台上的圆盘数 N。当移动后的圆盘布局达到目标状态,则游戏结束。

尽管有数学家得到汉诺塔游戏的最短移动次数计算公式,但是这里我们还是用强化学习进行训练,且对于小规模问题而言,我们能够遍历所有的圆盘布局状态,因此可以在任意的圆盘起始状态,都移动到目标状态。

2. 基本要素定义

与前文《【项目案例】利用强化学习训练“井字棋”下棋策略的详细介绍》类似的是,训练汉诺塔游戏需要对各个状态进行定义,以及通过模拟采样的方式生成完整的状态序列,并不断地迭代更新动作价值函数 Q Q Q,最后更加训练好的 Q Q Q 值表进行动作选择。由于Q-Learning是强化学习的基础值迭代算法,因此在后续内容并不会强调该算法的名称,为的是方便入门读者能更加关注强化学习的逻辑本身。

但仍有一些区别,例如,在井字棋游戏当中,每一轮动作都会使棋盘新增一个棋子,且每个棋盘有唯一的哈希值对应,因此在一个完整的状态序列中,不会出现有重复的状态;但在汉诺塔游戏当中,将某个圆盘从一个杠子上转移到另一个杠子上,接着再将圆盘转移回原来的杠子,这种做法符合游戏规则,使得在状态序列中,出现了多次相同的状态,为了惩罚这种行为,以保证训练的策略不会走“回头路”,需要将每个可以直接相连的状态的动作的即时奖励设为负数,这种显示即时奖励的问题可以通过求解最优动作价值函数来得到最优策略。

将汉诺塔游戏的状态定义为 State 类,每个状态对象都满足汉诺塔的游戏规则,因此对于本文的小规模案例而言,从大圆盘到小圆盘依次堆叠,可以得到 27 27 27 种状态。这里对状态值的表示用三元列表进行表示,例如 [ 1 , 0 , 0 ] [1, 0, 0] [1,0,0],依次表示 L L L 圆盘在 1 1 1 号杠子, M M M S S S 圆盘在 0 0 0 号杠子,这里的直接信息表示圆盘的分配,而同一根杠子上的多个圆盘的顺序,按照游戏规则只能按序排列。因此,判断一个状态是否能移动到另一个状态,需要判断移动的圆盘是否能取出(没有更小的同轴圆盘在顶上),以及是否能放得下(没有更小的同轴圆盘在底下)。这里定义圆盘的名称为 symbol_name = ["L", "M", "S"],对应的值为圆盘在 symbol_name 当中的索引值,即为为 0 ,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/1011.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LAMMPS学习】八、基础知识(3.5)计算弹性常数

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语,以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

【云计算】云数据中心网络(三):NAT 网关

《云网络》系列,共包含以下文章: 云网络是未来的网络基础设施云网络产品体系概述云数据中心网络(一):VPC云数据中心网络(二):弹性公网 IP云数据中心网络(三)…

【C语言】每日一题,快速提升(8)!

🔥博客主页🔥:【 坊钰_CSDN博客 】 欢迎各位点赞👍评论✍收藏⭐ 题目:金字塔图案 输入: 4输出: * * * * * * * * * * 代码: //对于有行有列的图形采用双循环,i控制行…

C# 面向对象编程(二)——继承

总目录 C# 语法总目录 C# 面向对象编程 二——继承 简介正文继承** 向上向下转型 **as 运算符is 运算符 1. 虚函数和抽象函数 及抽象类2. 隐藏父类成员3.密封函数** base关键字 **4. 构造器继承** 重载与重写 ** 简介 主要记录的是继承的相关注意事项 正文 继承 继承只能继承…

线性投影的意义

线性投影是机器学习和数学中的一个概念,它指的是通过线性变换将数据从一个空间映射到另一个空间的过程。在机器学习中,线性投影通常用于数据降维、特征提取或数据可视化。 数据降维:在处理高维数据时,线性投影可以用来减少数据的维…

[管理者与领导者-177] :人际网络-4-坐车的礼仪

目录 一、坐私车的基本礼仪 二、跟领导乘车,你坐对了吗?要注意什么? 2.1 乘车座次礼仪规则: 2.2 双排5座汽车礼仪的应用 2.2.1 司机驾车 2.2.2 领导驾车 2.3 三排7座商务车 一、坐私车的基本礼仪 坐私人车辆时&#xff0c…

sklearn 笔记: preprocessing.OrdinalEncoder

sklearn.preprocessing.OrdinalEncoder 是一个用于将分类特征编码为整数数组的预处理转换器编码方式:将分类特征(如字符串或整数表示的离散特征)转换成序数整数形式。这样每个特征都被编码为一个整数序列,范围从 0 到该特征的类别…

Windows如何安装JDK

JDK和JRE简介 JDK:Java Development ToolKit java开发工具包,包含JRE针对java程序开发者 JRE:Java Runtime Environment java程序的运行环境针对java使用者来说 下载JDK,进入官网下载 Oracle官网 双击下载好之后的exe文件&#…

我为什么想成为一名程序员

#为什么你选择成为一名程序员# 目录 原因: 后续选择: 结尾: 原因: 本人是一个00后,出生在农村当时经济相对来说比较落后,村里面基本上都没几个人有手机。当时有些小伙伴他们拿着自己大人的手机在那里玩…

科普馆VR技术展现安全场景,构建安全教育新标杆!

随着VR技术的快速发展,其所衍生出的互动装置,悄无声息地渗透进了我们生活的每个角落,就连那严谨而重要的安全教育领域,也没能逃出这神奇魔法的“魔爪”,这种VR互动设备简直就是安全知识传递的小能手,那么&a…

MinIO自定义权限控制浅研

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 MinIO搭建好之后,出于不同场景的需要,有时候需要对不同的用户和Bucket做一些针对性的权限控制。 MinIO的…

530.二叉搜索树的最小绝对差

给你一个二叉搜索树的根节点 root &#xff0c;返回 树中任意两不同节点值之间的最小差值 。 差值是一个正数&#xff0c;其数值等于两值之差的绝对值。 方法一&#xff1a;中序遍历 public int getMinimumDifference(TreeNode root){Deque<TreeNode> stack new Link…

Selenium(三):WebElement核心属性和方法

WebElement常用属性 1.id 标示 2.size 宽高 3.rect 宽高和坐标 4.tag_name 标签名称 5.text 文本内容 WebElement常用方法 1.send_keys() 输入内容 2.clear() 清空内容 3.click() 点击 4.get_attribute() 标签名称 5.is_selected() 是否被选中 5.is_enabled() 是否…

PCDN与边缘计算的集成解决方案

PCDN与边缘计算的集成解决方案 在数字化时代&#xff0c;内容的快速、安全地传递至用户变得至关重要。无论是媒体、教育还是其他领域&#xff0c;所有这些行业都需要强大的技术支持以保证信息的实时更新和安全传输。PCDN&#xff08;Peer Content Delivery Network&#xff0c…

实在RPA设计器试用导引

一、产品概述 实在RPA设计器是一款将人工智能(AI)与机器人流程自动化(RPA)深度融合的可视化自动流程编辑器。它通过AI推荐与桌面嵌入式交互&#xff0c;极大简化了RPA的使用难度&#xff0c;让普通业务人员也能轻松使用。实在RPA设计器具备以下核心优势&#xff1a; 兼容性&a…

Mac 安装comfigUI (M1)

注&#xff1a;系统要升到最新的 &#xff08;Xcode 13.3.1 or later&#xff09; Requirements Mac computers with Apple silicon or AMD GPUsmacOS 12.3 or laterPython 3.7 or laterXcode command-line tools: xcode-select --install 安装 pytorch 查看这个内容安装 h…

如何在Windows 10锁定时启用内置管理员?这里提供详细步骤

序言 当被锁定在Windows 10计算机之外时,如何启用内置管理员?正如我们所知,一旦启用了内置管理员,我们所有人都可以将其用作另一个本地管理员帐户来登录锁定的计算机。 当然,即使当你被锁定在Windows 10计算机之外时,你也可以启用内置管理员。你需要的只是Windows 10系…

TVBox的Json配置接口编写指南,模板格式说明(如何打造一个专属于自己的TVBox配置文件)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 配置解析 📒📝 JSON基础📝 配置文件结构/参数说明📝 编写步骤📝 注意事项🎈 接口分享⚓️ 相关链接 ⚓️📖 介绍 📖 TVBox 是一款备受欢迎的电视盒子应用(免费影视必备),它以其高度自定义的特性深受用户喜爱…

盗梦攻击:虚拟现实系统中的沉浸式劫持

虚拟现实&#xff08;VR&#xff09;硬件和软件的最新进展将改变我们与世界和彼此互动的方式&#xff0c;VR头显有可能为用户提供几乎与现实无差别的深度沉浸式体验。它们还可以作为一种跨越遥远距离的方式&#xff0c;通过使用个性化的化身或我们的数字代表&#xff0c;促进社…

从 Elastic 的 Go APM 代理迁移到 OpenTelemetry Go SDK

作者&#xff1a;来自 Elastic Damien Mathieu 正如我们之前所分享的&#xff0c;Elastic 致力于帮助 OpenTelemetry&#xff08;OTel&#xff09;取得成功&#xff0c;这意味着在某些情况下构建语言 SDK 的分发版本。 Elastic 在观察性和安全数据收集方面战略性地选择了 OTel…