强化学习(一)简介

在这里插入图片描述

强化学习这一概念在历史上来源于行为心理学,来描述生物为了趋利避害而改变自己行为的学习过程。人类学习的过程其实就是为达到某种目的不断地与环境进行互动试错,比如婴儿学习走路。强化学习算法探索了一种从交互中学习的计算方法。

1、强化学习

强化学习算法的逻辑是,如何将接收的信息映射到行为从而获得最多的奖励。学习者只能通过不断尝试来发现哪些行为会产生最多的奖励,注意:当前的行为不仅会影响当前,还会影响未来,因此会影响所有随后的奖励。因此强化学习有两个重要的特征:试错搜索延迟奖励

强化学习不同于监督学习。监督学习是指从标记的训练数据来推断一个功能,当出现训练集中没有的情况时可以正常地行动。强化学习不同于无监督学习。无监督学习是在未标记的数据集中寻找隐藏的结构。强化学习是试图最大化奖励信号,因此,可以认为其是第三种机器学习范式。在所有形式的机器学习中,强化学习是最接近人类的学习方式。

2、典型案例

  • 象棋博弈中所谓的 “走一步,看十步”、“棋输一着,满盘皆输” 。
  • 小羚羊在出生半个小时后就可以奔跑。
  • 扫地机器人根据电池电量和过去返回充电点的经历来决定是继续收集垃圾还是返回充电点。

这些案例都涉及决策主体与其环境的互动,通过预测未来环境的状态,来正确地选择有远见的行动。另外,这些案例都涉及明确的目标,棋手知道自己是否赢了,小羚羊知道自己什么时候摔倒,扫地机器人知道电池电量什么时候耗尽。随着时间的推移,决策主体可以根据其经验来提高其相应的能力。

3、强化学习的要素

除了智能体(Agent)外,强化学习系统包括四个要素:策略(Policy),奖励(Reward),价值(Value)以及环境模型(Model)。

  • 策略(Policy)
    策略定义了智能体对于给定状态所作出的行为,换句话说,就是一个从环境中感知的状态到采取行动的映射。策略是强化学习系统的核心,因为可以通过策略来确定每个状态下的行为。

  • 奖励(Reward)
    奖励定义了强化学习问题的目标,在每个步长中,环境向智能体发送的标量即为奖励,智能体的唯一目标就是在长期运行中最大化所获得的总奖励,因此它能定义智能体表现的好坏,也可以认为奖励是影响策略的主要因素。

  • 价值(Value)
    奖励是对即时收益的衡量,而价值是对长期收益的衡量。简单来说,一个状态的价值是智能体从该状态开始,未来积累的奖励总量的期望值。例如,一种状态总是产生很低的即时奖励,却具有较高的价值,因为该状态的未来会伴随产生具有较高即时奖励的其他状态。这类似于,备考的过程很痛苦(较低的奖励),但考试会取得好的成绩(较高的价值)。
    没有奖励就没有价值,评估价值的唯一目的是为了获得更多的奖励,但是,当我们评估策略的好坏时,我们最关心的是价值,我们寻求能带来最高价值而不是最高的奖励的动作,因为从长远来看,这种动作可以带来最大化的奖励总和。不幸的是,奖励基本上是由环境直接给予的,而价值必须根据智能体在整个周期中的表现进行估计。事实上,几乎所有强化学习算法的最重要的组成部分就是有效估计价值的方法。

  • 环境模型(Model of the environment)
    环境模型是一种对环境的模拟,或者说,它允许对环境的行为进行推断。例如,给定一个状态和动作,模型可能会预测下一个状态和下一个奖励。但并非所有的强化学习系统都需要一个模型,因此有基于模型(Model-based)和不基于模型(Model-free)两种不同的方法,

4、限制和范围

强化学习在很大程度上依赖状态,因为状态作为策略和价值函数的输入,同时也作为环境模型的输入,它向智能体转达 “环境如何” 的感觉,状态可以视为智能体可以获得的关于环境的任何信息。

大多数强化学习方法都是围绕价值函数构建的,但是解决强化学习问题并不一定要这样做,例如遗传算法、遗传规划、模拟退火等求解方法和其他优化方法从不估计价值函数,我们称这些方法为进化方法,如果策略的空间足够小,或者说构造成好的策略比较容易找到,并且有足够的时间用于搜索,那么进化方法是有效的。此外,当智能体无法感知环境的完整状态时,进化方法具有优势。

强化学习方法可以在与环境互动的同时学习,这是进化方法不能做到的。在许多情况下,能够利用个体行为相互作用细节的方法可能比进化方法更有效。进化方法忽略了强化学习问题的许多有用的结构:① 它们所搜索的策略是从状态到动作的函数;② 它们不会注意个体在其生命周期经历了哪些状态,或采取了哪些动作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/619581.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kylin3集群问题和思考(单机转集群)

目录 单机改集群注意事项 问题 思考 建议 单机改集群注意事项 之前是使用的单机版,但后面查询压力过大,一个方案是改成集群。 由于是同一个集群的,元数据没有变化,所以,直接将原本的kylin使用scp的方式发送到其他节…

【重学C语言】二、前期准备和第一个C程序

【重学C语言】二、前期准备和第一个C程序 1. VS 项目1.1 创建项目 2. Clion 项目(本博主主用)2.1 创建项目2.2 Clion 配置 3. 构建类型4. 构建模式5. 注释6. 第一个 C 程序7. 程序闪退8. 新手遇到的问题 1. VS 项目 1.1 创建项目 打开 VS 创建新项目 创建 main.c 书写以下…

【LabVIEW FPGA入门】模拟输入和模拟输出

1.简单模拟输入和输出测试 1.打开项目,在FPGA终端下面新建一个VI 2.本示例以模拟输入卡和模拟输出卡同时举例。 3.新建一个VI编写程序,同时将卡1的输出连接到卡2的输入使用物理连线。 4.编译并运行程序,观察是否能从通道中采集和输出信号。 5…

【LeetCode】19. 删除链表的倒数第 N 个结点(中等)——代码随想录算法训练营Day04

题目链接:19. 删除链表的倒数第 N 个结点 题目描述 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例 1: 输入:head [1,2,3,4,5], n 2 输出:[1,2,3,5] 示例 2: 输入&a…

行为型设计模式——迭代器模式

迭代器模式 迭代器模式也是非常的简单&#xff0c;定义如下&#xff1a; 提供一个对象来顺序访问聚合对象中的一系列数据&#xff0c;而不暴露聚合对象的内部表示。 相信大家都使用过类似下面的迭代器&#xff1a; List<String> list new ArrayList<>(); Iterat…

通过shell脚本确定当前平台

shell中的变量OSTYPE存储操作系统的名称&#xff0c;也可以使用uname命令来确认当前所在的平台。 shell中的变量HOSTTYPE存储操作系统的架构。 测试代码如下所示&#xff1a; #! /bin/bashecho "use OSTYPE:" if [[ "$OSTYPE" "linux-gnu&quo…

【自译】【精华】MIT麻省理工学院技术双月刊(The Bimonthly MIT Technology Review)2024年1~2月【创新版块概览(一)】

导读&#xff1a; 今年是 《MIT技术评论杂志》 创刊125周年纪念年&#xff08;该杂志自1899年创刊&#xff09;&#xff0c;笔者将2024开年第1期&#xff08;1月~2月号&#xff09;的创新版块&#xff08;Innovation Issue&#xff09;中的重要内容进行梳理&#xff0c;获得近年…

三维地下管线建模工具MagicPipe3D V3.3发布

经纬管网建模系统MagicPipe3D V3.3 持续更新&#xff0c;欢迎下载试用&#xff1a;http://www.magic3d.net 1、发布MagicPipe3D宣传操作视频, 2、发布MagicPipe3D数据规格说明, 3、更新使用手册到3.3.0版本, 4、增加支持属性字段中文, 5、增加支持附属物方…

某厂校招一道关于C的笔试题

一、笔试原题 题目&#xff1a;在Linux x86 _ 54 gcc环境下&#xff0c;下面的程序会出现什么问题&#xff1f;运行结果是什么&#xff1f;为什么&#xff1f; 程序如下图&#xff1a; 通过在gcc的环境下编译运行&#xff0c;发现运行结果为不断死循环打印0-17的数字 我们…

44 ext4 文件系统

前言 在 linux 中常见的文件系统 有很多, 如下 基于磁盘的文件系统, ext2, ext3, ext4, xfs, btrfs, jfs, ntfs 内存文件系统, procfs, sysfs, tmpfs, squashfs, debugfs 闪存文件系统, ubifs, jffs2, yaffs 文件系统这一套体系在 linux 有一层 vfs 抽象, 用户程序不用…

统一网关 Gateway【微服务】

文章目录 1. 前言2. 搭建网关服务3. 路由断言工厂4. 路由过滤器4.1 普通过滤器4.2 全局过滤器4.3 过滤器执行顺序 5. 跨域问题处理 1. 前言 通过前面的学习我们知道&#xff0c;通过 Feign 就可以向指定的微服务发起 http 请求&#xff0c;完成远程调用。但是这里有一个问题&am…

QToolBar、QStatusBar和QDockWidget的使用

1. 工具栏 QToolBar 1.1 创建工具栏 1.1.1 工具栏的基本函数 设置工具栏的停靠区域 参数 Qt::LeftToolBarArea //左边 Qt::RightToolBarArea //右边 Qt::TopToolBarArea //顶部 Qt::BottomToolBarArea //底部 Qt::AllToolBarAreas //所有区域 Qt::NoToolBarArea //没有QMa…

用C#实现简单的线性回归

前言 最近注意到了NumSharp&#xff0c;想学习一下&#xff0c;最好的学习方式就是去实践&#xff0c;因此从github上找了一个用python实现的简单线性回归代码&#xff0c;然后基于NumSharp用C#进行了改写。 NumSharp简介 NumSharp&#xff08;NumPy for C#&#xff09;是一…

js动态设置关键侦@keyframes

js动态设置关键侦keyframes 1.前置知识 关键侦keyframes规则通过在动画序列中定义关键侦的样式来控制CSS动画序列的中间步骤 keyframes slidein {from {transform: translateX(0%);}to {transform: translateX(100%);} } // from 等价于 0%&#xff1b;to 等价与 100% // 或…

[UI5] ODATA V4中的CRUD

文章目录 前言一、Read二、Create三、Update四、Delete 前言 ODATA V4在CRUD方面与V2截然不同。 这篇文章简单介绍V4中是如何进行CRUD操作 一、Read Model不再有read方法&#xff0c; 一般是把Path绑定到View中进行读取&#xff0c; 如果需要额外的读取数据&#xff0c;可使用…

mysql进阶 - 存储过程

目录 1. 用途&#xff1a; 2. 相关语法 2.1 创建 2.1.1 语法 2.1.2 示例 2.2 查看存储过程 2.3 调用 2.4 修改存储过程 2.5 删除存储过程 1. 用途&#xff1a; 存储过程广泛存在于一些遗留系统&#xff0c;可以减少代码的编写。而近些年&#xff0c;存储过程很少再用…

UML-类图和类图转化为代码

提示&#xff1a;文章详细的讲解了类图的四种关系&#xff0c;以及每种关系如何转化为对应的代码。 UML-类图和类图转化为代码 一、类于类之间的关系1.依赖关系2.关联关系(1) 单向关联(2) 双向关联(3) 自关联(4) 聚合关联(has-a)(5) 组合关联&#xff08;contains-a&#xff09…

Servlet-Request

一、预览 在上一篇Servlet体系结构中&#xff0c;我们初步了解了怎么快速本篇将介绍Servlet中请求Request的相关内容&#xff0c;包括Request的体系结构&#xff0c;Request常用API。 二、Request体系结构 我们注意到我们定义的Servlet类若实现Servlet接口时&#xff0c;请求…

企业网站建设中常用的英文翻译

下面好代码网在长期的网站建设业务中总结的&#xff0c;一些在企业网站建设中词语的常用翻译&#xff0c;可以让你的企业网站更具有专业性。如果你做中英文双语版本网站或者外贸网站的请收藏备用。 网站导航 site map 公司简介 PROFILE or COMPANY Profile or Company 综述 Gen…

学习Qt笔记

前言&#xff1a; 学习笔记的内容来自B站up主阿西拜编程 《Qt6 C开发指南 》2023&#xff08;上册&#xff0c;完整版&#xff09;_哔哩哔哩_bilibili《Qt6 C开发指南 》2023&#xff08;上册&#xff0c;完整版&#xff09;共计84条视频&#xff0c;包括&#xff1a;00书籍介…