踏过强化学习的每一步推导

给定 l = [ a n , . . . , a 0 ] l=[a_n, ..., a_0] l=[an,...,a0],现在

for idx in range(len(l)-2, -1, -1):l[idx] += l[idx+1] * ld

注:这里的ld就是 λ \lambda λ,定义 λ 0 = 1 \lambda^0=1 λ0=1
证明变换后:
l = [ ∑ i = 0 n λ i a n − i , ⋯ , a 0 ] l=[\sum_{i=0}^n \lambda^i a_{n-i}, \cdots, a_0] l=[i=0nλiani,,a0]

**证:**使用数学归纳法
现在从后往前看,最后一个位置 a 0 a_0 a0显然成立
然后看倒数第2个位置,变换前是 a 1 a_1 a1,变换后是 a 1 + λ a 0 a_1+\lambda a_0 a1+λa0,也成立

下面假设在第j个(从右往左数,j从0开始计数)位置处,有
a j a_j aj
变换后
λ 0 a j + λ 1 a j − 1 + ⋯ λ j a 0 \lambda^0 a_j+\lambda^1 a_{j-1}+\cdots \lambda^j a_0 λ0aj+λ1aj1+λja0

下面考虑第j+1处
已知变换前,该处是 a j + 1 a_{j+1} aj+1
根据代码,变换后就是
a j + 1 + λ ( λ 0 a j + λ 1 a j − 1 + ⋯ λ j a 0 ) a_{j+1}+\lambda (\lambda^0 a_j+\lambda^1 a_{j-1}+\cdots \lambda^j a_0) aj+1+λ(λ0aj+λ1aj1+λja0)

λ 0 a j + 1 + λ 1 ( λ 0 a j + λ 1 a j − 1 + ⋯ λ j a 0 ) \lambda^0 a_{j+1}+\lambda^1 (\lambda^0 a_j+\lambda^1 a_{j-1}+\cdots \lambda^j a_0) λ0aj+1+λ1(λ0aj+λ1aj1+λja0)

λ 0 a j + 1 + λ 1 a j + λ 2 a j − 1 + ⋯ λ j + 1 a 0 \lambda^0 a_{j+1}+\lambda^1 a_j+\lambda^2 a_{j-1}+\cdots \lambda^{j+1} a_0 λ0aj+1+λ1aj+λ2aj1+λj+1a0

∑ i = 0 j + 1 λ i a j + 1 − i \sum_{i=0}^{j+1}\lambda^{i} a_{j+1-i} i=0j+1λiaj+1i
由于在第 j j j处成立推得在第 j + 1 j+1 j+1处成立,而 l l l长度有限,因此该规律在 l l l的每一个分量成立。QED。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/74072.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI小白的第七天:必要的数学知识(概率)

概率 Probability 1. 概率的定义 概率是一个介于 0 和 1 之间的数,表示某个事件发生的可能性: 0:事件不可能发生。1:事件必然发生。0 到 1 之间:事件发生的可能性大小。 例如,掷一枚公平的硬币&#xf…

UE5 + Rider + VsCode 接入腾讯的 Puerts 脚本

学习了一段时间 U,写点啥就得等编译,体验真的是一言难尽。。。。。。 然后就想着给自己找个脚本好了,调研了一下 AngelScript,puerts 的可行性。 AngelScript 看着真的诱人,但是发现连官方提供的都是 UE 的预编译版本…

凸包构造算法—Graham 扫描法

1. 理论原理推导 核心思想 Graham 扫描法基于以下基本思想: 极角排序: 选取一个参考点(通常选择 y 坐标最小的点,若存在多个,则选 x 坐标最小的),将其他点按照与该参考点构成的极角进行升序排…

如何在 Windows 上安装与配置 Tomcat

Apache Tomcat 是一个开源的 Servlet 容器和 Web 服务器,广泛用于 Java Web 应用的开发和部署。它是实现 Java EE(现称 Jakarta EE)规范中的 Servlet 和 JSP 的官方参考实现。在本文中,我们将详细介绍如何在 Windows 系统上安装并…

测试模版15

本篇技术博文摘要 🌟 引言 📘 在这个变幻莫测、快速发展的技术时代,与时俱进是每个IT工程师的必修课。我是盛透侧视攻城狮,一名什么都会一丢丢的网络安全工程师,也是众多技术社区的活跃成员以及多家大厂官方认可人员&a…

拦截、限流,针对场景详细信息(一)

以下是一个基于Java Spring Boot Redis 的完整限流实现案例,针对同一接口前缀(如 /one/ )的IP访问频率控制: 场景:用户不用登录即可访问接口,网站会有被攻击的风险 URL:one/two/three one/…

计算机视觉算法实战——烟雾检测

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​ ​​​​​​​​​ ​​ 1. 烟雾检测领域介绍 烟雾检测是计算机视觉在公共安全领域的重要应用,它通过分析视频或图像序…

MySQL-DCL函数

DCL DCL英文全称是Data Control Language(数据控制语言),用来管理数据库用户、控制数据库的访问权限。 管理用户 1). 查询用户 use mysql; select * from user; select * from mysql.user; 查询的结果如下: 其中 Host代表当前用户访问的主机, 如果为localhost, 仅…

linux 服务器创建服务器启动后服务自启动

1、在/etc/systemd/system/下touch一个文件: touch /etc/systemd/system/your_application.service 2、在文件中写入: [Unit] Descriptionmodules-system Aftersyslog.target[Service] Typeforking Userroot Grouproot ExecStart/bin/bash /usr/loca…

端到端语音识别案例

《DeepSeek大模型高性能核心技术与多模态融合开发(人工智能技术丛书)》(王晓华)【摘要 书评 试读】- 京东图书 语音识别这一技术正如其名,是通过精密地解析说话人的语音来识别并准确转写出其所说的内容。它不仅仅是一个简单的转录过程&#…

QT——信号和槽

QT是图形化界面,自然是需要与用户进行交互的,但是该如何实现用户与界面或者程序的交互呢。答案是通过信号和槽。 一,什么是信号和槽? 在Linux操作系统里面,我们知道信号是由硬件或者软件产生,但是在QT里面…

Q:如何保证备份的有效性以及备份频率设置的优化方案?

1、如何保障备份数据的一致性 a) 快照 快照通过捕获数据在某一时刻的完整状态来保障备份一致性。在应用层,快照会暂停业务写入或生成事务一致性检查点(如数据库的全局读视图),确保备份数据不包含未提交的事务;在存…

Linux实用操作及命令

一、各类小技巧(快捷键) 1、强制停止(ctrlc) Linux某些程序的运行,如果想要强制停止它,可以使用快捷键ctrl c 命令输入错误,也可以通过快捷键ctrl c,退出当前输入,重…

压测工具开发(一)——使用Qt Designer构建简单界面

你好,我是安然无虞。 文章目录 项目功能概述构建菜单栏、工具栏1. 菜单栏注意事项2. 工具栏注意事项3. 日志停靠窗口 项目功能概述 开发一款 Qt版本的压测工具, 可以用来做 基于HTTP API接口的 性能测试. 要求做一个 MDI 多功能子窗口的 图形界面程序, 方便公司内…

Ubuntu 22 Linux上部署DeepSeek R1保姆式操作详解(ollama方式)

操作系统:Ubuntu Linux 22.04 一、安装模型运行环境 打开链接https://ollama.com/download/linux 1.安装ollama (1)一条指令即可实现的简易版安装方法(也可称为在线安装) curl -fsSL https://ollama.com/install.s…

MySQL 和 Redis 数据一致性解决方案

MySQL 和 Redis 数据一致性解决方案 MySQL 和 Redis 作为两种不同类型的数据库(关系型 vs 内存型),在配合使用时需要特别注意数据一致性问题。以下是几种常见的解决方案: 1. 缓存更新策略 1.1 Cache Aside Pattern (旁路缓存模式) 读操作&#xff1a…

Java高频面试之集合-20

hello啊,各位观众姥爷们!!!本baby今天来报道了!哈哈哈哈哈嗝🐶 面试官:讲讲 HashSet 的底层实现? HashSet 是 Java 集合框架中用于存储唯一元素的高效数据结构,其底层实…

【MySQL】从零开始:掌握MySQL数据库的核心概念(四)

人们之所以不愿改变,是因为害怕未知。但历史唯一不变的事实,就是一切都会改变。 前言 这是我自己学习mysql数据库的第四篇博客总结。后期我会继续把mysql数据库学习笔记开源至博客上。 上一期笔记是关于mysql数据库的表格约束,没看的同学可以…

Manus:通用智能体的架构革命与产业破局

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

HTTP协议手写服务器

目录 一、请求的是Web根目录 二、GET方法通过URL传参 三、根据资源类型对应出Content-Type值 四、Http代码 项目完整源代码:Http 周不才/cpp_linux study - 码云 - 开源中国 一、请求的是Web根目录 如果URL中请求的资源是Web根目录,则自动跳转到主…