强化学习计划

文章目录

  • 强化学习
    • 强化学习解决的是什么样的问题?
    • 举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?
    • 强化学习的损失函数(loss function)是什么?
    • 写贝尔曼方程(Bellman Equation)
    • 最优值函数和最优策略为什么等价?
    • 求解马尔科夫决策过程都有哪些方法?
    • 简述蒙特卡罗估计值函数的算法。
    • 简述时间差分算法
    • 介绍Q-Learning
    • DQN 算法
      • 基本原理
      • DQN的两个关键trick分别是什么?
      • DQN 都有哪些变种?DQN有哪些改进方向?
      • 引入状态奖励的是哪种DQN?
      • Dueling DQN和DQN有什么区别?
    • 介绍OpenAI用的PPO算法
    • 介绍TRPO算法
    • 为什么TRPO能保证新策略的回报函数单调不减?
    • 介绍DDPG算法
    • 画出DDPG框架
    • DDPG中的第二个D 为什么要确定?
    • 介绍A3C算法
    • A3C中优势函数意义
    • 强化学习如何用在推荐系统中?
    • 介绍Sarsa算法
    • Sarsa 和 Q-Learning区别
    • 强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?
    • value-based方法学习的目标是什么?
    • 强化学习 DQN,DDQN,AC,DDPG 的区别
    • 参考资料

强化学习

强化学习解决的是什么样的问题?

  • TODO

举出强化学习与有监督学习的异同点。有监督学习靠样本标签训练模型,强化学习靠的是什么?

  • TODO

强化学习的损失函数(loss function)是什么?

  • TODO

写贝尔曼方程(Bellman Equation)

  • TODO

参考资料

  • 贝尔曼方程

最优值函数和最优策略为什么等价?

  • TODO

求解马尔科夫决策过程都有哪些方法?

  • TODO

简述蒙特卡罗估计值函数的算法。

  • TODO

简述时间差分算法

  • TODO

介绍Q-Learning

  • TODO

参考资料

  • Q-Learning

  • Q-learning算法

  • 【强化学习】Q-Learning算法详解

  • 通过 Q-learning 深入理解强化学习

DQN 算法

基本原理

参考资料

  • 【强化学习】Deep Q Network(DQN)算法详解
  • 强化学习—DQN算法原理详解

DQN的两个关键trick分别是什么?

  • TODO

DQN 都有哪些变种?DQN有哪些改进方向?

  • TODO

引入状态奖励的是哪种DQN?

  • TODO

  • Double -DQN

  • 优先经验回放

  • Dueling-DQN

Dueling DQN和DQN有什么区别?

  • TODO

介绍OpenAI用的PPO算法

  • TODO

介绍TRPO算法

  • TODO

为什么TRPO能保证新策略的回报函数单调不减?

  • TODO

介绍DDPG算法

画出DDPG框架

DDPG中的第二个D 为什么要确定?

  • TODO

介绍A3C算法

  • TODO

参考资料

  • 一文读懂 深度强化学习算法 A3C (Actor-Critic Algorithm)
  • 深度强化学习——A3C

A3C中优势函数意义

  • TODO

强化学习如何用在推荐系统中?

  • TODO

参考资料

  • 用强化学习研究推荐系统的前景和难度怎么样?
  • 深度强化学习如何和推荐系统结合起来?
  • ICML 2019 | 强化学习用于推荐系统,蚂蚁金服提出生成对抗用户模型
  • 最新!五大顶会2019必读的深度推荐系统与CTR预估相关的论文

介绍Sarsa算法

  • TODO

参考资料

  • AI学习笔记——Sarsa算法

Sarsa 和 Q-Learning区别

  • TODO

参考资料

  • 强化学习(五):Sarsa算法与Q-Learning算法
  • 强化学习中的Q-learning算法和Sarsa算法的区别
  • Bourne强化学习笔记2:彻底搞清楚什么是Q-learning与Sarsa

强化学习中有value-based 和 policy-based,这两种的优缺点分别是什么?应用场景分别是什么?

  • TODO

value-based方法学习的目标是什么?

  • TODO

强化学习 DQN,DDQN,AC,DDPG 的区别

  • TODO

参考资料

  • 再励学习面试真题
  • 强化学习面经

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/586186.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux Shell学习笔记】Linux Shell的流控制

1、 if条件判断 1.1 格式 1.1.1 单分支 if [ 判断表达式 ];then 代码块 fi 1.1.2 双分支 if [ 判断表达式 ];then 代码1 else 代码2 fi 1.1.3 多分支 if [ 判断表达式1 ];then 代码1 elif [ 判断表达式2 ];then 代码2 elif [ 判断表达式3 ];then 代…

【数据结构】双向带头循环链表的实现

前言:在前面我们学习了顺序表、单向链表,今天我们在单链表的基础上进一步来模拟实现一个带头双向链表。 💖 博主CSDN主页:卫卫卫的个人主页 💞 👉 专栏分类:数据结构 👈 💯代码仓库:卫卫周大胖的…

USB -- STM32F103复合设备(HID+MassStorage)传输讲解(十)

目录 链接快速定位 前沿 1 描述符讲解 1.1 设备描述符 1.2 配置描述符 1.3 接口描述符 1.4 功能描述符 1.5 端点描述符 1.6 字符串描述符 1.7 报告描述符 2 运行演示 链接快速定位 USB -- 初识USB协议(一) 源码下载请参考链接:…

修改字符串(c++题解)

题目描述 给你一个长度为 的字符串 ,由大写和小写英文字母组成。 对字符串 进行 次修改。由两个整数和一个字符组成的元组 表示 -th 修改 ,如下所示。 如果是,则将的个字符改为。如果是 ,将 中的所有大写字母转换为小写字…

java中PhantomReference WeakReference SoftReference垃圾回收触发时机以及使用场景

java 中对象引用一般引用分为四种情况 强引用 即我们平常创建的对象 Object obj new Object() 垃圾回收触发时机 在没设置 jvm 参数 -XX:PretenureSizeThreshold 和 -XX:MaxTenuringThreshold 的情况下 -XX:PretenureSizeThreshold 的值为 0,即未设置大对象直接…

三巨头对决:深入了解pnpm、yarn与npm

欢迎来到我的博客,代码的世界里,每一行都是一个故事 三巨头对决:深入了解pnpm、yarn与npm 前言包管理器简介npm(Node Package Manager):Yarn:pnpm(Performant Npm)&#…

Linux 服务器安全策略技巧:使用数字证书进行认证

什么是数字证书? 数字证书是一种用于验证和加密网络通信的安全工具。它是由认证机构(CA)颁发的一种电子文件,用于证明某个实体的身份。数字证书包含了实体的公钥和其他相关信息,可以用于验证实体的身份和确保通信的机密性。 为什么使用数字证书进行认证? 在Linux服务器…

基于Mapify的在线艺术地图设计

地图是传递空间信息的有效载体,更加美观、生动的地图产品也是我们追求目标。 那么,我们如何才能制出如下图所示这样一幅艺术性较高的地图呢?今天我们来一探究竟吧! 按照惯例,现将网址给出: https://www.m…

微信小程序实现一个天气预报应用程序

微信小程序实现一个天气预报应用程序 第一步创建一个项目第二步项目目录下找到 pages/index/index.wxml 文件第三步在 pages/index/index.wxss 文件中写入样式第四步在 pages/index/index.js 文件中添加以下代码项目简介 第一步创建一个项目 第二步项目目录下找到 pages/index…

在 Python 中编写循环Loops的艺术

在 Python 中编写循环Loops的艺术(The Art of Writing Loops in Python) 文章目录 在 Python 中编写循环Loops的艺术(The Art of Writing Loops in Python)一次获取索引Indexes和值Values通过 Product 函数避免嵌套循环Nested Loops使用 Itertools 模块编写花式循环进行无限循环…

SpringBoot知识

1、Spring和SpringBoot对比 2、版本调整 (1)先排除是否是JDK与SpringBoot的版本不一致导致的:如JDK1.8和SpringBoot3.1.5冲突; (2)调整编译版本 (3)调整maven的jdk (4&…

Vscode运行调试文件

文章目录 vscode调试运行流程vscode 执行报错settings.json成功截图 vscode调试运行流程 vscode左侧菜单栏点击运行调试icon,点击菜单右侧栏运行和调试按钮,选择node调试器,js文件行数左边点击添加红色断点,运行当前文件 vscode…

【docker实战】01 Linux上docker的安装

Docker CE是免费的Docker产品的新名称,Docker CE包含了完整的Docker平台,非常适合开发人员和运维团队构建容器APP。 Ubuntu 14.04/16.04(使用 apt-get 进行安装) # step 1: 安装必要的一些系统工具 sudo apt-get update sudo ap…

湘潭大学-2023年下学期-c语言-作业0x0a-综合1

A 求最小公倍数 #include<stdio.h>int gcd(int a,int b) {return b>0?gcd(b,a%b):a; }int main() {int a,b;while(~scanf("%d%d",&a,&b)){if(a0&&b0) break;printf("%d\n",a*b/gcd(a,b));}return 0; }记住最大公约数的函数&…

gitee上的vue大屏项目

在 Gitee 上,有几个值得注意的 Vue 大屏项目:vue-big-screen-plugin (Gitee): 这是一个基于 Vue3、Typescript、DataV 和 ECharts5 框架的可视化大屏项目。它使用 .vue 和 .tsx 文件构建界面,并采用新版动态屏幕适配方案。这个项目支持数据的动态刷新渲染,内部的 DataV 和 …

linux 网络系统管理 技能大赛 mail赛题配置

比赛 Postfix sdskill.org 的邮件发送服务器 支持smtps(465)协议连接&#xff0c;使用Rserver颁发的证书,证书路径/CA/cacert.pem; 创建邮箱账户“user1~user99”&#xff08;共99个用户&#xff09;&#xff0c;密码为Chinaskill20! Dovecot sdskill.org 的邮件接收服务…

如何编写一个javaAgent jar工具包超详细教程

介绍 Java Agent技术 Java Agent技术是JDK提供的用来编写Java工具的技术&#xff0c;使用这种技术生成一种特殊的jar包&#xff0c;这种jar包可以让Java程序 运行其中的代码。 Java Agent技术的两种模式 Java Agent技术实现了让Java程序执行独立的Java Agent程序中的代码…

【机组期末速成】CPU的结构与功能|CPU结构|指令周期概述|指令流水线|中断系统

&#x1f3a5; 个人主页&#xff1a;深鱼~&#x1f525;收录专栏&#xff1a;计算机组成原理&#x1f304;欢迎 &#x1f44d;点赞✍评论⭐收藏 前言&#xff1a; 最近在备战期末考试&#xff0c;所以本专栏主要是为了备战期末计算机组成原理这门考试&#xff0c;讲的比较浅显&…

Unity 关于json数据的解析方式(LitJson.dll插件)

关于json数据的解析方式&#xff08;LitJson.dll插件&#xff09; void ParseItemJson(){TextAsset itemText Resources.Load<TextAsset>("Items");//读取Resources中Items文件&#xff0c;需要将Items文件放到Resources文件夹中string itemJson itemText.te…

Flink实时电商数仓(八)

用户域登录各窗口汇总表 主要任务&#xff1a;从kafka页面日志主题读取数据&#xff0c;统计 七日回流用户&#xff1a;之前活跃的用户&#xff0c;有一段时间不活跃了&#xff0c;之后又开始活跃&#xff0c;称为回流用户当日独立用户数&#xff1a;同一个用户当天重复登录&a…