零基础强化学习入门分享

(一)前言:强化学习入门顺序

        以前主要学习硬件PCB单片机等知识,后来接触的项目也大多与电气相关,从一窍不通到稍微找到点门道,中间走过不少弯路,误打误撞中,也留下了一些经验。

        我的学习顺序:在后面给出评价

(1)学习神经网络

途径:某站的编程培训机构的白嫖课程,通俗易懂,小白能看得进去。

内容:卷积概念,实现原理,激活函数,全连接;bp,cnn,bnn稍微了解一下

(2)深度学习

途径:某站的吴恩达深度学习全套视频,讲的更严谨当然也更加抽象一些,不过是真的好。

内容:梯度下降,激活函数,前向传播和反向传播,局部最优解决方法等,多了解。

这个是深度学习CNN图片特征提取过程

(3)强化学习

途径:某站的李宏毅或王树森的强化学习视频

内容:基本常识,蒙特卡洛,马尔可夫链,SARSA算法,TD算法,DQN算法等基础。

(4)python编程

 途径:莫烦python课程,可以用python在线编辑器先学着。

内容:python的基本语法,调用numpy库等,反正跟着课程走。莫烦的强化学习编程课(我没看)

 

(5)安装强化学习编程环境

途径:某站或者CSDN上就有很多教程,也可某宝直接带下安装,省事。、

内容:pycharm安装,anaconda安装,gym,numpy等常见库,记得学习这个软件怎么用。

 6)找强化学习代码

 途径:不必多说,应该都很多的,不过最恐怖的是,好多代码是不能直接拿来用或者需要代码给的不全,根本就跑不起来,所以在这里需要头疼一下,多费点心思。

 内容:用DQN等算法跑起来的python程序,提醒一下,是要基于pytorch的而不是tensorflow的,前者好像更友好一点,后者我也没接触过。找到代码之后,主要看懂代码复现代码,这个很重要。看不懂代码就跳回去再找理论视频看,弄懂算法原理。

(二)学习感触:

       1.建议先学python,下载强化学习代码调试,再去看视频学习理论知识。因为我看强化学习和深度学习的时间有点早,导致下载代码看代码有困难,忘记算法的原理,又回去回炉重造。

       2.做强化学习(RL)或者深度强化学习(DRL)对于硬件都是有较高要求的。入门阶段可以用普通配置的笔记本电脑跑代码,若想真想投身这个领域,显卡GPU,CPU,运存之类的硬件配置一定要跟上,这时候如果课题组有前期基础,就太棒了。我的代码开始比较晚,一方面是没有完整时间,另一方面是硬件配置跟不上(自己后来更换电脑了)。

       3.看SCI二区及以上的论文,国内论文你稍微多看几篇就明白了,不必多说。一开始我是边看论文边看视频学理论知识,后来发现没啥用,因为没有跑代码,就很容易忘记。如果现在回过头来,我想说,应该先搞定强化学习入门之后,再去看论文,这样才能看明白,别人讲的啥,创新点在哪里,为什么优秀。而不是盲目从众去杠论文,因为,你没有理论基础+实操基础是真看不懂,顶多是认识了一下汉字而已,汉字背后的意思你又可能蒙蔽了。

       4.一定一定要静下心来,学习的东西比较杂比较多,不静下心来,真的很容易崩溃。

       5.可以通过写博客的方式激励自己持续学习,我也是到此刻突然明白自己为啥学起来很苦闷了。将所学的知识输出,这就是最快掌握的方式。

       在后续文章中就不讲解最最基础的知识了,因为这些最最基础的知识可以通过看视频快速学到,用文字表述反而慢半拍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/20550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务——elasticsearch

初识ES——什么是elasticsearch elasticsearch的发展 初识ES——正向索引和倒排索引 初识ES——es与mysql的概念对比 类比到mysql中是表结构约束 概念对比 初始ES——安装es和kibana 1.部署单点es 1.1创建网络 要安装es容器和kibana容器并让他们之间相连,这里…

RabbitMQ-API

这里写目录标题 Hello word 模式添加依赖生产者消费者获取信道工具类 Work Queues模式消费者代码 C1开启多线程运行启动 消费者代码 C2生产者代码 消息应答自动应答消息应答的方法Multiple 的解释消息自动重新入队消息手动应答代码消费者API 队列持久化消息持久化不公平分发消息…

redis 高级篇 redis 源码的读取分析

一 redis源码分析 1.1 源码分析 1每一个kv键值对应有一个dictEntry。 2.底层数据结构

zabbix简易入门:基本的网络监控、WEB监控

我们越来越发现:网络越来越复杂,网络、应用、云端……故障点随时可能发生,而我们不能人工盯着所有的问题,所以,网管软件是必须的。那么没有预算的情况下,我们只好自己布署简单的网管软件了。 zabbix网站上可…

笔记汇总 | 斯坦福 CS229 机器学习

文章目录 前言课程参考文章推荐阅读 前言 本文为斯坦福大学 CS229 机器学习课程学习笔记 本文主体部分转载自黄海广博士,文末已给出链接,大家有兴趣可以直接访问笔记首页,下载对应课程资料及作业代码 课程官网:CS229: Machine …

mysql数据库迁移

目录 背景迁移数据库 背景 公司有个项目,刚开始数据量不是大的时候,数据库和服务上的所有应用数据都放在一个旧小盘中,随着项目数据的增长,旧的磁盘被占满了,导致系统无法写入数据,我和同事排查了很长时间…

C++运算符重载详解(赋值、流插入流提取、前置后置++、取地址)

C运算符重载详解 基本介绍运算符重载案列1. 赋值运算符重载2. 前置和后置重载3. cout,cin(流插入,流提取重载)4. 取地址重载 基本介绍 C为了增强代码的可读性引入了运算符重载,运算符重载是具有特殊函数名的函数,也具有其 返回值…

生态共建丨YashanDB与构力科技完成兼容互认证

近日,深圳计算科学研究院崖山数据库系统YashanDB V22.2与北京构力科技有限公司BIMBase云平台完成兼容性互认证。经严格测试,双方产品完全兼容、运行稳定。 崖山数据库系统YashanDB是深算院自主研发设计的新型数据库系统,融入原创理论&#xf…

CAD随机球体颗粒过渡区3D插件

插件介绍 CAD随机球体颗粒&过渡区3D插件可用于在AutoCAD软件内生成随机分布的球体及球体外侧过渡区部件,适用于科研绘图、有限元建模如混凝土细观、颗粒增强复合材料、随机三维骨料及过渡区等方面的应用。 插件可指定的参数有模型的长、宽、高;球…

Vc - Qt - QPainter::SmoothPixmapTransform及QPainter::Antialiasing

QPainter::SmoothPixmapTransform是一个标志,用于指定绘制操作中的平滑像素变换行为。当使用QPainter绘制一幅图像时,设置SmoothPixmapTransform标志可以使图像变换过程更加平滑,减少锯齿状边缘的出现。此标志通常用于绘制缩放后图像的情况。…

SpringBoot单元测试

目录 1.什么是单元测试? 2.单元测试有哪些好处? 3.Spring Boot单元测试使⽤ 单元测试的实现步骤 1. ⽣成单元测试类 2. 添加单元测试代码 2.1 .添加Spring Boot框架测试注解:SpringBootTest 2.2 添加单元测试业务逻辑 简单的断⾔说明 1.什么是单元测试? 单元测试(un…

RPC框架引入zookeeper服务注册与服务发现

Zookeeper概念及其作用 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是大数据生态中的重要组件。它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理…

使用 GitHub Copilot 进行 Prompt Engineering 的初学者指南(译)

文章目录 什么是 GitHub Copilot ?GitHub Copilot 可以自己编码吗?GitHub Copilot 的底层是如何工作的?什么是 prompt engineering?这是 prompt engineering 的另一个例子 使用 GitHub Copilot 进行 prompt engineering 的最佳实践提供高级上下文&…

Springboot -- 按照模板生成docx、pdf文件,docx转pdf格式

使用 poi-tl 根据模板生成 word 文件。 使用 xdocreport 将 docx 文件转换为 pdf 文件。 xdocreport 也支持根据模板导出 word ,但是 poi-tl 的功能更齐全,操作更简单,文档清晰。 poi-tl 、xdocreport 内部均依赖了 poi ,要注意两…

Java给Excel设置单元格格式

maven 依赖 <!--读取excel文件--> <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>5.2.3</version> </dependency> <dependency><groupId>org.apache.poi</group…

Maven利用POM引入Spring和Junit依赖-----Spring框架

<?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://ma…

uniapp 全局数据(globalData)的设置,获取,更改

globalData&#xff0c;这是一种简单的全局变量机制。这套机制在uni-app里也可以使用&#xff0c;并且全端通用 因为uniapp基本上都是将页面&#xff0c;或者页面中相同的部分&#xff0c;进行组件化&#xff0c;所以会存在父&#xff0c;子&#xff0c;&#xff08;子&#xf…

【数据挖掘竞赛】——科大讯飞:锂离子电池生产参数调控及生产温度预测挑战赛

🤵‍♂️ 个人主页:@Lingxw_w的个人主页 ✍🏻作者简介:计算机科学与技术研究生在读 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞👍🏻 收藏 📂加关注+ ​ 【科大讯飞】报名链接:https://challenge.xfyun.cn?invitaC…

在windows下安装ruby使用gem

在windows下安装ruby使用gem 1.下载安装ruby环境2.使用gem3.gem换源 1.下载安装ruby环境 ruby下载地址 选择合适的版本进行下载和安装&#xff1a; 在安装的时候&#xff0c;请勾选Add Ruby executables to your PATH这个选项&#xff0c;添加环境变量&#xff1a; 安装Ruby成…

【Ansible 的脚本 --- playbook 剧本】

目录 一、playbook 剧本介绍二、示例1、运行playbook2、定义、引用变量 三、使用playbook部署lnmp集群 一、playbook 剧本介绍 playbooks 本身由以下各部分组成 &#xff08;1&#xff09;Tasks&#xff1a;任务&#xff0c;即通过 task 调用 ansible 的模板将多个操作组织在…