《Easy RL:强化学习教程》出版了!文末送书

作为人工智能里最受关注的领域之一,强化学习的热度一直居高不下,但它的学习难度也同样不低。

在学习强化学习的过程中,遇到了有无数资料却难以入门的问题,于是发起了Datawhale强化学习项目,希望自学的同时帮助更多学习者轻松入门。

127930e315934e838ac7a105993af03d.png

"蘑菇书"萃取李宏毅的深度强化学习等经典课程,结合学习者角度的理解与分析,发布9个月,就在GitHub获得3.3k+Star和1w+下载,也有幸得到李宏毅、周博磊、李科浇等大咖老师的推荐。现在,在人民邮电出版社的支持下,终于发布了第一版纸质书。

517ecc095ae667ed1f127da0f6f1830d.png

一、从开源到出版

从李沐开源的《动手学深度学习》,邱锡鹏的《神经网络与深度学习》,再到Datawhale的《南瓜书》、《Easy RL:强化学习教程》出版,让知识回归大众,让大众有机会和行业精英一样为社会做出贡献,是Datawhale开源内容的探索性意义。

从开源到出版,带来的收入其实不高,但让开源贡献者被大众认可是促使开源良性循环的重要一环,会促使国内的开源氛围变好,让更多人受益。

这本书结合了强化学习领域公开课的精华

2825480bc5a66e92eba20ae83af2835e.png

来自中科院、清华、北大的三位发起者通过自学这3门公开课,根据自身的理解整理优化得来了《Easy RL:强化学习教程》,并且获得了三位公开课老师的支持。

这是一本完全根据学习经历编著而成的书

也就是说,这本书完全从读者学习的角度出发,既有学霸学长在学习中的重点——3门公开课的精华内容,还有学霸凝练的精华和扩展的内容——作者们在大部分章末设置了原创的关键词、习题和面试题,并提供Python代码实现。帮助初学者避“坑”,用轻松的步伐入门强化学习。其实,每个人在学习一门新的课程时,都会有自己独特的经验和方法,这种经验和方法的共享非常难能可贵。

二、感谢老师们的鼓励和支持

感谢李宏毅、周博磊、李科浇、汪军、张伟楠、李升波、胡裕靖 7位强化学习领域大咖老师的亲笔认可和推荐。

在认识本书编著者之前,我就已经在网络上注意到他们的教程“Easy-RL”,因为“Easy-RL”有部分内容改编自我在台湾大学开授的“深度强化学习”上课视频。当第一次看到“Easy-RL”时,我的第一个想法是:这群人把强化学习的知识整理得真好,不仅有理论说明,还加上了程序实例,同学们以后可以直接读这套教程,这样我上课也就不用再讲强化学习的部分了。很高兴王琦、杨毅远、江季三位编著者能够把“Easy-RL”以图书的形式出版。

——李宏毅 台湾大学副教授

很欣喜三位编著者能整合和升华我与另外两位老师的强化学习公开课资料,编著出这本实用的强化学习入门教程。这本教程专注于强化学习理论与实践相结合,通过生动的例子和动手实践帮助读者深入理解各种算法。以强化学习为代表的机器智能决策是人工智能的重要方向之一,希望未来更多优秀的同学可以通过这本教程和强化学习的公开课,开启自己的研究之旅,实现类似于AlphaGo系列的开创性工作。

——周博磊,加利福尼亚大学洛杉矶分校(UCLA)

助理教授

还记得我当初自学强化学习的时候,中文资料少之又少,只能去啃国外的教材和论文;后来开设“世界冠军带你从零实践强化学习”这门公开课,也是期望可以为强化学习中文社区添砖加瓦;所以很开心国内的学生能自发地形成这种公开的、系统的强化学习中文入门课程笔记的整理、分享与社区讨论的氛围。看了“Easy-RL”仓库以及编著者发来的这本书第1章的内容,我发现这本书不仅是一个笔记合集,编著者有重点地梳理了理论,并配备了难度适中的习题实践和面试题供读者参考。我相信这本书的出版对于刚接触强化学习的学生,以及准备转行的在职人员都会有帮助。非常推荐强化学习初学者阅读它。

——李科浇, 飞桨强化学习PARL团队核心成员

百度高级研发工程师

王琦、杨毅远和江季三位年轻作者,从自身学习和实践的角度将他们对强化学习基础内容的理解加以汇总,并完善成一本初学者之间交流、互动以及应用强化学习的实战图书。三位年轻作者在开源平台中多次迭代内容,和读者共同建立起了一套化繁为简的、浅显易懂的强化学习思维架构,这种做法很值得借鉴。目前,强化学习还处于高速发展期,正是年轻人施展拳脚的好赛道。这本书为强化学习的初学者和爱好者提供了一份难得的、可快速入门的学习和研究资料,相信读者会从这本书中得到课堂之外、实用之内和兴趣之中的前沿学术成果的应用知识。

——汪军,伦敦大学学院(UCL)计算机科学系教授

近年来,国内的学习者对于强化学习的热情日渐高涨,但是目前缺少一本适合初学者自学的书。这本书正好弥补了这一空白。由于三位编著者都是开源社区Datawhale 的成员,在这本书开源过程中得到了学习者的反馈,因此这本书更能从学习者的视角行文。全书以简洁的语言介绍强化学习的基础知识以及深度强化学习的内容,让初学者能够以轻快的步伐入门强化学习。

——张伟楠,上海交通大学计算机科学与工程系

副教授、博士生导师

强化学习是人工智能的一个重要研究领域,具有潜在的巨大应用价值。以 Al- phaZero 为代表的围棋智能突破,也从侧面证明了其解决复杂高维问题的能力。然而强化学习的应用尚处于起步阶段,它既有理论学习的复杂度,又有工程实践的挑战性,导致初学者难以入门,更难以深入。这本书以生动形象的语言、深入浅出的逻辑,介绍了一系列基本的强化学习算法,并结合丰富有趣的经典案例讲解代码实践,为强化学习初学者提供了一套可快速上手的学习资料。

——李升波,清华大学车辆与运载学院

长聘教授、博士生导师

《Easy RL:强化学习教程》一书很好地整合了强化学习的基础知识、经典算法、前沿方向和尖端技术解读,填补了国内在这方面的空白,完全可以作为中文强化学习教材。初学者通过阅读这本书可以全方位地了解强化学习,而强化学习研究者也可以从这本书中获得灵感和新的收获。三位编著者并没有用艰深晦涩的语言去描述强化学习,而是从自己的学习心得出发,将自己的学习笔记凝结成这几十万字的精华,娓娓道来,让人手不释卷。整本书的章节安排非常合理,前后章节环环相扣,既包含初学者必须掌握的关键知识点,也包含强化学习的前沿技术动态,展现出强化学习清晰的发展脉络。感谢这本书的三位编著者奉献出自己宝贵的学习经验和知识结晶,相信未来会有很多优秀的同学因为这本书投身于强化学习的研究热潮中。

——胡裕靖,网易伏羲强化学习研究组负责人

三、给读者的学习建议

首先,通过关键词高效入门

为了尽可能地降低阅读门槛,作者们在“蘑菇书”中对3门公开课的精华内容进行了选取和优化,对所涉及的公式给出了详细的推导过程,对较难理解的知识点进行了重点讲解和强化,以方便读者轻松入门。并且,为了丰富内容,书中还补充了不少3门公开课之外的强化学习相关知识。

在学习过程中,可以通过书中总结的大量关键词概念,高效地回忆并掌握核心内容。

其次,可以作为面试前的准备

书籍拓展了习题和面试题:习题部分以问答的形式阐述了相应章中出现的知识点,帮助读者厘清知识脉络;面试题部分的内容源于大厂的算法岗面试真题,通过还原真实的面试场景和面试问题,帮助读者开阔思路,助力大家面试理想的岗位。

bcf411f6431b57730cd04b29c43df667.png

▲题目配有答案详解

最后,通过代码实战深入理解

强化学习是一个理论与实践相结合的学科,我们不仅要理解算法背后的原理,还要通过上机实践来实现算法,让理论知识得到实际的应用。

书籍配有Python代码实现源代码,大家可以亲自动手实现各种经典的强化学习算法,通过实战更清晰地理解算法并快速应用。

目前是首批发行,以最低 6.9折 优惠购买,附优惠购买的海报。

4f64b3dd412345cb887ff78608f32dd4.png

最后是福利时间,评论区留言并点赞数前五的读者,卖萌屋将分别赠送《Easy RL:强化学习教程》一本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud构建微服务架构:服务消费(基础)【Dalston版】

通过上一篇《Spring Cloud构建微服务架构:服务注册与发现》,我们已经成功地将服务提供者:eureka-client或consul-client注册到了Eureka服务注册中心或Consul服务端上了,同时我们也通过DiscoveryClient接口的getServices获取了当前…

论文浅尝 | Temporal Knowledge Graph Completion Using Box Embeddings

笔记整理:杨露露,天津大学硕士论文链接:https://www.aaai.org/AAAI22Papers/AAAI-6210.MessnerJ.pdf动机时态知识图谱补全(TKGC)中的主要挑战是额外学习时间戳嵌入,以便嵌入模型根据关系、实体和时间戳嵌入…

别再无脑wwm了,在下游任务中不一定有效

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

逻辑斯谛回归模型( Logistic Regression,LR) 最大熵模型(Max Entropy,ME)

文章目录1. Logistic Regression 模型1.1 logistic 分布1.2 二项逻辑斯谛回归模型1.3 模型参数估计1.4 多项逻辑斯谛回归1.5 Python代码2. Maximum Entropy 模型2.1 最大熵原理2.2 最大熵模型的定义2.3 最大熵模型的学习2.4 例题3. 模型学习的最优化算法4. 鸢尾花LR分类实践1. …

Spring Cloud构建微服务架构:服务注册与发现(Eureka、Consul)【Dalston版】

已经有非常长的时间没有更新《Spring Cloud构建微服务架构》系列文章了,自从开始写Spring Cloud的专题内容开始就获得了不少的阅读量和认可,当然也有一些批评,其中也不乏一些很中肯的意见和深度的问题,对我来说也是进一步提高的契…

虚拟专辑丨知识图谱

虚 拟 专 辑 “武大学术期刊”的“虚拟专辑” 旨在将已发表在武汉大学科技期刊中心旗下期刊的论文以时下热点领域按主题重新组合,集中推送,以方便不同专业领域的读者集中查阅、追踪最新研究成果。此次推送的“知识图谱”虚拟专辑,为近几年发…

prompt你到底行不行?

文 | 马杀鸡三明治 源 | 知乎 很久之前老板下任务要试试prompt这个大风,但是玩完后发现太菜了所以连文章都没写,刚好今天工作比较闲就来写写了。 先上结论,连续prompt为运用大模型提供了一种思路,其实这种思路早就见过不少了。。。…

LeetCode 1323. 6 和 9 组成的最大数字

1. 题目 给你一个仅由数字 6 和 9 组成的正整数 num。 你最多只能翻转一位数字,将 6 变成 9,或者把 9 变成 6 。 请返回你可以得到的最大数字。 示例 1: 输入:num 9669 输出:9969 解释: 改变第一位数字…

Spring Cloud实战小贴士:Zuul统一异常处理(二)

在前几天发布的《Spring Cloud实战小贴士:Zuul统一异常处理(一)》一文中,我们详细说明了当Zuul的过滤器中抛出异常时会发生客户端没有返回任何内容的问题以及针对这个问题的两种解决方案:一种是通过在各个阶段的过滤器…

论文浅尝 | Explainable Link Prediction in Knowledge Hypergraphs

笔记整理:陈子睿,天津大学硕士论文链接:https://dl.acm.org/doi/10.1145/3511808.3557316动机知识超图链接预测已被认为是各种知识使能下游应用的关键问题。然而,大多数现有方法主要以黑盒方式执行链接预测,它们学习实…

吴恩达入驻知乎,涨粉秒过万!知乎首答:如何系统学习机器学习

文 | 卖萌酱大家好,我是卖萌酱。昨天在知乎timeline上刷到一个问题:虽然卖萌酱已经不需要系统学习机器学习了,但无意间发现最高赞的id竟然叫“吴恩达”??好家伙,看了看回答日期,是4月8号。戳进去…

学术会议|第六届知识图谱论坛CNCC-知识图谱赋能大数据大算力

CNCC2022将于12月8日至10日在贵州省贵阳市国际生态会议中心举办,今年CNCC技术论坛数量达到122个,内容涵盖了“计算行业、人工智能、云计算、教育、安全”等30个方向。本文特别介绍将于12月9日举行的【第六届知识图谱论坛-知识图谱赋能大数据大算力】。报…

LeetCode 第 18 场双周赛(188/587,前32%)

文章目录1. 比赛结果2. 题目LeetCode 1331. 数组序号转换 easyLeetCode 1328. 破坏回文串 mediumLeetCode 1329. 将矩阵按对角线排序 mediumLeetCode 1330. 翻转子数组得到最大的数组值 hard1. 比赛结果 做出来了1, 2, 3题,第4题提交超时 2. 题目 LeetCode 1331.…

Spring Cloud实战小贴士:Zuul统一异常处理(一)

在上一篇《Spring Cloud源码分析(四)Zuul:核心过滤器》一文中,我们详细介绍了Spring Cloud Zuul中自己实现的一些核心过滤器,以及这些过滤器在请求生命周期中的不同作用。我们会发现在这些核心过滤器中并没有实现error…

ACL’22 | 为大模型定制的数据增强方法FlipDA,屠榜六大NLU 数据集

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

技术动态 | 面向可解释性的知识图谱推理研究

导读:本次演讲的主题是面向可解释性的知识图谱推理研究,报告分为以下 5 个部分:研究背景前沿进展研究动机近期研究研究展望分享嘉宾|万国佳 武汉大学 计算机学院 博士后编辑整理|xiaomei出品平台|DataFunTa…

LeetCode 1332. 删除回文子序列

1. 题目 给你一个字符串 s,它仅由字母 ‘a’ 和 ‘b’ 组成。每一次删除操作都可以从 s 中删除一个回文 子序列。 返回删除给定字符串中所有字符(字符串为空)的最小删除次数。 「子序列」定义:如果一个字符串可以通过删除原字符…

Spring Cloud源码分析(四)Zuul:核心过滤器

通过之前发布的《Spring Cloud构建微服务架构(五)服务网关》一文,相信大家对于Spring Cloud Zuul已经有了一个基础的认识。通过前文的介绍,我们对于Zuul的第一印象通常是这样的:它包含了对请求的路由和过滤两个功能&am…

预训练再次跨界!百度提出ERNIE-GeoL,地理位置-语言联合预训练!

源 | 百度NLP本文介绍『文心大模型』的一项最新工作:“地理位置-语言”预训练模型ERNIE-GeoL。论文链接:https://arxiv.org/abs/2203.09127实践中的观察近年来,预训练模型在自然语言处理、视觉等多个领域都取得了显著效果。基于预训练模型&am…

LeetCode 1333. 餐厅过滤器(Lambda排序)

1. 题目 给你一个餐馆信息数组 restaurants,其中 restaurants[i] [idi, ratingi, veganFriendlyi, pricei, distancei]。你必须使用以下三个过滤器来过滤这些餐馆信息。 其中素食者友好过滤器 veganFriendly 的值可以为 true 或者 false,如果为 true …