强化学习到底是什么,它如何运作?

强化学习是一种行为学习模型,由算法提供数据分析反馈,引导用户逐步获取最佳结果。

来源丨Towards Data Science

作者丨Jair Ribeiro

编译丨科技行者

强化学习属于机器学习中的一个子集,它使代理能够理解在特定环境中执行特定操作的相应结果。目前,相当一部分机器人就在使用强化学习掌握种种新能力。 

强化学习是一种行为学习模型,由算法提供数据分析反馈,引导用户逐步获取最佳结果。 

不同于使用样本数据集训练机器模型的各类监督学习,强化学习尝试通过反复试验掌握个中诀窍。通过一系列正确的决策,模型本身将得到逐步强化,慢慢掌控解决问题的更佳方法。 

强化学习与人类在婴幼儿时期的学习过程非常相似。我们每个人的成长都离不开这种学习强化——正是在一次又一次跌倒与父母的帮扶之下,我们才最终站立起来。 

这是一种基于经验的学习流程,机器会不断尝试、不断犯错,最终找到正确的解决思路。 

我们只需要为机器模型提供最基本的“游戏规则”,余下的就完全交给模型自主探索。模型将从随机尝试开始,一步步建立起自己的复杂战术,通过无数次尝试达成任务、获得奖励。 

事实证明,强化学习已经成为培养机器人想象力的重要方法之一。不同于普通人类,人工智能将从成千上万轮游戏中积累知识,而强大的计算机基础设施则为这类模型提供可靠的算力支持。 

YouTube上的视频就是强化学习的应用实例。在观看当前视频之后,该平台会向你展示它认为你可能感兴趣的类似内容。如果你点开了推荐视频但却没有看完,机器会认为此次推荐失败,并在下一次尝试其他推荐方法。 

强化学习的挑战 

强化学习面对的核心挑战,在于如何规模模拟环境。模拟环境在很大程度上由有待执行的任务所决定。我们以国际象棋、围棋或者雅达利游戏为例,这类模拟环境相对简单也易于构建。但是,要想用同样的方法训练出安全可靠的自动驾驶汽车,就必须创建出非常逼真的街道原型环境,引入突然闯出的行人或者可能导致碰撞事故的各类因素。如果仿真度不够,那么模型在从训练环境转移到现实场景之后,就会出现一系列问题。 

另一个难题,在于如何扩展及修改代理的神经网络。除了奖励与处罚之外,我们再无其他方法与该网络建立联系。这有可能引发严重的“健忘”症状,即网络在获取新信息后,会将一部分可能非常重要的旧知识清除出去。换句话说,我们需要想办法管理学习模型的“记忆”。 

最后,我们还得防止机器代理“作弊”。有时候,机器模型能够获得良好的结果,但实现方式却与我们的预期相去甚远。一部分代理甚至会在不完成实际任务的情况下,通过“浑水摸鱼”拿到最大奖励。 

强化学习的应用领域 

游戏 

机器学习之所以具有极高的知名度,主要源自它在解决各类游戏问题时展现出的惊人实力。 

最著名的自然是AlphaGo与AlphaGo Zero。AlphaGo通过无数人类棋手的棋谱进行大量训练,凭借策略网络中的蒙特卡洛树价值研究与价值网络(MCTS)获得了超人的棋力。但研究人员随后又尝试了另一种更加纯粹的强化学习方法——从零开始训练机器模型。最终,新的代理AlphaGo Zero出现,其学习过程完全源自自主摸索、不添加任何人为数据,最终以100-0的碾压性优势战胜了前辈AlphaGo。 

个性化推荐 

新闻内容推荐是一项历史性难题,快速变化的新闻动态、随时可能转变的用户喜好再加上与用户留存率若即若离的点击率都让研究人员头痛不已。Guanjie等研究者发布的《DRN:用于新闻推荐的深度强化学习框架》一文,希望探讨如何将强化学习技术应用于新闻推荐系统以攻克这一重大挑战。 

为此,他们构建起四种资源类别,分别为:1)用户资源;2)上下文资源(例如环境状态资源);3)用户新闻资源;4)新闻资源(例如行动资源)。他们将这四种资源插入深度Q网络(DQN)以计算Q值。随后,他们以Q值为基础选择一份新闻列表进行推荐,并将用户对推荐内容的点击情况作为强化学习代理的重要奖励指标。 

作者们还采用其他技术以解决相关难题,包括记忆重复、生存模型、Dueling Bandit Gradient Descent等方法。 

计算机集群中的资源管理 

如何设计算法以将有限的资源分配给不同任务同样是一项充满挑战的课题,而且往往需要人为启发的引导。 

题为《使用深度强化学习实现资源管理》的论文介绍了如何使用强化学习让模型自动探索如何为保留的作业分配及调度计算机资源,借此最大程度降低平均作业(任务)的处理时长。 

这种方法用“状态空间”来表现当前资源分配与作业的资源配置方式。而在行动空间方面,他们使用一种技巧,允许代理在各个时间阶段选择多项行动。奖励则是系统中所有作业的总和(-1/作业持续时间)。接下来,他们将强化学习算法与基准值相结合,借此计算策略梯度,找出最佳策略参数,凭借这些参数计算出能够实现目标最小化的行动概率分布。 

交通灯控制 

在题为《基于强化学习的多代理交通信号网络控制系统》一文中,研究人员尝试设计一种交通信号灯控制方案,借此解决交通拥堵问题。他们的方法仅在模拟环境下进行了测试,并表现出优于传统方法的性能水平,这也体现出在交通系统设计中引入多代理强化学习技术的潜在可行性。 

他们在五个路口的交通网络中部署了五个代理,并在中央路口处部署强化学习代理以控制交通信号。他们将交通状态定义为8维向量,每个元素代表各条车道的相对交通流量。每个代理可以从8种选项中任选其一,各选项代表每个阶段的组合,奖励条件则是新的组合必须在交通流量延迟方面优于前一组合。作者们使用SQN计算{状态,行动}对的Q值。 

机器人 

强化学习在机器人技术领域的应用同样大放异彩。感兴趣的朋友请关注强化学习在机器人领域的研究成果。在这方面,研究人员们通过训练引导机器人学习策略,尝试将原始视频图像与机器人的行动映射起来。将RGB图像输入CNN进行计算,最终输出的则是各台驱动引擎的扭矩。强化学习组件负责根据训练数据中的状态分布总结出准确的转换策略。 

网络系统配置 

网络系统当中往往包含超过100项可配置参数,而参数调整过程则需要合格的操作人员持续进行跟踪与错误测试。 

题为《强化在线网络系统自我配置能力的学习方法》的论文,介绍了研究人员如何在基于动态虚拟机的环境中自动重新配置多层网络系统内各项参数的首次尝试。 

研究人员可以将重新配置的流程公式化为有限MDP(马尔科夫决策流程)的形式。其中的状态空间为系统配置,各参数的行动空间则包括{增加,减少,保持不变}。奖励被定义为预期响应时间与实测响应时间之差。作者使用Q学习算法执行这项任务。 

当然,作者也使用了其他一些技术(例如策略初始化)以解决较大状态空间与复杂问题场景下的计算难度问题,因此并不能算单纯依靠强化学习与神经网络组合实现。但可以相信,这项开拓性工作为未来的探索铺平了道路。 

化学 

强化学习在优化化学反应方面同样表现出色。研究人员们发现,他们的模型已经摸索出极为先进的算法,《通过深度强化学习优化化学反应》一文还探讨了如何将这种算法推广到多种不同的潜在场景当中。 

配合LSTM(长短期记忆网络)对策略特征进行建模,强化学习代理通过以{S,A,P,R}为特征的马尔科夫决策流程(MDP)优化了化学反应。其中的S代表一组实验条件(例如温度、pH等),A为可以调整的一切可能行动的集合,P为从当前实验条件转换至下一条件的概率,R则为状态奖励函数。 

这套应用方案很好地演示了强化学习技术如何在相对稳定的环境下减少试错次数并缩短学习周期。 

拍卖与广告 

阿里巴巴公司的研究人员发表了《在广告展示中采用多代理强化学习进行实时竞拍》一文,表示其基于集群的分布式多代理解决方案(DCMAB)取得了可喜的成果,并计划在下一步研究中投放淘宝平台进行实际测试。 

总体而言,淘宝广告平台负责为经销商提供可供竞拍的广告展示区域。目前大多数代理无法快速解决这个问题,因为交易者往往互相竞标,而且出价往往与其业务及决策密切相关。在这篇论文中,研究人员将商户与客户划分为不同的组以降低计算复杂性。各代理的状态空间表示代理本身的成本-收入状态,行动空间为(连续)竞标,奖励则为客户集群收入。 

深度学习 

近期,越来越多研究人员开始尝试将强化学习与其他深度学习架构相结合,并带来了令人印象深刻的成果。

其中最具影响力的成果之一,正是DeepMind将CNN与强化学习相结合做出的尝试。以此为基础,代理可以通过高维传感器“观察”环境,而后学习如何与之交互。 

CNN配合强化学习已经成为人们探索新思路的有力组合。RNN是一种具有“记忆”的神经网络。与强化学习结合使用,RNN将为代理提供记忆能力。例如,研究人员将LSTM与强化学习进行组合,创建出一套深循环Q网络(DRQN)并学习如何游玩雅达利游戏。他们还使用LSTM加强化学习解决了化学反应优化问题。 

DeepMind还展示了如何使用生成模型与强化学习生成程序。在这套模型中,以对抗方式训练而成的代理会将对抗信号作为改善行动的奖励,这种方式与GAN(生成对抗网络)将梯度传播至入口空间的方法有所不同。 

总结:何时开始使用强化学习? 

所谓强化,是指根据制定的决策配合奖励摸索最佳方法;这类能够随时与环境交互并从中学习。每做出一项正确行动,我们都将予以奖励;错误行动则对应惩罚。在行业当中,这类学习方法将有助于优化流程、模拟、监控、维护并有望催生出强大的自治型系统。 

大家可以参考以下标准思考何时在何处使用强化学习技术: 

• 需要对复杂甚至存在一定危险性的特定流程进行模拟时。 

• 处理某些需要大量人类分析师及领域专家的特定问题时。强化学习方法能够模仿人类的推理过程,而非单纯预测最佳策略。 

• 能够为学习算法提供良好的奖励定义时。你可以在每次交互中正确对模型进行校准,借此保证奖励总比惩罚多,帮助模型逐步摸索出正确的解决路线。 

• 当缺少关于特定问题的充足数据时。除了工业领域之外,强化学习也广泛适用于教育、卫生、金融、图像以及文本识别等各个行业。

除了工业领域之外,强化学习也广泛适用于教育、卫生、金融、图像以及文本识别等各个行业。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486478.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hihocoder1457

http://hihocoder.com/problemset/problem/1457 找不重复子串的和 topo序搞一搞,用父亲更新儿子节点的val,记得乘上节点数 //#pragma comment(linker, "/stack:200000000") //#pragma GCC optimize("Ofast,no-stack-protector") //#…

科普天地|“GPS欺骗”如何误导自动驾驶汽车

文章来源:新华网,版权归原作者及刊载媒体所有。新华社北京11月2日电(记者彭茜)一辆正常行驶的自动驾驶汽车在30秒内径直蹭上了马路牙子,车载全球定位系统(GPS)、激光雷达等“高精尖”设备竟然全…

json里面的list数据取不出来_[工具]用kaggle API下载数据集

操作平台:colab由于是在colab,需要先mount google drivefrom google.colab import drive drive.mount(/content/gdrive)导到当前目录cd gdrive/My Drive/your path上传你的kaggle.json; kaggle.json下载方法:kaggle官网-->右上角My Accoun…

训练过程acc_AI 深度学习训练tricks总结(均有实验支撑)

↑↑↑↑↑点击上方蓝色字关注我们!『运筹OR帷幄』转载作者:Jones知乎作者丨Jones知乎来源丨https://zhuanlan.zhihu.com/p/261999668编辑丨极市平台编者按 本文作者模拟复现了自己在深度学习训练过程中可能遇到的多种情况,并尝试解决这些问题…

python 内存_一行Python解决内存问题

原标题:一行Python解决内存问题 内存不足是项目开发过程中经常碰到的问题,我和我的团队在之前的一个项目中也遇到了这个问题,我们的项目需要存储和处理一个相当大的动态列表,测试人员经常向我抱怨内存不足。但是最终,我…

一文读懂机器学习“数据中毒”

作者 | Ben Dickson翻译 | 火火酱~出品 | AI科技大本营头图 | 付费下载于视觉中国在人类的眼中,下面的三张图片分别展示了三样不同的东西:一只鸟、一只狗和一匹马。但对于机器学习算法来说,这三者或许表示同样的东西:一个有黑边的白色小方框。…

excel模糊搜索_Excel进阶篇:星号*用法,学会这些功能的,都按时加班了

是的,你没看错,是按时加班,赚点加班费嘛!星号"*"就是四则运算里的乘号"ⅹ"。在Excel中星号"*"可不仅仅是乘,还有逻辑运算、通配符等功能,可以在公式中与函数进行组合&#x…

java2

一、学习要点 认真看书并查阅相关资料,掌握以下内容: 理解对象的创建与引用的关系 掌握构造方法的重载 掌握String类 掌握类的设计方法 掌握this关键字 掌握static关键字 理解引用传递并掌握基本应用 掌握单例模式 理解内部类 (一&#xff09…

谷歌开源能翻译101种语言的AI模型,只比Facebook多一种

大数据文摘出品来源:VB10月底,Facebook发布了一款可翻译100种语言的机器学习模型,微软发布了一款能翻译94种语言的模型,谷歌自然也不甘示弱。继Facebook和微软后,谷歌开源了一种名为MT5的模型,称该模型在一…

只需十四步:从零开始掌握 Python 机器学习(附资源)

分享一篇来自机器之心的文章。关于机器学习的起步,讲的还是很清楚的。原文链接在:只需十四步:从零开始掌握Python机器学习(附资源) Python 可以说是现在最流行的机器学习语言,而且你也能在网上找到大量的资…

druid seata 配置_架构设计 | 基于Seata中间件,微服务模式下事务管理

一、Seata简介1、Seata组件Seata是一款开源的分布式事务解决方案,致力于提供高性能和简单易用的分布式事务服务。Seata将为用户提供了AT、TCC、SAGA、XA事务模式,为用户打造一站式的分布式解决方案。2、支持模式AT 模式基于支持本地 ACID 事务的关系型数…

数据卡片_VISA消息:关于VCPS 2.1卡片产品的性能和交叉测试的卡片个性化数据的更新...

我们都知道从2020年6月1日起,所有用于性能和交叉测试的卡片样品都必须采用新的个性化数据用于卡片的个性化。需要注意的是,Visa已经发布了用于产品性能和交叉测试的卡片个性化数据2.0版本,支持VCPS 2.1.x产品。从2020年7月27日起,…

一文剖析2020年最火十大物联网应用|IoT Analytics 年度重磅报告出炉!

来源:北京物联网智能技术应用协会知名物联网研究机构IoT Analytics 2020年的最新报告显示,与往年相比,当前大多数物联网项目仍然落地于工业/制造业领域,另外,交通、能源、零售及医疗保健等垂直领域的市场份额也相对增加…

jbutton添加点击事件_electron-vue自定义边框后点击事件失效问题

问题描述:electron-vue自定义边框后点击事件失效(不单单点击事件,窗体内所有事件都失效)解决方案:在需要事件处理的节点上添加样式-webkit-app-region:no-drag;srcmainindex.js中设置:/**在样式文件中&…

新一代人工智能白皮书(2020年) ——产业智能化升级

全文共计1278字64图,预计阅读时间10分钟来源 | CIE智库(转载请注明来源)编辑 | 蒲蒲当前,我国经济发展进入新阶段,既面临产业转型升级与重塑国际经济格局的机遇,也面对传统要素红利衰减、经济增速换挡、经济…

世界半导体集成电路发展史(超细、超全)

来源:ittbank半导体集成电路发展史集成电路从产生到成熟大致经历了如下过程:电子管——晶体管——集成电路——超大规模集成电路晶体管的演变集成电路的前奏——电子管、晶体管 电子管,是一种在气密性封闭容器中产生电流传导,利用…

北大发布最新《图神经网络推荐系统》2020综述论文,27页pdf

来源:专知随着网络信息的爆炸式增长,推荐系统在缓解信息过载方面发挥了重要作用。由于推荐系统具有重要的应用价值,这一领域的研究一直在不断涌现。近年来,图神经网络(GNN)技术得到了广泛的关注,它能将节点信息和拓扑结…

anaconda镜像源配置_Anaconda使用技巧,如何修改国内镜像源?

在使用Anaconda时有时候需要加载别的模块这个时候需要通过官网下载模块由于官网的服务器在国外那个下载速度真的是慢到天际还好可以通过修改镜像这样下载模块会快很多本文讲Anaconda修改国内镜像源Anaconda修改国内镜像源通过conda config命令生成配置文件这里,我们…

HDU 5869.Different GCD Subarray Query-区间gcd+树状数组 (神奇的标记右移操作) (2016年ICPC大连网络赛)...

树状数组。。。 Different GCD Subarray Query Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others)Total Submission(s): 1541 Accepted Submission(s): 599 Problem DescriptionThis is a simple problem. The teacher gives Bob a lis…

c++ mmap写入速度_内存管理(24)mmap和缺页中断

相关文件:mm/mlock.cmm/util.cmm/mmap.cinclude/linux/slab.hmmap系统调用陷入内核中会调用vm_mmap_pgoff>do_mmap_pgoff函数来真正完成mmap操作1.1.do_mmap_pgoff函数(关键部分代码)do_mmap_pgoff16行:对需要映射的内存长度页对齐20行:ge…