深度强化学习在智能城市领域应用介绍

来源:海豚数据科学实验室

深度强化学习是近年来热起来的一项技术。深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素。在建模过程中,智能体根据环境的当前状态信息输出动作作用于环境,然后接收到下一时刻状态信息和奖励。

以众所周知的AlphaGo为例,盘面就是当前的状态,动作就是下一步往哪里落子,奖励就是最终的输赢。整个强化学习过程就是不断与环境交互,在交互的过程中产生数据,并利用这些交互产生的数据来学习的过程。正是在深度强化学习的帮助下,AlphaGo得以横扫世界级顶尖棋手。所以相比于有监督学习方法,深度强化学习在特定场景下可以达到超越人类的水准。

在围棋领域大放异彩之后,深度强化学习也在不断地拓展着自己的疆域,游戏、金融等越来越多的领域也出现了深度强化学习的身影。现代城市作为人类生产、生活的核心区域,是一个汇聚了交通、物流、能源等多个产业的复杂综合体。如果能够优化这种复杂结构,那么将会带来巨大的社会价值。而强化学习恰好可以做到这件事情。本文将为大家介绍几个强化学习在智能城市领域的应用案例。

1

智能交通

在城市各种各样的交通场景中,会遇到各种各样的资源配置和交通调度难题。如图3(a)所示,在一个典型的救护车辆调度场景中,救护车需要不断地往返于患者和救护车站点。救护车的接车时间在很大程度上取决于移动救护车的动态重新部署策略。也就是说,在救护车可用之后,应该把它调到哪个车站。重新调配现有救护车会影响未来接载病人的时间。例如在图3(b)中,未来将有3名患者来到1号站附近,因此将现有的救护车1号重新部署到1号站,通过从1号站派遣救护车,可以使这些患者迅速被接走。

图1 救护车调度场景

这一问题依然可以利用强化学习的方法来求解。文章将需要调度的救护车都被作为智能体,建模的核心就是确定相应的状态、动作以及奖励。在这一场景中,影响救护车效率的因素主要包括未来车站附近的病人数量、车站救护车的数量以及救护车与车站的距离等。将这些指标进行一定的转化,就可以提炼出病患密度、旅程时间等多个相关因子。这些相关因子就可以被作为输入状态。在这一场景中,决策变量,也就是救护车在完成接送任务后,被部署到不同的站点,就是智能体的动作。而优化目标,也就是将接载病人的时间,就是智能体的奖励,时间越短,奖励越大。理想情况下,每一辆救护车智能体都能够找到一种优势策略,让平均接送时间最短。接下来,文章引入深度强化学习算法,对这一场景进行很好地求解。

文章使用在真实世界中收集的数据集来评估动态救护车重新部署方法。实验结果表明,基于深度强化学习的救护车的重新部署方法明显优于最先进的基准方法。具体来说,与基准方法相比,基于深度强化学习的方法可以将10分钟内接诊的患者比例从0.786提高到0.838,节省平均接诊时间约20%(约100秒)。为了能够增加及时拯救病人的可能性,每一秒都是至关重要的。

在交通场景中,还有很多与之相似地调度问题,例如共享单车调度、公交车辆路线规划、出租车/网约车调度等。在这些场景中,都可以使用与之相类似的方法。此外,随着物联网技术的发展,未来各行各业的管理将进一步扁平化。一大批新的场景也会涌现出来。例如,交通信号灯的控制优化、自动驾驶的控制于决策,无人车辆的调度都属于深度强化学习的应用场景。所以,强化学习技术在未来将会在未来的智能交通中起到重要作用。

2

智能物流

物流的发展极大地方便了人们,促进了电子商务的发展。但庞大的运单量却带来了很多管理问题,行业派单效率和配送效率普遍低下,导致了大量劳动力浪费。在快递领域,配送员的任务量不均衡现象是普遍存在的。这导致部分快递员任务量过饱和或不足。如果能够根据任务的不同,动态规划出每一个快递员的任务进行规划,那么就可以减弱这种资源不均衡现象,来提高资源利用率和任务完成率。但在现实中,快递员需要同时肩负配送和取件两项职能,还要兼顾整体地配送效率更高,这无疑会增加问题的复杂度。文章[2]利用深度强化学习来解决这一问题。

在文章中,作者将整个空间粗略地划分成若干小区域,由图4中的小方格来表示。其中A、B、C分别表示三个快递员c1、c2、c3在每一个小区域的剩余配送量,其中阴影的小区域表示快递员当前的位置。D和G表示每一个小区域待取件的数量。F和H分别表示以快递员c1、c2为视角,其他快递员的位置。E表示快递员c1由位置g3到达位置g2。在真实场景中,影响快递员路线规划的因素,包括剩余的配送位置、待取件的位置、队友的位置、队友的行进路线等,基本都可以被这一图结构表达出来。所以这一图结构就作为智能体的状态。而智能体的动作则是快递员的前进方向,如向左还是向右,奖励就是为快递员完成的任务量。完成的任务越多,奖励越大。同样,在确定了这三维核心指标后,就可以引入深度强化学习算法来求解。

图2

我们可以推断出,除了快递员的路径选择,车辆的运输、调度,也属于相似的场景,也可以使用相似的方法来解决。甚至大型物流仓储管理,也可以利用强化学习来建模。

3

智能能源

锅炉燃烧优化是一个典型的智能控制场景。电站锅炉系统高度复杂,包含磨煤、燃烧、水汽循环等多个环节,一个普通600MW中型火电机组就拥有上万个传感器测点,内部涉及燃烧、风烟、水热循环等众多物理化学过程非常复杂。纯粹使用机理建模的方法很难对如此复杂的系统做精准化建模,导致系统描述失准,影响优化效果。

从控制优化角度来讲,火电燃烧优化涉及上百个主要控制量(例如机组内部各种锅炉给煤量、各种风门、阀门开度等),而且这些变量均为连续变量(例如某个阀门开度20%和开度25%可能对机组运行带来非常不同的影响)。与此同时,当前动作所造成的影响往往不能够实时反馈,所以还需要考虑到长期的影响。对于如此复杂的场景,即便是有多年丰富经验的运行人员,也很少能够总结出一套高效的调节策略。所以此类复杂系统高维连续变量控制优化问题是世界性的难题。

图3 火电锅炉运行流程

而深度强化学习恰恰适合来做这件事情。图2展示了我们基于强化学习的建模流程。对于一个典型的锅炉环境,我们可以得到很多的传感器提供系统的状态描述,例如锅炉中各种温度、风量、水量、压力等监测值。我们可以把这些实时反馈的监测值作为状态,也就是智能体能够“看到”的东西。然后我们将给煤量、各种风门、阀门开度等控制变量作为动作。

在确定了状态和动作,我们利用一个业务指标(燃烧效率)作为奖励。智能体依据当前的状态输出动作,对锅炉控制参数进行调节,锅炉环境就会产生一个变化,到达一个新的状态,如果燃烧效率朝着好的方向变化,我们就给一个正向的奖励,如果是不好的变化,我们可以给一个负向的奖励。在完成了建模工作后,我们接下来通过合理的学习算法,就可以学习出更好的策略。

学习算法通过观察很多的从状态和动作到下一个状态的变化过程,从中抽象状态——动作——奖励的对应模式,最终找到一个最佳的控制策略,可以从当前的状态映射到最佳的控制(动作)变量,实现长期平均奖励的最大化。

在上机实测过程中,基于强化学习的控制策略相比于人类操作达到了0.5%的效率提升,对于一台600MW机组,相当于年经济效益240万元。与此同时,我们已经实现了对于AI模型的产品化,具备了批量复制的能力,并在多个电厂落地并完成了验收。

图4 基于强化学习的燃烧优化智能体

除了燃烧优化场景意外,在火电中,我们也已经将强化学习方法用在了磨煤机控制优化、冷端优化等场景中,并取得了很好的效果。上文所述的控制场景,强化学习也可以在温度控制、电网调度、能源管理等领域得到应用。另外,火电锅炉的控制属于典型的过程控制。在工业生产中,水泥生产过程中的磨机控制,机场ACDM系统中的车辆与人员调度、停机位优化,以及钢铁制造、化工等工业场景也均属于相似的场景。在这些场景中,可以提炼出来大量的控制与优化问题,深度强化学习技术也具有着广阔的空间。

通过案例我们可以看到,对于一个现实中的场景,如果能够确定影响的相关因素、优化动作以及优化目标,深度强化学习技术将可以隆重登场了。而这些场景在我们的生产生活中是大量存在的。所以在未来的智能城市与产业中,深度强化学习技术会起到重要的作用。但是就目前来说,深度强化学习的落地仍存在一些局限。这其中一部分原因是算法的学习效率仍不够高效,适应场景也较为狭窄,另外一部分原因是目前很多行业的数字化程度还比较低。但随着物联网时代的到来,这一问题将会被逐步解决。与此同时,随着大批研究人员的前仆后继,深度强化学习本身的技术也在不断地迭代发展,算法适用的范围也越来越广泛。未来的发展一定越来越好。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏近千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

20210716未来智能实验室收录资料

特别推荐:置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》 

本期收录前沿科技进展材料52篇

1.《科学》:媲美AlphaFold2的蛋白质结构预测新工具问世,一台游戏计算机十分钟出结果,完全免费

2.清华团队综述全面解读图神经网络理论方法与应用

3.芯片行业76个细分领域企业(国内对比国外) 

4.前沿丨DeepMind最新论文:强化学习“足以”达到通用人工智能

5.元宇宙深度研究报告:元宇宙是互联网的终极形态?

6.5G+AI专题研究报告:复盘华为小米、苹果高通布局AIoT,把握万物互联、万物智能的黄金十年 | 附完整报告下载

7.计算机起源的数学思想

8.《中国互联网发展报告(2021)》发布:2020年我国大数据产业规模达718.7亿元,增幅领跑全球

9.服务机器人能为智慧城市做什么?

10.迈向纠错量子计算机 |《自然》论文

11.AIIA 发布《脑机接口技术在医疗健康领域应用白皮书》

12.谷歌量子计算团队再发Nature!逻辑错误抑制实现100倍增长,或为容错量子计算机研发铺平道路

13.DNA数字信息存储:造梦、追梦与圆梦

14.2021年上半年全球网络空间发展态势综述

15.人脑启发AI设计:让神经网络统一翻译语音和文本

16.RISC-V生态未来的三种可能~

17.中国互联网发展报告(2021)

18.全球智能制造趋势

19.详解数字孪生应用的十大关键问题! 

20.中国信通院发布《下一代数据存储技术研究报告(2021年)》(附pdf)

21.Neuron:大脑如何调整适应环境的变化?最新研究揭示目标导向行为的调控作用机制

22.漫谈实时操作系统!

23.蔚来、小鹏、理想自动驾驶能力的纵向演进与横向比较

24.深度学习精炼图笔记总结

25.Hinton,Lecun 和 Bengio 三巨头联手再发万字长文:深度学习的昨天、今天和明天

26.深度学习精炼图笔记总结

27.RISC-V生态未来的三种可能~

28.长航时无人机关键技术研究进展

29.人脑启发AI设计:让神经网络统一翻译语音和文本

30.华为最新发布:AI 赋能智慧城市白皮书(附下载)

31.深度解析:氢能产业链全景梳理 

32.OPPO:AI-Cube赋能的6G网络架构

33.首篇NLP领域图神经网络综述:127页,从图构建到实际应用面面观

34.2021认知智能发展研究报告

35.我们是不是对AI过于乐观了?关于AI认识的4个误区

36.深度解析:氢能产业链全景梳理 

37.时空人工智能赋能数字孪生城市白皮书(2021)

38.【SIGMOD2021-清华】数据库与人工智能交叉技术综述: AI4DB和DB4AI,附Slides与论文

39.面向未来的智能驾驶关键设计要素:融合定位

40.为AI开辟新路径,科学家提出新型人造纳米线神经形态网络

41.神经网络的工作原理介绍

42.CCCF专栏 | 李国杰:有关人工智能的若干认识问题

43.AI 显微镜:更清晰、更快速、更精确

44.数学哲学:对数学的思考

45.数学哲学

46.前沿丨DeepMind最新论文:强化学习“足以”达到通用人工智能

47.脑磁图仪的前世今生与未来

48.数字孪生园区总体建设方案(ppt)

49.液态金属传感器与人工智能:让假肢手具备更好的触觉!

50.2021年认知智能发展研究报告(附42页PDF全文)

51.GPU的发展历程、未来趋势及研制实践

52.深度强化学习在智能城市领域应用介绍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Tensorflow深度学习应用(进阶篇)-回归(函数拟合训练)-可视化

#codinggbk进阶篇:多元回归:建模问题:Yx1xx1x2xw2x3xw3...xnxwnb,矩阵简化表示YXWbnumpy库基础:整型的一个数字, 不能取得其shape(维度),通过np.array()可以将其转换成一个标量&…

Tensorflow深度学习应用(进阶篇)-1

#codinggbk 逻辑回归:逻辑回归需要将输出控制在[0,1]之间,可以使用函数将值映射在[0,1]之间Sigmod函数,逻辑回归一般采用对数损失函数;from pylab import mpl mpl.rcParams[font.sans-serif] [SimHei] #设置显示绘图显示中文 mp…

​20210716未来智能实验室收录资料

20210716未来智能实验室收录资料特别推荐:置顶收录未来智能实验室在人民日报《学术前沿》发表的城市大脑最新综述研究论文和报告《城市大脑的起源、发展与未来趋势》。本期收录前沿科技进展材料52篇1.《科学》:媲美AlphaFold2的蛋白质结构预测新工具问世…

元宇宙深度研究报告:元宇宙是互联网的终极形态?

报告出品方:华安证券作者:尹沿技、张天、姚天航1 元宇宙:剑指互联网的“终极形态”1.1 元宇宙指向互联网的终极形态元宇宙(Metaverse)概念起源于科幻小说,或指向互联网的“终极形态”。Metaverse 一词来源于…

Unity基础

Unity3D 游戏开发 第一章 基础知识 Unity是一个用于创建游戏和三维互动内容的开发工具,是一个专业游戏引擎。 2D游戏:视角锁定,二维坐标。 3D游戏:任意视角,三维坐标。 虚拟现实(VR)&#x…

英特尔史上最大收购!英特尔拟300亿美元收购GF,审批成关键!

来源:EETOP据《华尔街日报》报道,知情人士称,英特尔打算斥资约300 亿美元收购晶圆代工大厂格罗方德(GlobalFoundries),以加速生产更多芯片,如果收购成功,这将是英特尔有史以来最大的…

Unity 基本操作

基本操作 物体的组合 1.从需要的组合的物体中选择一个作为父对象,其他的物体作为子对象,即把子对象拖拽到父对象里,操作父对象即可实现整体操作,效果如下。 2.在组合物体中,父对象的坐标是该组合体的坐标&#xff0c…

OpenAI雄心勃勃的机器人计划失败了:强化学习没法用?

来源:机器之心曾经训练出单手解魔方机器人的 OpenAI,眼下已经解散了机器人团队。这家执着于实现通用人工智能(AGI)的公司现在放弃了机器人研究,理由是「数据不够丰富」。近期,OpenAI 公司联合创始人 Wojcie…

Unity-游戏小地图实战(前述知识点回顾与运用)

阶段知识回顾与运用---游戏中小地图实战 对于多个摄像机,每个摄像机都带有音频监听器,会出现错误,因为我们只需要一个音频监听器,为了消除错误,需要移除其他摄像机的音频监听器,只保留主摄像机的音频监听器…

NTT高级科学家:光子是深度学习的未来!光子有望替代电子计算机加速神经网络计算...

来源:AI科技评论作者:Ryan Hamerly编译:陈彩娴近日,来自日本 NTT 研究所的高级科学家 Ryan Hamerly 在 IEEE Spectrum 上发表了一篇文章(“The Future of Deep Learning Is Photonic”),谈论了光…

Unity3D-InstantOC遮挡剔除

InstantOC(插件) 渲染管线 图形数据在GPU上经过运算处理,最后输出到屏幕的过程。对于显示出来的图形,CPU与GPU的分工 CPU判断需要显示的图形图像调用图形API;绘制调用(Draw Call):每…

WCF系列(一)BasicHttpBinding 和 WsHttpBinding 的不同点

aaaaaaaaaaaaaaaaaa WCF系列(一)【翻译】BasicHttpBinding 和 WsHttpBinding 的不同点 2010-02-21 12:23 by Virus-BeautyCode, 20206 阅读, 7 评论, 收藏, 编辑 原文地址:Difference between BasicHttpBinding and WsHttpBinding 1、简介 WC…

Unity3D-光照系统

光照系统 1. Global Illumination(全局光照) GI,能够计算直接光,间接光,环境光以及反射光的光照系统。通过GI算法,渲染出光照效果更为真实的场景。 2. 直接光 从光源直接放出的光,通过Light组件实现。 …

Tomaso A.Poggio教授丨人工智能的下一个突破点在何处?

来源:图灵人工智能AI的成功故事在过去的25年中,尤其是在刚刚过去的十年中,AI,特别是机器学习,已经拥有了十足可观的进展。两个主要的成功故事第一个是AlphaGo。在虚拟的游戏世界中,AI绝对已经战胜了人类。A…

Unity3D-声音系统

声音 1.Unity3D支持的音频文件 mp3、ogg、wav、aif、mod、it、s3m、xm。 2.声音分为2D,3D两种 3D声音:有空间感,近大远小;2D声音:适合做背景音乐。 3.在场景中产生声音,主要有两个总要的组件: Audio …

当可解释人工智能遇上知识图谱

来源:知乎—机器学习小谈地址:https://zhuanlan.zhihu.com/p/386458680本文按照以下章节进行组织:1. 背景意义2. 基于路径的方法3. 基于嵌入的方法4. 总结与展望01背景意义1.1 什么是可解释性?首先,什么是可解释性。由…

Unity3D-C#脚本介绍

Unity3D脚本介绍 脚本就是附加在游戏物体上用于定义游戏对象行为的指令代码。Unity支持C#高级编程语言。 1.语法结构 using 命名空间; public class 类名:Monobehaviour {void 方法名(){Debug.Log("调试信息.");print("调用…

JConsole连接远程linux服务器配置

1.在远程机的tomcat的catalina.sh中加入配置 (catalina.sh路径在tomcat/bin下面 如/usr/local/tomcat/bin) 1 if [ "$1" "start" ];then 2 JAVA_OPTS"$JAVA_OPTS -Djava.rmi.server.hostname192.168.10.98 -Dcom.sun.management.jmxremote"…

缺缺缺!IoT行业的“芯”选择是什么?

来源:北京物联网智能技术应用协会“最初,没有人在意这场灾难,直到这场灾难和每个人息息相关。”这是电影《流浪地球》的开头,预示着一场即将来临的危机。如今,这句话正在现实中应验,不过,这次遭…

Unity3D-相关函数功能

函数功能 1.每隔固定时间执行一次,时间间隔固定(0.02s),时间间隔可以修改。 适用性:适合对物体作移动,旋转等物理操作。 函数执行不受渲染影响。 private void FixedUpdate() {Debug.Log(Time.time); }设置更新频率&…