时空AI技术:深度强化学习在智能城市领域应时空AI技术:深度强化学习在智能城市领域应用介绍...

f40591e5d41452fa287bb2d82126eb1e.png

来源:海豚数据科学实验室

作者:京东科技 时空AI团队

深度强化学习是近年来热起来的一项技术。深度强化学习的控制与决策流程必须包含状态,动作,奖励是三要素。在建模过程中,智能体根据环境的当前状态信息输出动作作用于环境,然后接收到下一时刻状态信息和奖励。

以众所周知的AlphaGo为例,盘面就是当前的状态,动作就是下一步往哪里落子,奖励就是最终的输赢。整个强化学习过程就是不断与环境交互,在交互的过程中产生数据,并利用这些交互产生的数据来学习的过程。正是在深度强化学习的帮助下,AlphaGo得以横扫世界级顶尖棋手。所以相比于有监督学习方法,深度强化学习在特定场景下可以达到超越人类的水准。

在围棋领域大放异彩之后,深度强化学习也在不断地拓展着自己的疆域,游戏、金融等越来越多的领域也出现了深度强化学习的身影。现代城市作为人类生产、生活的核心区域,是一个汇聚了交通、物流、能源等多个产业的复杂综合体。如果能够优化这种复杂结构,那么将会带来巨大的社会价值。而强化学习恰好可以做到这件事情。本文将为大家介绍几个强化学习在智能城市领域的应用案例。

一、智能交通

在城市各种各样的交通场景中,会遇到各种各样的资源配置和交通调度难题。如图3(a)所示,在一个典型的救护车辆调度场景中,救护车需要不断地往返于患者和救护车站点。救护车的接车时间在很大程度上取决于移动救护车的动态重新部署策略。也就是说,在救护车可用之后,应该把它调到哪个车站。重新调配现有救护车会影响未来接载病人的时间。例如在图3(b)中,未来将有3名患者来到1号站附近,因此将现有的救护车1号重新部署到1号站,通过从1号站派遣救护车,可以使这些患者迅速被接走。

9670fc702d7ae627ed19ef5a5ad8e9b9.png

图1 救护车调度场景

这一问题依然可以利用强化学习的方法来求解。文章[1]将需要调度的救护车都被作为智能体,建模的核心就是确定相应的状态、动作以及奖励。在这一场景中,影响救护车效率的因素主要包括未来车站附近的病人数量、车站救护车的数量以及救护车与车站的距离等。将这些指标进行一定的转化,就可以提炼出病患密度、旅程时间等多个相关因子。这些相关因子就可以被作为输入状态。在这一场景中,决策变量,也就是救护车在完成接送任务后,被部署到不同的站点,就是智能体的动作。而优化目标,也就是将接载病人的时间,就是智能体的奖励,时间越短,奖励越大。理想情况下,每一辆救护车智能体都能够找到一种优势策略,让平均接送时间最短。接下来,文章引入深度强化学习算法,对这一场景进行很好地求解。

文章使用在真实世界中收集的数据集来评估动态救护车重新部署方法。实验结果表明,基于深度强化学习的救护车的重新部署方法明显优于最先进的基准方法。具体来说,与基准方法相比,基于深度强化学习的方法可以将10分钟内接诊的患者比例从0.786提高到0.838,节省平均接诊时间约20%(约100秒)。为了能够增加及时拯救病人的可能性,每一秒都是至关重要的。

在交通场景中,还有很多与之相似地调度问题,例如共享单车调度、公交车辆路线规划、出租车/网约车调度等。在这些场景中,都可以使用与之相类似的方法。此外,随着物联网技术的发展,未来各行各业的管理将进一步扁平化。一大批新的场景也会涌现出来。例如,交通信号灯的控制优化、自动驾驶的控制于决策,无人车辆的调度都属于深度强化学习的应用场景。所以,强化学习技术在未来将会在未来的智能交通中起到重要作用。

二、智能物流

物流的发展极大地方便了人们,促进了电子商务的发展。但庞大的运单量却带来了很多管理问题,行业派单效率和配送效率普遍低下,导致了大量劳动力浪费。在快递领域,配送员的任务量不均衡现象是普遍存在的。这导致部分快递员任务量过饱和或不足。如果能够根据任务的不同,动态规划出每一个快递员的任务进行规划,那么就可以减弱这种资源不均衡现象,来提高资源利用率和任务完成率。但在现实中,快递员需要同时肩负配送和取件两项职能,还要兼顾整体地配送效率更高,这无疑会增加问题的复杂度。文章[2]利用深度强化学习来解决这一问题。

在文章中,作者将整个空间粗略地划分成若干小区域,由图4中的小方格来表示。其中A、B、C分别表示三个快递员c1、c2、c3在每一个小区域的剩余配送量,其中阴影的小区域表示快递员当前的位置。D和G表示每一个小区域待取件的数量。F和H分别表示以快递员c1、c2为视角,其他快递员的位置。E表示快递员c1由位置g3到达位置g2。在真实场景中,影响快递员路线规划的因素,包括剩余的配送位置、待取件的位置、队友的位置、队友的行进路线等,基本都可以被这一图结构表达出来。所以这一图结构就作为智能体的状态。而智能体的动作则是快递员的前进方向,如向左还是向右,奖励就是为快递员完成的任务量。完成的任务越多,奖励越大。同样,在确定了这三维核心指标后,就可以引入深度强化学习算法来求解。

46ada4b48d10389fddef33821cf14174.png

图2

我们可以推断出,除了快递员的路径选择,车辆的运输、调度,也属于相似的场景,也可以使用相似的方法来解决。甚至大型物流仓储管理,也可以利用强化学习来建模。

三、智能能源

锅炉燃烧优化是一个典型的智能控制场景。电站锅炉系统高度复杂,包含磨煤、燃烧、水汽循环等多个环节,一个普通600MW中型火电机组就拥有上万个传感器测点,内部涉及燃烧、风烟、水热循环等众多物理化学过程非常复杂。纯粹使用机理建模的方法很难对如此复杂的系统做精准化建模,导致系统描述失准,影响优化效果。

从控制优化角度来讲,火电燃烧优化涉及上百个主要控制量(例如机组内部各种锅炉给煤量、各种风门、阀门开度等),而且这些变量均为连续变量(例如某个阀门开度20%和开度25%可能对机组运行带来非常不同的影响)。与此同时,当前动作所造成的影响往往不能够实时反馈,所以还需要考虑到长期的影响。对于如此复杂的场景,即便是有多年丰富经验的运行人员,也很少能够总结出一套高效的调节策略。所以此类复杂系统高维连续变量控制优化问题是世界性的难题。

af2721e76fe9a48ed119506e8f6792b1.png

图3 火电锅炉运行流程

而深度强化学习恰恰适合来做这件事情。图2展示了我们基于强化学习的建模流程。对于一个典型的锅炉环境,我们可以得到很多的传感器提供系统的状态描述,例如锅炉中各种温度、风量、水量、压力等监测值。我们可以把这些实时反馈的监测值作为状态,也就是智能体能够“看到”的东西。然后我们将给煤量、各种风门、阀门开度等控制变量作为动作。

在确定了状态和动作,我们利用一个业务指标(燃烧效率)作为奖励。智能体依据当前的状态输出动作,对锅炉控制参数进行调节,锅炉环境就会产生一个变化,到达一个新的状态,如果燃烧效率朝着好的方向变化,我们就给一个正向的奖励,如果是不好的变化,我们可以给一个负向的奖励。在完成了建模工作后,我们接下来通过合理的学习算法,就可以学习出更好的策略。

学习算法通过观察很多的从状态和动作到下一个状态的变化过程,从中抽象状态——动作——奖励的对应模式,最终找到一个最佳的控制策略,可以从当前的状态映射到最佳的控制(动作)变量,实现长期平均奖励的最大化。

在上机实测过程中,基于强化学习的控制策略相比于人类操作达到了0.5%的效率提升,对于一台600MW机组,相当于年经济效益240万元。与此同时,我们已经实现了对于AI模型的产品化,具备了批量复制的能力,并在多个电厂落地并完成了验收。

161191cbc31ae9eb1037c6af998cbe04.png

图4 基于强化学习的燃烧优化智能体

除了燃烧优化场景意外,在火电中,我们也已经将强化学习方法用在了磨煤机控制优化、冷端优化等场景中,并取得了很好的效果。上文所述的控制场景,强化学习也可以在温度控制、电网调度、能源管理等领域得到应用。另外,火电锅炉的控制属于典型的过程控制。在工业生产中,水泥生产过程中的磨机控制,机场ACDM系统中的车辆与人员调度、停机位优化,以及钢铁制造、化工等工业场景也均属于相似的场景。在这些场景中,可以提炼出来大量的控制与优化问题,深度强化学习技术也具有着广阔的空间。

通过案例我们可以看到,对于一个现实中的场景,如果能够确定影响的相关因素、优化动作以及优化目标,深度强化学习技术将可以隆重登场了。而这些场景在我们的生产生活中是大量存在的。所以在未来的智能城市与产业中,深度强化学习技术会起到重要的作用。但是就目前来说,深度强化学习的落地仍存在一些局限。这其中一部分原因是算法的学习效率仍不够高效,适应场景也较为狭窄,另外一部分原因是目前很多行业的数字化程度还比较低。但随着物联网时代的到来,这一问题将会被逐步解决。与此同时,随着大批研究人员的前仆后继,深度强化学习本身的技术也在不断地迭代发展,算法适用的范围也越来越广泛。未来的发展一定越来越好。

参考文献

[1] Shenggong Ji,et.al A Deep ReinforcementLearning-Enabled Dynamic Redeployment System for Mobile Ambulances. UbiComp2019

[2] Li Y, Zheng Y, Yang Q. Efficient and Effective Expressvia Contextual Cooperative Reinforcement Learning[C]//Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery & Data Mining.2019: 510-519.

版权归原作者所有,如有侵权,请联系删除。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

4b61efea098cfac7b41ca5a7b5176406.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483797.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛客16500 珠心算测试

题目描述 珠心算是一种通过在脑中模拟算盘变化来完成快速运算的一种计算技术。珠心算训练,既能够开发智力,又能够为日常生活带来很多便利,因而在很多学校得到普及。 某学校的珠心算老师采用一种快速考察珠心算加法能力的测验方法。他随机生成…

读书笔记007:《伤寒论》- 手少阴心经

手少阴脉起心中,下膈直与小肠通,支者还从肺系走,直上喉咙系目瞳。直者上肺出腋下,臑后肘内少海从,臂内后廉抵掌中,锐骨之端注少冲。多气少血属此经,是动心脾痛难任,渴欲饮水咽干燥&a…

牛客16585 统计单词数

题目描述 一般的文本编辑器都有查找单词的功能,该功能可以快速定位特定单词在文章中的位置,有的还能统计出特定单词在文章中出现的次数。 现在,请你编程实现这一功能,具体要求是:给定一个单词,请你输出它在…

牛客21312 神秘餐馆

题目描述 一家神秘餐馆准备开放N天,牛牛 和 牛妹听到这个消息后,准备尽可能多的一起去吃午饭 餐馆有M道菜,牛牛和牛妹每次来只允许点一道菜,如果在第i天买了第j道菜 那么第i7天也只能买第j道菜 第i天第j道菜的价格为price[i][j] …

牛客21297 手机号码

题目描述 给你一个整数n表示手机号码的位数 再给你m个字符串表示保留的号码,比如911 110 120等 问你一共有多少的手机号码不以保留号码开头 n, m map(int, input().split()) s [] for _ in range(m):s.append(input())sum pow(10, n) num 0for i in range(m):flag Falsefo…

牛客16785 Cantor表

先找到第N个数在第几行第几列,然后根据规律进行计算 N int(input())t 1 while N-t > 0:N N-tt 1if t%2 0:print("%d/%d"%(N,t-N1)) else:print("%d/%d"%(t-N1,N))

Echarts富文本rich及格式化工具formatter的使用

Echarts官网上说,ECharts,一个使用 JavaScript 实现的开源可视化库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器(IE8/9/10/11,Chrome,Firefox,Safari等)&a…

国拨经费约31.48亿!科技部发布科技创新2030 —“脑科学与类脑研究”重大项目2021年度项目申报指南...

来源:科技部科技部关于发布科技创新 2030 —“脑科学与类脑研究”重大项目 2021年度项目申报指南的通知国科发资〔2021〕265号各省、自治区、直辖市及计划单列市科技厅(委、局),新疆生产建设兵团科技局,国务院各有关部…

牛客16662 津津的储蓄计划

题目描述 津津的零花钱一直都是自己管理。每个月的月初妈妈给津津300元钱,津津会预算这个月的花销,并且总能做到实际花销和预算的相同。 为了让津津学习如何储蓄,妈妈提出,津津可以随时把整百的钱存在她那里,到了年末她…

Hinton获2021迪克森科学奖:他改变了AI,改变了世界

来源:AI科技评论作者:维克多编辑:青暮据卡内基梅隆大学(CMU)官方消息,Geoffrey Hinton 获得了2021年的迪克森科学奖(The Dickson Prize in Science)。此奖项设立于1969年&#xff0c…

牛客21783 牛牛的星际旅行

题目描述 在一个遥远的星球上,每周有N天,牛牛去了这个星球旅游,他恰好只带了N件不同的衣服,编号为1到N 每一天他会穿其中的某一件衣服,一周之内不能穿同一件衣服两次,而且假如某件衣服是在第x天穿的&#x…

国拨经费约31.48亿!科技部发布科技创新2030 —“脑科学与类脑研究”重大项目2021年度项目申报指南

来源:科技部科技部关于发布科技创新 2030 —“脑科学与类脑研究”重大项目 2021年度项目申报指南的通知国科发资〔2021〕265号各省、自治区、直辖市及计划单列市科技厅(委、局),新疆生产建设兵团科技局,国务院各有关部…

牛客21805 字符串编码与解码

链接:https://ac.nowcoder.com/acm/problem/21805 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 32768K,其他语言65536K 64bit IO Format: %lld 题目描述 给你两个长度相同的字符串a&#xff…

数学有什么用处?看完后恍然大悟!

来源:算法数学俱乐部编辑:nhyilin高等数学有什么用?很多人问过我这个问题。其实大多数人在问这个问题的时候,心里已经预设了否定的答案。确实,对于大多数人来说,已经发展到了连数字都基本很少用了的一些高等…

牛客16589 机器翻译

链接:https://ac.nowcoder.com/acm/problem/16589 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 131072K,其他语言262144K 64bit IO Format: %lld 题目描述 小晨的电脑上安装了一个机器翻译软…

2021年传感器行业的机遇与风险 | 深度思考

来源:蓝焱资本2021年已过半,物联网时代已经到来。毫无疑问,万物联网的背后是万物数字化,而数字化万物的核心就是传感器。传感器这个概念虽然已经存在多年,但它依旧是个活力无限的领域。随着物联网概念的火热&#xff0…

牛客16654 谁拿了最多奖学金

链接:https://ac.nowcoder.com/acm/problem/16654 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 131072K,其他语言262144K 64bit IO Format: %lld 题目描述 某校的惯例是在每学期的期末考试之…

Flink应用场景

本文为《Flink大数据项目实战》学习笔记,想通过视频系统学习Flink这个最火爆的大数据计算框架的同学,推荐学习课程: Flink大数据项目实战:http://t.cn/EJtKhaz 主要应用场景有三类: 1.Event-driven Applications【事件…

未来,中国空间站将成为怎样的“太空科研站”?

来源:中国科学报作者:赵维杰,NSR新闻编辑9月17日13点34分,神舟十二号载人飞船返回舱在东风着陆场顺利着陆。航天员聂海胜、刘伯明、汤洪波状态良好,我国空间站阶段首次载人飞行任务取得圆满成功。从6月17日升空至今&am…

牛客16464 神奇的幻方

链接:https://ac.nowcoder.com/acm/problem/16464 来源:牛客网 时间限制:C/C 1秒,其他语言2秒 空间限制:C/C 131072K,其他语言262144K 64bit IO Format: %lld 题目描述 幻方是一种很神奇的 N*N 矩阵&…