不用地图如何导航?DeepMind提出新型双路径强化学习「智能体」架构

来源:deepmind、arXiv

作者:Piotr Mirowski、Matthew Koichi Grimes、Mateusz Malinowski、Karl Moritz Hermann、Keith Anderson、Denis Teplyashin、Karen Simonyan、Koray Kavukcuoglu、Andrew Zisserman、Raia Hadsell

「雷克世界」编译:嗯~是阿童木呀、KABUDA、EVA


摘要:最近,DeepMind提出了一种全新的、双路径智能体结构,该结构采用端到端的强化学习进行训练,可处理城市级规模的真实视觉导航任务。


一直以来,导航都是一项重要的认知任务,它使人类和动物在一个复杂的世界里,在没有地图的情况下,能够穿越遥远的距离。可以这样说,能够在非结构化环境中导航是智能生物的基本能力,因此这对于人工智能的研究和开发具有根本性的作用。最近,DeepMind提出了一种全新的、双路径智能体结构,该结构采用端到端的强化学习进行训练,可处理城市级规模的真实视觉导航任务。


在你童年生活中,你是如何学会对你所在的社区进行导航的?你是如何导航去你的朋友家、去学校或者去杂货店的?可能没有地图,只要记住街道的视觉外观,就可以沿着路转弯。当你逐渐探索了你所在的社区之时,你变得更加自信了,掌握了自己的去向,并学习了新的、越来越复杂的路径。你可能短暂地迷失过方向,但又因为地标的出现,或者甚至可能是通过看太阳找到一个即时指南针,从而再次找到了你的路线。


导航是一项重要的认知任务,它使人类和动物在一个复杂的世界里,在没有地图的情况下,能够穿越遥远的距离。这样的远程导航可以同时支持自我定位(“我在这里”)和目标表征(“我要去那里”)。


在《学习在不使用地图的情况下在城市中进行导航》这篇论文中,我们呈现了一种交互的导航环境,它使用了来自谷歌街景 (Google Street View)的第一人称视角照片,并将该环境进行游戏化以训练人工智能。根据街景图片的标准,人脸和车辆牌照都被模糊了且无法辨认。我们建立了一个基于神经网络的人工智能体,它可以利用视觉信息(来自街景图像的像素)来学习如何在多个城市中进行导航。请注意,这项研究是关于广义的导航的,而不是驾驶;我们没有使用交通信息,也没有试图对车辆控制进行建模。


 我们的智能体在不访问该环境地图的情况下,在外观上多样化的环境中进行导航


当智能体到达目标目的地(例如,特定的一对纬度和经度坐标)时,它就会得到奖励。它就像一个快递员,有着无止境的交付任务,但它没有地图。随着时间的推移,人工智能体学会以这种方式跨越整个城市。我们还证明了,我们的智能体可以在多个城市中学习这项任务,然后鲁棒性地适应一个新的城市。


在巴黎进行训练的智能体的定格拍摄。这些图像与城市的地图叠加在一起,显示出目标位置(红色)以及智能体位置和视野(绿色)。注意,智能体并没有看到地图,只有目标位置的经纬度坐标。


学习在不需要构建地图的情况下进行导航


我们背离了那种依赖于显式测绘和探索的传统方法(就像试图将自己定位并同时绘制地图的那种制图师)。与此相反,我们的方法是学习人类过去常常使用的那种方法进行导航——没有地图、GPS定位或者其他的辅助手段,只使用视觉观察。我们构建了一个神经网络智能体,它输入从环境中观察到的图像,并预测在该环境中它应该采取的下一步行动。我们使用深度强化学习来对它进行端到端的训练,类似于最近的一些关于学习如何在复杂的3D迷宫中进行导航的研究,以及在玩游戏中使用引入了无监督辅助任务的强化学习的研究。与那些在小规模模拟迷宫环境中进行的研究不同,我们利用了城市规模的真实世界数据,包括复杂的十字路口、人行道、隧道,以及横跨伦敦、巴黎和纽约的各种拓扑结构。此外,我们使用的方法还支持特定城市的学习和优化,以及泛化的、可迁移的导航行为。


可以迁移到新城市的模块化神经网络架构


我们的智能体中的神经网络在由三部分组成:1)一个能够处理图像并提取视觉特征的卷积网络;2)一个特定于地区的循环神经网络,它隐式任务是负责记忆环境以及学习“这里”(智能体的当前位置)和“那里”(目标的位置)的表征;3) 不因地区改变的循环网络,它生产出智能体行为的导航策略。特定于地区的模块被设计为可互换的,正如其名称所示,这个模块对于智能体所导航的每个城市来说都是独一无二的,但视觉模块和策略模块是可以不因地区改变的。


 将城市导航(CityNav)架构(a)、多城市导航(MultiCityNav)架构与每个城市的特定地区路径(b)作比较,以及对将智能体调整到新城市时的训练和迁移过程(c)作出说明。


就像在谷歌街景界面中一样,智能体可以在适当的位置进行旋转,或者在可能的情况下前进到下一个全景图。与谷歌地图和街景环境不同的是,该智能体没有看到小箭头、局部地图或全局地图,也没有看到著名的小黄人(Pegman):它需要学习区分开放的道路和人行道。在现实世界中,目标目的地可能在几公里之外,并需要智能体跨过数百幅全景图才能到达目的地。


我们证明了,我们所提出的方法可以提供一种将知识迁移到新城市的机制。和人类一样,当我们的智能体访问一个新城市时,我们希望它必须学习一套新的地标,但不需要重新学习它的视觉表征或它的行为(例如,沿着街道向前走,或者在十字路口转弯)。因此,我们使用了多城市(MultiCity)架构,首先在许多城市进行了训练,然后我们冻结了策略网络和视觉的卷积网络,并且在一个新城市中只有一条特定于地区的路径。这种方法使智能体能够获得新的知识,而不会忘记它已经学过的知识,这与渐进式神经网络架构(progressive neural networks architecture.)类似。


 在该研究中所使用的曼哈顿的五个区域


研究导航是研究和发展人工智能的基础,尝试在人工智能体中复制导航也能帮助科学家了解其生物学基础。


论文简述



可以这样说,能够在非结构化环境中导航是智能生物的基本能力,因此这对于人工智能的研究和开发具有根本性的作用。远程导航是一项复杂的认知任务,它依赖于开发一个空间的内部表征,以可识别的地标和具有鲁棒性的视觉处理为基础,可同时支持连续的自我定位(“我在这里”)和目标表示(“我将去那里”)。


基于最近进行的将深度强化学习应用于迷宫导航问题的研究,我们提出了一种可应用于城市规模的端到端深度强化学习方法。认识到成功的导航依赖于通用策略与特定于地区的知识的集成,我们提出了一种双路径体系架构,可以将特定地区的特征封装起来,同时仍然能够迁移到多个城市。


我们展示了一个交互式导航环境,它使用Google StreetView作为其照片内容和全球范围性的覆盖范围,并且证明我们的学习方法使得智能体能够学习在多个城市进行导航,并且能够穿过可能在数公里之外的目标目的地。


一直以来,关于导航这一主题吸引了各种研究学科和技术领域科学家们的关注,从希望破解网格代码和位置细胞(place cells)的神经科学家角度来看,它一度成为研究的主题;同时对于希望构建可以到达特定目的地的移动机器人研究来说,它也是机器人研究的一个基本方面。


大多数算法都涉及在探索阶段构建显式映射,然后通过该表征进行规划和行动。在这项研究中,我们试图通过提出一种新方法并展示其在大规模实际环境中的性能,从而挑战端到端深度强化学习的导航极限。正如人类可以不依赖地图、GPS定位或其他辅助工具而学习在城市中进行导航一样,我们的目标是证明神经网络智能体可以仅通过使用视觉观察便可横穿整个城市。


为了实现这一目标,我们设计了一个交互式环境,使用Google StreetView中的图像和基本连接信息,并提出了一种可在环境中导航的双路径智能体体系结构(见下图)。

 

我们的环境根据StreetView的实际场所构建的。该图显示了纽约市(时代广场、中央公园)和伦敦(圣保罗大教堂)的不同景观和相应的局部地图。绿色圆锥表示智能体的位置和方向。


通过使用可以从任务奖励中进行学习的深度强化学习方法(例如,导航到目的地),在某些领域内,学习直接通过视觉输入进行导航已被证明是可能的。最近的研究已经证明,强化学习智能体可以学习对家庭场景(Zhu等人于2017年、Wu等人于2018年提出)、迷宫(Mirowski等人于2016年提出)和3D游戏(例如Lample和Chaplot于2017年提出)进行导航。


尽管取得了成功,但众所周知,深度强化学习方法数据低效且对环境干扰异常敏感,并且在游戏和模拟环境中的成功要远远高于其在实际环境中的应用。因此,它们不可以用于基于真实图像的大规模视觉导航,从而它也是我们此次研究的主题。


我们的贡献


本文的主要贡献是提出了一种全新的、双路径智能体结构,该结构采用端到端的强化学习进行训练,可处理城市级规模的真实视觉导航任务。我们提出的智能体展示了目标依赖性学习,这意味着策略和价值函数必须学会适应一系列作为输入而给定的目标。


此外,该方法具有一种循环神经结构,即支持特定语言环境的学习,也支持通用的、可迁移的导航行为。平衡这两项能力是通过将循环神经路径从智能体的通用导航策略中分离出来实现的。该路径解决了两点需求。首先,它接收并解释了环境给出的当前目标。其次,其次,它封装并记忆了单个城市地区的特征和结构。因此,我们不使用地图或外部存储器,而是提出了具有两条循环路径的体系架构,这可以有效解决单个城市中具有挑战性的导航任务,并仅通过训练新的特定语言环境路径即可迁移到新的城市或地区。


我们在一个新的强化学习交互环境中演示了所提出的智能体架构,该环境将现实世界的图像作为智能体观测,具有全球规模性和多样性,以及聚于建立在Google StreetView之上的现实世界的基础内容。在该环境中,我们研发了一项遍历任务,要求智能体在伦敦、巴黎和纽约市内完成从一点到另一点的导航。我们任务的现实世界类比是,在一个给定的城市中,信使从一点A出发(该点是任意选定的),到指定的地点B,这一过程中没有给出该区域的地图,也没有给出从A到B的路线,更没有给出各点的具体方位。


导航是一项重要的认知任务,它使人类和动物能够在没有地图的情况下穿越复杂的世界。我们提出了一种解决城市级现实环境中任务的深度强化学习导航方法,引入并分析了一项新的信使任务,同时,我们还提出了一个多城市神经网络智能体架构,演示了该如何将其迁移到新的新环境。


原文链接:https://deepmind.com/blog/learning-to-navigate-cities-without-a-map/

论文链接:https://arxiv.org/pdf/1804.00168.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C 和 C++ 宏 详解

From:https://www.cnblogs.com/njczy2010/p/5773061.html C中的预编译宏详解:http://www.cppblog.com/bellgrade/archive/2010/03/18/110030.html C语言的宏总结:http://blog.csdn.net/pirlck/article/details/51254590 C 语言中的 宏定义…

Spring Data JPA 从入门到精通~查询方法的创建

查询方法的创建 内部基础架构中有个根据方法名的查询生成器机制,对于在存储库的实体上构建约束查询很有用,该机制方法的前缀 find…By、read…By、query…By、count…By 和 get…By 从所述方法和开始分析它的其余部分(实体里面的字段&#x…

人工智能在能源行业的5个应用

作者:CB Insights . 来源:CometLabs摘要:自2012年以来,把人工智能和能源产业放在一起进行报道的新闻开始增多。本文简要描述了人工智能在能源行业的5个应用方向,及对应的案例。能源行业会产生大量的数据。为了将这些数…

VMware 安装 win7、win10、MAC 和网络模式VMnet0、VMnet1、VMnet8解释

VMware虚拟机安装ghost win7系统方法:http://www.xitongcheng.com/jiaocheng/xtazjc_article_15314.html VMWare14 安装Mac OS系统(图解):http://blog.csdn.net/u011415782/article/details/78505422 虚拟机(VMware …

Spring Data JPA 从入门到精通~关键字列表

注意除了 find 的前缀之外,我们查看 PartTree 的源码,还有如下几种前缀: private static final String QUERY_PATTERN "find|read|get|query|stream"; private static final String COUNT_PATTERN "count"; private s…

当科学遇上众包:9个值得关注的前沿科技算力众包平台

来源: 资本实验室 . 作者:李鑫找到癌症治疗的方法,预测气候的变化,追踪可能与地球相撞的小行星……甚至预测地震,我们每天都面临着各种世界性难题。如果你想参与解决这些难题,公民科学应用将让你发挥作用…

htop 命令详解

htop 官网:http://htop.sourceforge.net/ Linux top 命令的用法详细详解:https://www.cnblogs.com/zhoug2020/p/6336453.html htop 使用详解:https://www.cnblogs.com/programmer-tlh/p/11726016.html 使用 yum 无法直接安装 htop&#xff…

linux主机服务器日志采集,Linux通过Rsyslog搭建集中日志服务器

(一)Rsyslog简介ryslog 是一个快速处理收集系统日志的程序,提供了高性能、安全功能和模块化设计。rsyslog 是syslog 的升级版,它将多种来源输入输出转换结果到目的地。rsyslog是一个开源工具,被广泛用于Linux系统以通过TCP/UDP协议转发或接收…

IDC预测2022年全球智能家居连接设备市场规模将达10亿台!

来源: IDC官网、智慧生活; 物联网资本论编译摘要:2017年,全球智能家居连接设备市场规模达到43310万台,比上一年增长27.6%。2022年市场达到9.397亿台,IDC预计复合年增长率(CAGR&#…

effective C++ 读书笔记

本篇文章都是摘自 《Effective C》 中文版 第三版 和 第二版。 再好的记性也有忘记的一天,记录下以备随时查看。。。 电子书下载地址:https://download.csdn.net/download/freeking101/10278088 《Effective C》第二版在线教程:http://www.…

Spring Data JPA 从入门到精通~思维导图

#原图 System.out.println("https://www.processon.com/view/61c7227c0e3e7474fb9b4b76?fromnew1");

高通5G版图现身!你的网络生活将迎来巨变?

来源:36Kr 作者:桐由于骁龙845移动平台和骁龙636移动平台的首发,3月的手机市场对于持币代购的消费者而言注定是充满期待的,在三星S9和红米Note5刷屏之时,曾经隐身手机幕后的高通也再一次引发用户热议,高通…

linux添加nginx,linux下安装Nginx1.16.0的教程详解

因为最近在倒腾linux,想安装新版本的nginx,找了一圈教程没有找到对应的教程,在稍微倒腾了一会之后终于成功的安装了最新版。服务器环境为centos,接下来是详细步骤:安装必要依赖插件?创建文件夹并切换过去?下载安装包…

深度|2030年8亿人会失业!图解机器人如何取代你的工作

来源:财看见-腾讯财经(ID:qqckj2017)未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系&#xff0…

Java使用Itext5.5.10进行pdf签章

来源:Java使用Itext5.5.10进行pdf签章_liumengya007007的博客-CSDN博客_itext 签章 啰嗦 说到PDF数字签名签章,这个其实也是数字证书信息安全的应用范畴,关于数字证书和数字签名,网上有很多解释说明,但讲解都多不够详…

Python的bool类型

写习惯了C#的代码,在想要将一个字符串False转换为bool型的时候,很自然的写了如下的Python代码: 看到上面的结果了没?是True。突然记起Python中除了、""、0、()、[]、{}、None为False之外,其他的都是True。也…

工业机器人发展趋势分析 未来营收规模达到百亿级水平

来源:前瞻产业研究院摘要:工业机器人是打造自动化工厂的重要组成,可有效提高效率生产、降低成本和控制质量。工业机器人是面向工业领域的多关节机械手或多自由度的机器装置,它能自动执行工作,是靠自身动力和控制能力来实现各种功能的一种机器。工业机器人…

【itext学习之路】--5.对pdf进行盖章/签章/数字签名

来源:【itext学习之路】-------(第五篇)对pdf进行盖章/签章/数字签名_tomatocc的博客-CSDN博客_itext 数字签名 在上一篇文章中,我们学习了使用itext对pdf增加图片水印和文本水印,那么这篇文章我们将要学习更高级一点…

python selenium 用法 和 Chrome headless

From: http://cuiqingcai.com/2599.html Selenium教程:https://www.yiibai.com/selenium selenium 官方参考文档:https://selenium-python.readthedocs.io/index.html Selenium Documentation:https://www.seleniumhq.org/docs Selenium 与 …

【itext学习之路】--1.创建一个简单的pdf文档

来源:https://blog.csdn.net/tomatocc/article/details/80666011 iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件 本教程中…