Science 好文:强化学习之后,机器人学习瓶颈如何突破?

来源 | AI科技评论

编译 | 陈彩娴

编辑 | 陈大鑫

在过去的十年里,机器学习确实取得了巨大的突破,计算机视觉与语言处理方面也因此出现了许多改变世界的重要应用。但是,这股“春风”却没有吹到智能机器人领域。

针对机器人学习所面临的瓶颈,麻省理工学院机器人专家Leslie Pack Kaebling在《Science》上发表一篇名为《The foundation of efficient robot learning》的文章。她认为,造成这一现象的一个关键因素在于:机器人学习的数据只能通过在现实世界的操作中获得,成本非常高昂。

为此,Leslie女士提出,实现下一代机器人学习的技术革新,需要应用新的算法、从自然体系中获取灵感,并灵活使用多项机器学习技术。

1

强化学习是否真的那么灵?

尽管监督学习取得了许多重要的成果,但在机器人学习领域,强化学习(RL)更具有优势,因为机器人要在人类世界中执行一系列不同的任务。

在监督学习中,学习算法被赋予输入与期望输出的配对示例,并学会将输入与期望输出关联起来。而在强化学习中,智能体能够根据事先设置的奖励信号来判断自己的表现是出色的,或是差劲的,进而选择恰当的行动方式,这与机器人所应用的复杂环境有利相关。简而言之,监督学习与强化学习的本质区别在于:在强化学习里,智能体的行为对数据产生重大影响,并能控制自己的学习探索,这对整体成功至关重要。

在一开始,RL是通过奖励和惩罚机制来学习动物行为的模型。之后,如果应用RL处理现实世界里的问题,那么RL必须拓展,以处理巨大空间的输入和动作,并且,即使成功执行关键动作后奖励“姗姗来迟”,RL也能维持正常运行状态。这时候,便出现了深度强化学习(DRL)方法。

DRL使用了神经网络来解决上述的现实问题,并展现了惊人的性能,比如机器人下国际象棋和围棋游戏,以及用机器手臂3秒钟解出魔方。此外,RL也带来了许多实用性强的应用,比如提高安装计算机的能效。       

有了这些成功的机器人案例后,人们自然而然便会想象:在物理世界中,RL是否会完全取代以往运用在机器人身上的传统工程方法和其他行为复杂的系统呢?

从技术层面上看,这种想象是荒谬的。

我们可以想象一个专门帮助老人料理家务的机器人:在“上岗”之前,机器人必须先具备大量知识与能力,同时还需要在工作中学习新的知识、不断积累工作经验。后者的学习必须是样本高效的(需要相对较少的训练示例)、可泛化的(适用于特定学习以外的其他情况)、组合性的(能与以往的知识相结合)和增量式的(能够随着时间的推移增加新知识和新能力)。

但是,现有的DRL方法都不具备以上特性。虽然它们可以学习许多令人震惊的新技能,但总的来说,它们无法将所积累的大量经验很好地泛化至其他方面,且在训练与执行的过程中表现单一,比如既没有增长新的知识,也没有组合以往的经验。

如何能使一个智能系统同时具有样本高效性、泛化性、组合性和增量性呢?经证明,现代神经网络能有效处理插值问题。

如果有大量参数,神经网络能够牢记训练数据,并在相似的示例上做出可靠预测。我们可以通过内置知识或结构的形式,向学习算法赋予“归纳偏置”(inductive bias),进而获取泛化能力。比方说,在拥有归纳偏置的自动驾驶系统中,系统的刹车方案只需要参考在规定距离范围内的其他车辆的位置。该系统的知识能从相对较少的示例中获取,因为良好拟合观察数据的可选解决方案有限。

总体而言,归纳偏置能够提高样本高效性和泛化能力。组合性和增量性则可以通过搭建有特定结构的归纳偏置模型来获得,在这个模型里,通过学习获得的“知识”被分解成具有独立语义的的因子(factor),这些因子可以组合起来解决大量的新问题。

2

如何巧妙建立归纳偏置?

基于先验知识或结构的观点不一定是“真知灼见”。

强化学习领域的先驱者Richard Sutton坚信,人类不应该将任何先验知识构容纳到学习系统中,因为纵观历史,这种做法往往是错的。Richard Sutton的文章引起了强烈的反响,并指明了学习系统设计中的一个关键问题:在学习系统中建立什么样的归纳偏置,才能使系统具有从大量数据中学习可泛化知识、又不会因为数据不正确或过约束而失灵呢?

目前有两种设置恰当偏置的方法。这两种方法具有连贯性,但具有不同的时间范围和权衡取舍(trade-offs),可以同时应用于寻找学习智能体所需的强大而灵活的先验结构。

方法1:在“元”层面运用机器学习技术

这种方法指的是,在系统设计阶段,离线使用机器学习技术来发现能提高智能体在线学习效率的结构、算法和先验知识。

元学习的基本概念至少从上世纪80年代在机器学习和统计学中出现,基本思路是:在系统设计阶段,元学习过程便能访问系统在线学习时可能面临的许多潜在任务或环境的样本。

元学习器的目的不在于掌握适应单个环境的多种策略或适用于全部环境的单项策略,而是掌握一种在线学习时面临新任务或新环境时也尽可能高效学习的算法。这个目标可以通过在训练任务间引入共性,并使用这些共性形成有力的先验或归纳偏置,使在线学习的智能体只学习那些将新任务与训练任务区分开来的方面。

元学习可以非常出色地形式化为一种分层的贝叶斯(概率)推理。在这种推理形式中,训练任务可以看作是在提供在线学习的任务会如何表现的证据,并基于这些证据利用好在线学习所获得的数据。但是,贝叶斯形式在计算上可能很难实现,因为它是对系统设计阶段中所遇到的大量任务进行推理,其中也可能包含在线学习的实际任务。

方法2:将元学习明确地描述为两个嵌套的优化问题

内部优化在线进行指的是:智能体试图从系统设计阶段生成的一系列假设中找到在线学习数据中“得分”最佳的假设。内部优化的特色在于假设空间、评分标准和将用于搜索最佳假设的计算机算法。在传统的机器学习中,这些成分由人类工程师提供。

但在元学习中,至少一部分是由系统设计阶段进行的外部“元”优化过程所提供的。元优化试图找到内部学习过程本身的参数。这些参数能使学习在与元学习的环境相似的新环境中进行(源于相同的分布)。

最近有研究介绍了一种新的元学习形式,叫做“与模型无关的元学习”(model-agnostic meta-learning,MAML)。MAML是一个嵌套的优化框架,其中外部优化选择的是一些内部神经网络权重的初始值,能通过在线学习的标准梯度下降优化方法进一步调整。RL2算法在系统设计阶段中使用DRL来学习在线学习运行的一般小型程序,但这些小型程序不一定具有机器学习程序的形式。另一个变体试图在系统设计阶段发现可以组合起来以解决在线学习出现的问题的模块构造块(modular building blocks,如小型神经网络)。

自然界中的进化过程可以被认为是元学习的一种极端形式。在自然进化中,自然界会为了动物去寻找一个含有潜在学习算法的、极其不受限制的空间。(当然,从本质上讲,智能体的生理状况也会发生改变。)在机器人生命周期内,对内部优化问题的处理越灵活,越需要更多用于提高鲁棒性的资源,包括系统设计阶段的示例环境、在线学习的性能不佳的机器人,以及在两个阶段运行的计算容量。 

这时候,我们又回到最初的问题:标准的强化学习方法不会被采用,因为尽管它是一种通用的学习方法,但它需要大量的在线学习经验。然而,元强化学习(meta-RL)需要丰富的系统设计经验,这可能会使开发过程变得迟钝、缓慢而花费高昂。因此,也许元学习也不是一个好的解决方法。

那还有什么解决方法呢?有很多方向可以探索,包括人类教学、与其他机器人协作学习,以及更改机器人的硬件和软件。在所有这些情况下,关键的一步还是设计出有效的方法来开发机器人软件。通过运用从计算机科学和工程学中所获得的见识以及认知神经科学的启发,我们可以找到能够内置到学习智能体中的算法和结构,并提供在系统设计阶段和在线学习算法和结构的杠杆。

卷积神经网络的发展是上述方法的典型例子。卷积神经网络的理念是设计出一种用于图像处理的神经网络,以使其执行“卷积”,即在整个图像上使用相同的计算模式对图像块进行局部处理。这个设计同时对先验知识进行了编码。在此处,先验知识指的是无论物体处于图像中的什么位置,物体都具有基本相同的外观(平移不变性),以及接近的像素组共享图像内容的信息(空间局部性)。与没有卷积结构的情况相比,以这种方式训练一个神经网络意味着需要的参数数量更少,因此训练次数也相应减少。

图像卷积的点子由工程师和自然启发,是早期信号处理和计算机视觉的基础概念。一直以来,人们都认为,哺乳动物视觉皮层中的细胞似乎也在执行类似的计算。

3

总结

由此可见,发现更多能为机器人学习提供实质性的杠杆作用、又不会阻止机器人进行一般智能行为的基本结构或算法约束,比如卷积,是非常重要的一步。

现在也有一些不错的解决方法,比如说:一,用有行动效应的“心理模型”来进行某种形式的正向搜索,类似于规划或推理;二,学习并表示从单个对象中提取、但可以广泛应用的知识,比如,对所有的A和B而言,如果A在B之上,移动B时,A可能也会移动;三,对三维空间进行推理,包括在三维空间内规划和执行动作、将三维空间作为存储的组织原理。

此外,我们也许还需要更多可能有效的原理,也需要解决许多其他问题,包括如何开发能同时在系统设计阶段和在线进行训练的基础设施,还有帮助人类明确奖励和维系安全的方法。综合考虑工程原理、生物学灵感、系统设计阶段学习以及最终的在线学习,人类最终才有可能打造出类人的智能机器人。

原文链接:

https://science.sciencemag.org/content/369/6506/915

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487133.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于忆阻器的神经网络应用研究

来源:文章转载自期刊《微纳电子与智能制造》,作者:陈 佳,潘文谦,秦一凡,王 峰,李灏阳,李 祎,缪向水。摘 要基于忆阻突触器件的硬件神经网络是神经形态计算的重要发展方向…

CORS预检请求详谈

引言 最近在项目中因前后端部署不同地方,前端在请求后端api时发生了跨域请求,我们采用CORS(跨域资源共享)来解决跨域请求,这需要前后端的配合来完成。在这一过程中,后端支持了CORS跨域请求后,前端的请求配置可能会调起…

制胜人工智能时代——企业人工智能应用现状分析(第三版)

全文共计300字25图,预计阅读时间9分钟来源 | 德勤Deloitte(转载请注明来源)编辑 | 张77当前,现今一代人工智能技术的应用正在展开新的篇章。我们可以看到,人工智能已被广泛部署于各类用例,以解决不同业务问…

Tomcat启动时项目重复加载,导致资源初始化两次的问题

最近在项目开发测试的时候,发现Tomcat启动时项目重复加载,导致资源初始化两次的问题导致该问题的原因:如下图:在Eclipse中将Server Locations设置为“Use Tomcat installation(takes control of Tomcat installation)”时&#xf…

论文速递:通过模拟大脑-解决深度学习中的灾难性遗忘

来源:混沌巡洋舰灾难性遗忘指的是:不像人类,当深度学习模型被训练完成新的任务时,他们很快就会忘记以前学过的东西。8月13号的自然通讯论文Brain-inspired replay for continual learning with artificial neural networks&#x…

蒲慕明院士PNAS最新研究:神经元数量在共同激活诱导大脑神经元兴奋性增强的重要性...

来源:brainnews2020年8月3日,中国科学院脑科学与智能技术卓越创新中心(神经科学研究所)、上海脑科学与类脑研究中心、神经科学国家重点实验室蒲慕明研究组在《Proceedings of the National Academy of Sciences》杂志在线发表了题为《同步激活大量神经元…

一文读懂什么是数字孪生?

文章转载自微信公众号数字孪生大赛,版权归原作者及刊载媒体所有。一、数字孪生的概念从理论的概念来看,Digital Twin数字孪生:是充分利用物理模型、传感器更新、运行历史等数据,集成多学科、多物理量、多尺度、多概率的仿真过程,在…

第五轮学科评估再提“破五唯”

来源:中国科学报作者:袁一雪近日,教育部官网公布了对《关于完善高校学科评估制度,促进教育治理体系和能力现代化的提案》的答复,提到学科评估坚决破除“五唯”顽疾。评价教师不唯“学历”和“职称”,不设置…

MEMS惯性传感器有哪些趋势?

来源:半导体产业基金整理如何在灾难救援中,精准定位受困人员的位置?如何在无人机操作中,提高系统精度?如何在人机交互中,更好的实现动作检测和姿势识别?如何在自动驾驶中,做到更精确…

css pointer-event

详见:张鑫旭 CSS3 pointer-events:none应用举例及扩展 pointer-events:none ,可以使事件穿透, 如: 2 覆盖在 1 上面。 给 2 设置 pointer-events:none;那么点击在 2 上将无效, 可以直接触发 1 上的事件 转载…

5G智慧医疗十大应用场景,你知道多少?

来源:北京物联网智能技术应用协会都说5G会改变千行百业,其中,5G医疗健康就是5G技术在医疗健康行业的一个重要应用领域。随着 5G 正式商用的到来以及与大数据、互联网、人工智能、区块链等前沿技术的充分整合和运用, 5G 医疗健康越…

起源,机制与趋势,如何理解和定义城市大脑

前言:本文从城市大脑的起源背景,技术支撑,建设重点,服务对象和发展目标等多个角度,对城市大脑如何定义进行了分析和解读,提出:城市大脑是互联网大脑架构与智慧城市建设结合的产物,是…

DARPA举办AlphaDogfight决赛,AI 操控战斗机5:0战胜人类飞行员

来源:必达智库由美国国防部高级研究计划局(DARPA)举办的 “阿尔法狗决战试验”(AlphaDogfight)决赛当地时间8月20日于正式落下帷幕。最终,赫伦系统公司(Heron Systems)在虚拟空战中以…

A. PHP文件运行原理

转载于:https://www.cnblogs.com/youyuanjuyou/p/8099665.html

智源研究院首席科学家刘嘉:认知神经的未来发展规划是什么?

来源 | AI前线演讲嘉宾 | 刘嘉编辑 | 冬梅8 月 24 日,北京智源人工智能研究院在京举办了人工智能的认知神经基础发布会。会上,智源研究院发布了重大研究方向——“人工智能的认知神经基础”,以跨学科交叉方式进一步夯实人工智能的科学基础。…

最全数学各个分支简介

来源:算法数学俱乐部编辑 ∑Gemini数论人类从学会计数开始就一直和自然数打交道了,后来由于实践的需要,数的概念进一步扩充,自然数被叫做正整数,而把它们的相反数叫做负整数,介于正整数和负整数中间的中性数…

三大运营商集体为电费发愁,宣布“智能化关闭5G基站”,5G建设能省则省!

来源:卫星与网络何为“智能化关闭5G基站”本月初有消息称,中国联通洛阳分公司分别对已经入网的3种不同基站射频单元设备(AAU),分不同时段定时开启空载状态下的深度休眠功能,从而实现智能化基站设备能耗管控…

脑电传感器并不复杂,那精度呢?

来源:网络脑电传感器并不复杂,只是精度很难保证。本质上就是一个金属电极加上一个放大器(前置保护),主要是防止传输过程中电压发生改变。一、介绍脑电波(EEG)检测其实和在医院常见的心电图&…

前端智能化的加速时刻:华为机器视觉的创新方程式

来源:脑极体守林员小陈每天的工作,大部分时间都用来在林间巡逻,以便第一时间发现安全隐患。枯燥繁重的工作让年轻的他有点郁闷。有天他举着朋友圈里转发的文章问领导,听说有地方都能用AI来识别山火了,咱们啥时候能用上…

Vue-Router + Vuex 实现单页面应用

效果查看(一个食品安全网,大家也可以发布一些食品安全的见闻,尽举手之劳): 源代码:https://pan.baidu.com/s/1i43H3LV 如果想要服务器端代码可以在评论里说明一下 利用vue路由和vuex实现了一个单页面应用,项目结构如下: 入口:main.js import ./global.cs…