DeepMind提出强化学习新算法,教智能体从零学控制

来源:人工智能和大数据

摘要:3月2日,DeepMind发表博客文章,提出一种称为SAC-X(计划辅助控制)的新学习范式,旨在解决让AI以最少的先验知识,从头开始学习复杂控制问题的挑战。


这在真实环境中成功让机械臂从头开始学习拾放物体。SAC-X 是基于从头开始学习复杂的任务这种想法,即一个智能体首先应该学习并掌握一套基本技能。就像婴儿在爬行或走路前必须具有协调能力和平衡能力,为智能体提供与简单技能相对应的内在目标(具有辅助作用),这会增加它理解和执行更复杂任务的可能性。


研究者认为,SAC-X是一种通用的强化学习方法,未来可以应用于机器人以外的更广泛领域。


不管你让小孩还是大人整理物品,他们很大可能都不会乖乖听你的话,如果想要让 AI 智能体进行整理收拾,那就更难了。如果想成功,需要掌握如下几个核心视觉运动技能:接近物体,抓住并举起它,打开盒子,把物体放进去。而更复杂的是,执行这些技能时,必须按照正确的顺序。


对于一些控制类的任务,比如整理桌面或堆叠物体,智能体需要在协调它的模拟手臂和手指的九个关节时,做到三个 W,即如何(how),何时(when)以及在哪里(where),以便正确地移动,最终完成任务。


在任何给定的时间内,需要明确各种可能的运动组合的数量,以及执行一长串正确动作,这些需求引申出一个严肃的问题,这成为强化学习中一个特别有趣的研究领域。

诸如奖赏塑形(reward shaping)、学徒学习(Apprenticeship learning)或从演示中学习(Learning from Demonstration)等技术可以帮助解决这个问题。然而,这些方法依赖于大量与任务相关的知识,而从零开始,通过最少的预先知识学习复杂的控制问题仍然是一个众所周知的挑战。


我们最近的论文提出了一种新的学习范式,叫做「调度辅助控制」(Scheduled Auxiliary Control (SAC-X)),我们试图通过这种学习范式来克服这个问题。



SAC-X 是基于从头开始学习复杂的任务这种想法,即一个智能体首先应该学习并掌握一套基本技能。就像婴儿在爬行或走路前必须具有协调能力和平衡能力,为智能体提供与简单技能相对应的内在目标(具有辅助作用),这会增加它理解和执行更复杂任务的可能性。


我们在几个模拟和真实的机器人任务中演示了 SAC-X 法,包括不同物体的堆叠,将物体放到盒子里。我们定义的辅助任务遵循一般原则:鼓励智能体探索其感应空间。

例如,激活手指上的触觉传感器,感知手腕的力度,利用本体感应器将关节角度调到最大,在视觉传感器范围内强制性移动物体。对于每个任务,如果实现目标,会提供相应的简单奖励。没实现目标的话,奖励为零。


智能体首先学习激活手指上的触觉传感器,然后移动物体

模拟智能体最终掌握复杂的堆叠任务


智能体接下来可以自行决定其当前的「意图」,例如下一步做什么。可能会是一个辅助任务或者是外部定义的目标任务。至关重要的是,对于目前还没有使用基于回放的离策略学习方法的任务,该代理可以从奖励信号中发现和学习。例如,当拾取或移动一个物体时,智能体可能会偶然地将物体堆叠起来,观察到「堆叠奖励」。一系列简单的任务会让智能体观察到罕见的外部奖励,所以让智能体具有安排意图的能力至关重要。


基于收集到的所有的间接知识,智能体会建立一个个性化的学习课程。在如此大的领域中,通过这种方法来利用知识非常高效,在只有很少的外部奖励信号的情况下尤其有用。


通过调度模块,智能体会决定接下来的意图。利用元学习算法,调度器会在训练过程中得到改进,该算法试图最大限度地提高主任务的进程,进而显著提高数据效率。

在探索完许多内部辅助任务之后,智能体学会了如何堆叠和整理物品


评估表明,SAC-X 能够从零开始完成我们设置的所有任务,这些任务都是在相同的辅助任务集下完成的。令人兴奋的是,利用 SAC-X,我们实验室的机器人手臂能够成功地从零开始学习拾取和摆放。在过去这极具挑战性,因为在现实世界中让机器人学习需要高效的数据,所以流行的方法是预训练模拟智能体,然后再将这种能力转移到真正的机器人手臂中。


针对真实的机器人手臂, SAC-X 能学习如何举起和移动绿色的立方体,在此之前它从来没有接触过这类任务


我们认为 SAC-X 是通向从零学习控制任务的重要一步,只需定义好整体目标。SAC-X 允许任意定义辅助任务,这些任务可以基于一般的看法(如有意激活传感器),最终会涵盖研究人员认为重要的任务。从这方面来说,SAC-X 是一种通用的强化学习方法,可以广泛应用于控制和机器人领域之外的一般稀疏强化学习环境。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496907.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中国各地AI行业政策汇总及解读

来源:数据科学与人工智能随着人工智能的快速发展,国家相继出台一系列政策支持中国人工智能的发展,推动中国人工智能步入新阶段。2017年7月20日,国务院印发了《新一代人工智能发展规划》。规划中提到分三步走:第一步&am…

常州的照片

出差去常州照的几张照片,那边的天气很暖和了。 转载于:https://www.cnblogs.com/Duiker/archive/2008/03/17/1109665.html

从Big Dog到Spot Mini:波士顿动力「四足机器人」进化史概览

来源:雷克世界丨「raicworld」公众号导语:前不久,一段视频刷爆了朋友圈,视频中一个四足机器人不顾人类的阻拦,奋力打开一扇门,最终得以顺利通过。看过视频的人无一不被机器人的“执着”所震撼,一…

重磅《美国机器智能国家战略》

来源: 学术plus2018年3月1日,美国国际战略研究所发布报告《美国机器智能国家战略报告》,提出了机器智能对国防、经济、社会等方面的广泛差异,以及美国在战略制定方面的差距,并给出了具体的意见建议。现将部分内容选编如…

盘点国内最具实力的双足仿人机器人研发团队有哪些?

来源:工业机器人之家北京理工大学 黄强教授团队北京理工大学借鉴人类长期进化所具备自然、快速、协调运动机理和灵巧结构特征,创新地研究了仿人机器人的仿生运动规划、控制与系统集成等关键技术,取得了新突破。提出了仿人机器人运动规划新方法…

数据科学研究的现状与趋势

来源:数据科学DataScience大数据时代的到来催生了一门新的学科——数据科学。本文第1节探讨数据科学的内涵、发展简史、学科地位和知识体系等四个基本问题,并提出了数据科学的两个基本类型——专业数据科学和专业中的数据科学。第2节提出现阶段数据科学研…

DataGridView直接导出EXCEL

1.直接将DataGridView显示的内容导出Excel 1publicvoidDataToExcel(DataGridView m_DataView)2{ 3 SaveFileDialog kk new SaveFileDialog(); 4 kk.Title "保存EXECL文件"; 5 kk.Filter "EXECL文件(*.xls) |*.xls |所有文…

智能的源泉,大脑从何而来?

作者:谢平 中国科学院大学教授引言:人类的神奇常常归结于一个智慧的大脑以及贯穿于其中的无比复杂的神经网络,并认为这源自上帝之手,但其实它并不是无中生有的,而是自然演化的产物,虽然是一个无与伦比的杰作…

物联网技术在智能医疗领域的应用与发展

来源: 传感器技术应对人口结构高龄化所带来的长期照护需求,各国政府纷纷拟定政策,希望利用Wi-Fi、蓝牙、3G、GPS及RFID等物联网技术,架构起移动式医疗网络;且在远距照护等议题发酵下,也带动医疗产业结合物联网进入下一…

xmlHttpRequest无刷新验证用户名

现在好多网站上的注册都用了无刷新验证用户名,这种效果咋看感觉很复杂很难实现,其实它里面用到了Ajax中的核心xmlHttpRequest这个类,如果只是单单想实现这个效果,压根就不用引用Ajax.Net中的组件,因为感觉有点大材小用,下面是具体实现这种效果的方法,希望能给初学Ajax的朋友带来…

如何理解和评价机器学习中的表达能力、训练难度和泛化性能

来源: Eric Jang 的个人博客非常感谢王家兴 (Jiaxing Wang) 把这个博客文章翻译成中文。当我在阅读机器学习相关文献的时候, 我经常思考这项工作是否:提高了模型的表达能力;使模型更易于训练; 提高了模型的泛化性能。在…

谷歌公布72位量子比特处理器,吹响量子霸权冲锋号

作者:杨晓凡谷歌量子 AI 实验室今天发布了新的 72 位量子比特的量子处理器 Bristlecone。虽然目前还没有看到具体的实验结果,但这块芯片的未来有很大潜力,很有可能达成量子计算领域内的重要里程碑。谷歌量子 AI 实验室(Google Qua…

AI可以在游戏里称霸,但是解决现实问题太难了

来源:36氪据《大西洋月刊》报道,直到最近,那些能在各类游戏中击败人类冠军的机器,解决现实问题太难了。1997年,为了在国际象棋中击败象棋大师加里卡斯帕罗夫(Garry Kasparov),IBM的工…

大话设计模式-策略模式与简单工厂模式

来源:http://blog.csdn.net/wulingmin21/article/details/6712684 策略模式定义了一系列的算法,并将每一个算法封装起来,而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化。 例如: CashNormal、CashRebate…

全球知识图谱专家分布、研究流派(附学者名单)

来源: THU数据派概要:在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。什么是知识图谱?在维基百科的官方词条中:知识图谱是Google用于增强其搜索引擎功能的知识库。本质上, 知识图谱旨在描述…

软件系统架构~思维导图

#原图 System.out.println("https://www.processon.com/view/link/6194f2740e3e7409b9c2f3df")

创建型、结构型、行为型模式(1)

来源:http://blog.csdn.net/wulingmin21/article/details/6753363 目的 创建型模式 Creational Pattern 结构型模式 Structural Patterns 行为型模式 Behavioral Pattern 概念 创建型模式,就是创建对象的模式,抽象了实例化的过程。…

干货|全球人工智能专利分布战情图

来源: 点滴科技资讯作者:许倩未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测&am…

tomcat高版本之URL解析异常解决

IllegalArgumentException 一、项目场景: 例如:由于Apache的tomcat的版本升级,遵循RFC 7230 and RFC 3986规范解析请求地址。同时添加了对于http头的验证请求。 导致报文存在导致特殊字符(不在解析范围内的)tomcat7…

创建型、结构型、行为型模式(2)

来源:http://blog.csdn.net/wulingmin21/article/details/6757111 创建型模式 Singleton模式解决的是实体对象个数的问题。 除了Singleton之外,其他创建型模式解决的都是New所带来的耦合关系。 Factory Method,Abstract Factory,B…