AI智能体学会动物进化法则:李飞飞等提出深度进化RL

来源:机器之心

编辑:杜伟、魔王、陈萍

在过去 6 亿年中,进化带来了不同类型的「无尽之形最美」(endless forms most beautiful),从古老的两侧对称虫到多种多样的动物形态。这些动物还展示出了显著的具身智能(embodied intelligence),利用进化的形态学习复杂任务。具身认知领域认为,智能体可以快速学得这种智能行为,它们的形态也能很好地适应环境。然而,AI 领域更多地关注「非具身认知」,如语言、视觉或游戏等。

当人工具身智能体的形态能够很好地适应环境,则它们可以在多种复杂环境中学习控制任务,然而创建这类智能体很有挑战性,原因如下:

  • 这需要在大量可能形态中进行搜索;

  • 通过终身学习评估智能体适应度需要大量计算时间。

因此,之前的研究要么在极度有限的形态搜索空间中进化智能体,要么在给出的固定人工设计形态下找出最优参数。评估适应度(fitness)的难度使得先前研究避免直接基于原始感官观察学习自适应控制器;使用少量参数 (≤ 100) 学习人工设计控制器;学习预测一种形态的适应度;模仿拉马克进化(Lamarckian)而不是达尔文进化,直接跨代传输学得的信息。此外,之前研究主要局限于平地移动的简单任务,智能体具备的自由度 (DoF) 较少,或者形体构型由立方体组成,将学习控制器这一问题进一步简化。

如何克服这些局限呢?

近日,来自斯坦福大学的研究者 Agrim Gupta、Silvio Savarese、Surya Ganguli 和李飞飞提出了一种新型计算框架——深度进化强化学习 (Deep Evolutionary Reinforcement Learning, DERL),该框架能够在环境、形态和控制这三种复杂度维度下同时规模化创建具身智能体。

DERL 框架如下图 1 所示

DERL 为在计算机模拟实验执行大规模具身智能体创建活动打开了大门,这有助于获得对学习和进化如何协作构建环境复杂度、形态智能和控制任务易学性之间复杂关系的科学洞见。此外,DERL 还缓解了强化学习的样本低效性,创建具身智能体不仅可以使用较少的数据,还能够泛化解决多种新任务。DERL 通过模仿达尔文进化论中错综复杂的跨代进化过程来搜索形态空间,通过终身神经学习来评估给定形态通过智能控制解决复杂任务的速度和质量。

论文作者之一、斯坦福大学教授李飞飞表示:「该研究不仅提出了新型计算框架深度进化强化学习(DERL),并通过形态学习首次证明了达尔文 - 鲍德温效应。形态学习是自然界动物进化必不可少的技能,现已在我们创建的 AI 智能体中展现。」。

论文地址:https://arxiv.org/pdf/2102.02202.pdf

具身智能体能执行哪些任务?

本研究创建的具身智能体可以在平地 (FT)、多变地形 (VT) 和多变地形中的非抓握操作 (MVT) 三种环境中执行巡视(patrol)、点导航(point navigation)、避障(obstacle)、探索(exploration)、逃脱(escape)、爬坡(incline)、斜坡推箱子(push box incline)和控球(manipulate ball)等任务

以下三张动图分别为具身智能体的避障(上)、斜坡推箱子(中)和控球(下)行为。

避障。

斜坡推箱子。

控球。

DERL:用于创建具身智能体的计算框架

对于学习,每个智能体通过只接收低层次的自我本体感受和外部感受观察来感知世界,并通过由深度神经网络参数确定的随机策略来选择其动作(上图 1b),深度神经网络的参数通过近端策略优化 (PPO) 学习得到。

总体来说,DERL 允许研究者在 1152 个 CPU 上进行大规模实验,涉及平均 10 代的进化,搜索并训练了 4000 种形态,每种形态有 500 万次智能体 - 环境交互(即学习迭代)。该研究可以在并行异步(parallel asynchronous)比赛中训练 288 个形态,因此在任意给定时刻,整个学习和进化过程可在 16 小时内完成。据了解,这是迄今为止最大规模的形态进化和 RL 同步模拟

UNIMAL:UNIversal aniMAL 形态设计空间

为了克服以往形态搜索空间表达能力的限制,该研究引入了一个 UNIversal aniMAL(UNIMAL)设计空间(上图 1e)。该研究的基因型(genotype )是一个运动树,对应于由电机驱动的铰链连接的 3D 刚性部件的层次结构。运动树的节点由两种组件类型构成:表示智能体头部的球体(构成树的根)和表示肢体的圆柱体。

进化通过三类变异算子进行无性繁殖:1)通过长出或删除肢体来收缩或生长运动树(上图 1d);2)改变现有肢体的物理特性,如长度和密度(上图 1d);3)修改四肢之间关节的属性,包括自由度、旋转角度限制以及齿轮比。

最重要的是,该研究只允许保持两侧对称的成对变异,这是动物形体构型在进化过程中最古老的特征(起源于 6 亿年前)。一个关键的物理结果是,每个智能体的质心都位于矢状面,从而减少了学习左右平衡所需要的控制程度。尽管有这一限制,但该研究提出的形态设计空间极具表达力,包含大约 1018 种独特的智能体形态,至少有 10 个肢体。

智能体「变形记」:在复杂环境中进化出不同的形态

该研究称,DERL 使智能体首次超出了平地移动任务,在 3 种环境中同时进化多种智能体形态和学习控制器,且 3 种环境的难度是逐步增加的:平地 (FT)、多变地形 (VT) 和多变地形中的非抓握操作 (MVT)。DERL 能够为这 3 种环境找出成功的形态解。

首先智能体在 FT 环境中移动:

其次智能体在地势高低不平的 VT 环境中移动:

最后智能体在 MVT 环境中移动并推动箱子:

研究者分析了不同形态描述子在这 3 种环境中的变化(参见下图 3),发现环境对形态进化有极大影响。

当在所有环境中进化的智能体具备类似的质量和控制复杂度时,VT/MVT 智能体比 FT 智能体在前进方向上移动时间较长,在高度方向上移动时间较短,而 FT 智能体所占的空间小于 VT/MVT。FT 智能体占据空间较少的属性反映了一个常见策略:在身体上间隔较远地安装肢体,使之具备完整的运动范围(参见下图 2i、7a、8a)。FT 智能体展示出向前倒的移动步态和蜥蜴样的移动方式(下图 2i),VT 智能体与 FT 较为相似,但它具备额外的机制,使步态更稳。最后,MVT 智能体发展出类似钳或爪的前伸手臂,从而完成将箱子推到目标位置的任务。

环境复杂度衍生出形态智能

上文关于环境对形态进化的影响的分析主要聚焦于不同形态描述子或形态复杂度,但其关键挑战是设计智能体时要确保它能快速适应任意新任务。因而,研究者转而通过描述一种形态中的具身智能,来了解如何通过组合学习和进化获得这种能力。具体而言,研究者计算形态对学习大量测试任务的促进作用。这一方法类似于,通过计算潜在神经表示经由迁移学习在下游任务上的性能来评估其质量。

研究者一共创建了一组 8 个任务(下图 4a),可分为 3 个领域,分别测试智能体形态的敏捷性(巡视、点导航、避障与探索)、稳定性(逃脱与爬坡)和操纵能力(斜坡推箱子和控球)。每个任务的控制器都是从头学习,从而确保性能差异均来自形态上的不同。

研究者首先测试了这一假设:在更复杂环境中的进化会带来更智能的形态,从而在测试任务中性能更好(参见上图 4b)。结果表明,在 MVT 环境中进化出的智能体性能在 7 项测试任务中优于在 FT 中进化的智能体;在涉及敏捷性和稳定性的 6 个任务中,VT 智能体在 5 项任务里优于 FT 智能体,在操纵任务中性能相似。

为了测试学习速度,研究者以 1/5 学习迭代重复了相同实验(参见上图 4c),发现 MVT/VT 智能体和 FT 智能体在所有任务中的区别更大了。这些结果表明,在更复杂环境中进化出的形态确实更智能,因为它们促进智能体更好、更快地学习多种新任务

证明了更强形式的形态学鲍德温效应

一个多世纪以前,美国心理学家鲍德温(Baldwin)推测存在一种替代机制,通过这种机制,最初在早代进化中终身学得的行为将逐渐在后代(later generation)中成为本能甚至可能通过基因传播。表面上,这种鲍德温效应看起来像拉马克遗传(Lamarckian inheritance),但严格来说,它源于达尔文主义(Darwinian )。然而,长期以来,生物学家一直认为鲍德温效应在复杂环境中可能保持在形态进化和感觉运动学习(sensorimotor learning)的层面。所以,尽管这一猜想广为流传,但迄今为止尚无研究证明体内或计算机(vivo or in silico)形态进化中的鲍德温效应。

在模拟中,研究者找到了证明鲍德温效应在形态学中存在的首个证据,这反映在三个环境中达到前 100 个智能体标准适应度水平(level of fitness)所需训练时间的快速减少,如下图 5a 所示。值得注意的是,仅在 10 代之内,平均训练时间就减少为原来的一半。研究者提供了如何加速学习的示例,如下图 5d 所示,他们展示了 FT 中进化的智能体在不同代中的学习曲线:

在学习结束时,第 8 代智能体的表现两倍优于第 1 代智能体,而且可以在后者 1/5 的时间里达到相同的最终适应度。研究者还注意到他们在模拟中对于快速学习没有遇到任何显式的选择压力,这是因为一个形态的适应度仅由学习结束时自身的性能决定。尽管如此,进化依然选择速度更快的学习者,这样做也没有任何选择压力。因此,研究者通过证明技能获取速度的显式选择压力对于鲍德温效应并不是必要的,实际发现了比以往文献中猜想的形式更强的鲍德温效应。

有趣的是,形态学鲍德温效应的存在可以在未来研究中得到进一步探索,以创建更低样本复杂度和更高泛化性的具身智能体。

形态智能以及强大鲍德温效应的机制基础

接下来,该研究将探索进化如何产生形态智能(上图 4b,c)以及如何选择更快的学习者,而无需对学习速度施加任何直接选择压力的潜在机制基础。

该研究假设,按照具身认知(embodied cognition)中的推测,进化发现的形态可以更有效地利用智能体主体与环境之间物理交互的被动动力学(passive dynamics),从而简化学习控制的问题,它既能在新的环境中实现更好的学习(形态智能),又能跨代实现更快的学习(鲍德温效应)。任何这样的智能形态学都可能表现出能量效率和被动稳定性的物理特性,因此该研究对这两种特性进行了研究。

研究者将能源效率定义为每单位质量完成一个目标所消耗的能量(见附录 D)。令人惊讶的是,在没有能源效率直接选择压力的情况下,进化选择了能效形态解决方案(上图 5c)。研究证实,能源效率并不是简单地通过降低肢体密度来实现的(上图 3e)。

相反,在所有三种环境中,总体质量实际上都在增加,这表明能源效率是通过选择更有效地利用身体 - 环境相互作用的被动物理动力学的形态来实现的。此外,在任意固定代,能源效率更高的形态表现得更好(下图 6a),学习速度也更快(下图 6b)。

同样地,在所有的三种环境中,随着时间的推移,进化选择更被动稳定的形态(见附录 D),尽管相对于 FT、VT/MVT 中稳定形态的比例更高,这表明在这些更复杂的环境中稳定性的相对选择压力更高(上图 5b)。

因此,随着进化的推移,能源效率(上图 5c)和稳定性(上图 5b)都以一种与学习速度紧密相关的方式提高(上图 5a)。

查看这些智能体的效果,请戳:

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485377.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DevExpress v18.1新版亮点——WPF篇(五)

用户界面套包DevExpress v18.1日前终于正式发布,本站将以连载的形式为大家介绍各版本新增内容。本文将介绍了DevExpress WPF v18.1 的新功能,快来下载试用新版本!点击下载>> Spreadsheet Control Spreadsheet Shapes 从简单的线条、矩形…

tomcat修改端口号与eclipse中的tomcat保持一致

tomcat修改端口号与eclipse中的tomcat保持一致 将本地tomcat与eclipse中tomcat的配置信息保持一致:即将eclipse中的tomcat设置为托管模式 1. 添加项目 2. 查看server.xml文件中tomcat的端口号 3. 第一次创建tomcat实例后,双击tomcat服务器,选…

(数据科学学习手札45)Scala基础知识

一、简介 由于Spark主要是由Scala编写的,虽然Python和R也各自有对Spark的支撑包,但支持程度远不及Scala,所以要想更好的学习Spark,就必须熟练掌握Scala编程语言,Scala与Java较为相似,且在Scala中可以调用很…

京东《未来科技趋势白皮书》,101页pdf

来源:专知2020年,疫情震荡全球,经济波动剧烈,无论是国家还是企业,都希望通过把握未来科技“脉搏”,驱散经济下行阴影,实现组织升级迭代。逝者如斯,新的十年,哪些关键技术…

JSP中get和post请求方式的区别及乱码解决方法

JSP中get和post请求方式的区别及乱码解决方法 get提交方式:默认method“get” 和 地址栏、超链接请求方式默认都属于get提交方式 form表单的method属性:提交服务器的http方法,一般为post和get get与post请求方式的区别: get方式 …

RISC-V有何特别之处?

作者:Erik Engheim译者:冬雨整理:陈思20 世纪 90 年代末,RISC 和 CISC 爆发了一场大战,自那以后,大家却说 RISC 和 CISC 的区别没那么重要了了。许多人表示,指令集也就那么回事,对 C…

数据库存取BLOB类型音乐文件的过程及常见错误

数据库存取BLOB类型音乐文件的过程及常见错误 数据库端的准备工作: 新建表,用来存放音乐文件:mymusic 第一列:id 类型:int 第二列:music 类型:blob 将音乐文件存入数据库 /*** */ package cn…

Trie可持久化Trie

WARNING:以下代码未经测试,若发现错误,欢迎指出qwq~ Trie树(字典树) 一种简单的数据结构,可存储大量字符串,可在$O(len)$的时间内完成插入,删除,查找等操作。 下面是一个…

视觉的目的是什么?从监督学习到对比学习,回顾CV发展史

来源:AI科技评论作者: 周纵苇知乎摘要:视觉,对于人类或动物来说,似乎是一件稀松平常的事情,我们甚至都不需要去有意识地训练自己,就可以天赋一般地认识世界。对于机器而言,理解图片却…

MVC原理及案例分析

MVC原理及案例分析 关于MVC MVC全名是Model View Controller,是模型(model)-视图(view)-控制器(controller)的缩写,一种软件设计典范,用一种业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到…

人工智能的鱼与熊掌:精度与可解释性

来源:陈德旺科学网博客链接地址:http://blog.sciencenet.cn/blog-57940-1270913.html 人工智能自1956年诞生之日,就肩负用计算机程序模拟人类(或生物体)智能的初心与使命,从而理解智能的工作原理与运作机制…

MVC与三层架构的联系及三层架构实现学生注册功能

MVC与三层架构的联系及三层架构实现学生注册功能 三层架构的逻辑关系&#xff1a; MVC和三层架构的联系&#xff1a; 三层架构实现学生注册功能的逻辑&#xff1a; 学生注册页面&#xff1a; 输入学生信息&#xff1a; 完成学生注册: 代码实现&#xff1a; add.jsp <% …

MVC5+EF6 入门完整教程11--细说MVC中仓储模式的应用

MVC5EF6 入门完整教程11--细说MVC中仓储模式的应用 原文:MVC5EF6 入门完整教程11--细说MVC中仓储模式的应用摘要&#xff1a; 第一阶段1~10篇已经覆盖了MVC开发必要的基本知识。 第二阶段11&#xff5e;20篇将会侧重于专题的讲解&#xff0c;一篇文章解决一个实际问题。 根据…

Java Web实现信息管理

Java Web实现信息管理 前言&#xff1a; 大二上学期刚学完Oracle&#xff0c;老师就要求用Java语言操作Oracle&#xff0c;当时真的是懵了。回顾自己前两年的生活&#xff0c;大一上学期学习C语言&#xff0c;下学期学习Java&#xff0c;当时教课老师是学硬件的。课上讲一些理…

计算机科学界至今未解决的四大难题

作者&#xff1a;Shalitha Suranga译者&#xff1a;弯月 责编&#xff1a;张文出品&#xff1a;CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;在现实生活中&#xff0c;很多难题的解决方案都用到了计算机科学的基础理论。例如&#xff0c; Git 分布式版本控制系统建立…

按字编址与按字节编址

按字编址与按字节编址 要清楚按字编址和按字节编址的区别&#xff0c;先要知道 比特(bit)&#xff0c;字节(byte)&#xff0c;字(word) 之间的关系。 在计算机系统中&#xff0c;总线以固定大小的一块数据进行传输&#xff0c;这一块的数据也称为字(word)&#xff0c;如今的计…

2021年AI关键趋势,AI芯片初创公司可能发生并购

来源&#xff1a;雷锋网作者&#xff1a;包永刚编译&#xff1a;雷锋网人工智能&#xff08;AI&#xff09;和机器学习仍然是技术决策者、行业人士和投资者关注的重点。标普全球市场财智&#xff08;S&P Intelligence&#xff09;2020 7月发布的调查显示&#xff0c;有58%的…

CPU组成结构

CPU组成结构 CPU总体构图 CPU中央处理器&#xff08;Central Processing Unit&#xff09; CPU的结构框图&#xff1a;CPU内部由ALU&#xff08;算术逻辑单元&#xff09;、CU&#xff08;控制器&#xff09;、寄存器&#xff08;PC、IR、PSW、DR、通用寄存器等&#xff09;、…

每一个科学家的内心都住着一位哲学家(节选)

来源&#xff1a;腾讯大学&#xff08;ID: tencent_university)作者&#xff1a;张首晟&#xff08;斯坦福大学&#xff09;不少科学家的哲学造诣都很高。在哲学中&#xff0c;有着正负对立的世界观&#xff1a;有阴必有阳、有正必有负、有天使就会有魔鬼。这种哲学观念是如何在…

总结下载Spring Framework的jar包

总结下载Spring Framework的jar包 下载官网&#xff1a;Spring官网