李飞飞团队:如何制造更聪明的人工智能?让人工生命在复杂环境中进化

0a68d8743ba5868533738330c81981cc.png

来源:集智俱乐部

作者:郭瑞东 

审校:张澳 

编辑:邓一雪 

40706f3670b50eef7a6e2c2e2a3e25ba.png

论文题目:

Embodied intelligence via learning and evolution

论文链接:

https://www.nature.com/articles/s41467-021-25874-z

1. 智能和身体形态有关

动物能够完成适合其物理形态的特定任务,这被称为具身智能( embodied smarts)。每个动物的智力在与环境相互作用的过程中,都是与其物理形态协同进化的。因此,蜘蛛用它们细长的腿编织网,海狸拍打它们宽阔的尾巴发出警报,猎豹飞快地跑去抓斑马,而人类有手指去抓握工具。

虽然人工智能也很聪明,但它的智慧与动物不同。人工智能通常是无实体的,如自然语言处理等机器学习,通常是在计算机内部的硅基芯片上完成的,在真实世界中没有物理实体。虽然计算机视觉需要摄像机或传感器,但它通常独立于任何物理形态。

斯坦福大学李飞飞等研究人员想知道:物理形态对智力的进化有影响吗?如果是这样的话,计算机科学家应该如何利用物理形态来创造更聪明的人工智能呢?

为了回答这些问题,它们创建了一个计算机模拟的游乐场。在那里,被称为“ unimals”的节肢动物主体可以在突变和自然选择的约束下学习。随后,研究人员开始观察unimals的虚拟身体是如何影响其智力进化的。

研究发现,虚拟生命的身体形态影响了它们学习新任务的能力。在更具挑战性的环境中或在执行更复杂的任务时进化出的生命形态,比那些在简单环境中进化出的生命形态,能够更快更好地学习。在这项研究中,具有最成功形态特征的人工生命,相比其前几代祖先能更快地完成任务ーー尽管它们在学习开始时的智力水平与其前几代祖先相同。

db3d393778b443531c31bc8e60ef87a2.png

图1.研究中创建的 Unimal,即通用动物(universal animal),能通过进化产生胳膊,以在模拟环境中生存下来。

2. 人工生命的角斗场

在模拟中,研究者不仅改变了人工生命的身体形态,还改变了它们的训练环境和执行的任务,使得实验的复杂度远高于之前的同类研究。通过锦标赛式的达尔文进化方案,该模拟能够确保每一种人工生命的形态都不会被一票否决,就算在不利的环境下依然有机会将形态传递给下一代。该方法既保持了种群的多样性,又降低了仿真的计算量。

24c143493be89def4e116cbfcf2b1d27.png

图2. 深度进化强化学习框架(Deep Evolutionary Reinforcement Learning),绿框标出的强化学习发生在个体层面,而红框的突变改变身体形态,是该框架中进化算法的体现。

每次模拟开始于576个独特的人工生命,包括一个“球体”(头部)和一个由不同数量的圆柱形节肢以不同方式排列而成的“身体”。每个人工生命都以相同的方式感知世界,并以相同的神经结构和学习算法开始模拟。换句话说,所有的人工生命在开始它们的虚拟生活时,都拥有相同程度的智慧,只是身体形状不同。

8d62108c7cc3995348f83092f50093e2.png

图3. 人工生命所需要经历的各类环境

然后,每一个人工生命都要经过一个学习阶段。在这个阶段中,它要么穿越平坦的地形,要么穿越包括块状山脊、阶梯和平滑山丘等更具挑战性的地形。还有一些人工生命必须移动箱子到目标位置,才可以跨越复杂的地形。

25a2d6368857ca7ed3656edd993bb7dd.png

图4. 人工生命分别通过平坦、需要绕障和需要将箱子推至指定位置的环境。

训练结束后,每个人工生命与其它三个在相同的环境/任务组合下训练的人工生命参加锦标赛,获胜者能够产生后代。后代在面临与其父母相同的任务之前,经历了四肢或关节的微小突变。所有的人工生命(包括获胜者)都参加了多项锦标赛,只有当新的后代出现时才会开始衰老。

3. 身体进化,使得习得有利的行为更快

在每个环境完成三次进化迭代(每次迭代产生4000种形态)后,幸存下来的人工生命平均经历了10代的进化,其形态十分多样,包括两足动物、三足动物以及有或没有手臂的四足动物(见图5)。

413a93cdd7d40ca762ae1ee80cb66905.png

图5. 在平坦(a)、需要绕障(b)和需要将箱子推至指定位置(c)的三种环境下,进化得出的最佳形态十分多样。

研究人员从每个环境中挑选出了10种表现最好的人工生命,并从头开始训练它们完成绕过障碍物、推球或者把箱子推上斜坡等全新的八个任务(见图6)。

1f7e700230b6e58a8927251798f3a00a.png

图6. 人工生命需要完成的8种新任务,包括巡逻、越障、探索和逃离等。

结果是:在需要绕障的环境中进化的人工生命,比在平坦环境中进化的人工生命表现更好,而当在需要将箱子推至指定位置的环境下进化出的人工生命表现最好。表现好的人工生命,无论是单独学习(通过较少的训练获得更好的表现)还是跨代学习都更快。事实上,经过10代进化后,表现好的人工生命已经十分适应环境,以至于它们学习相同任务的时间只需要它们最早祖先的一半。

3889611a1ed52513004e014c1fcdeef3.png

图7.(a)在三种环境下,使种群中表现前100名的主体适应度达到种群初始值的75%所需的平均迭代次数(纵轴);(b)三种环境中稳定形态的比例,该值在平坦、需绕障和需要推箱子至指定位置的环境中依次增加,说明复杂的环境对稳定性的选择压较高;(c)平均工作成本(纵轴)随进化代数(横轴)的变化;(d)在平坦环境下,不同代人工生命的学习曲线,表明后代不仅表现好,而且学习的更快。

这与19世纪美国心理学家鲍德温(Baldwin)提出的一个假说是一致的,他推测在进化的早期,祖先习得的行为将逐渐成为本能,甚至可能在后代中遗传。鲍德温效应指出:学习适应性优势的能力,可以通过达尔文的自然选择遗传给后代,即“大自然选择的身体形态变化,使得后代能更快学习有利的行为。例如,如果一种动物在生命早期不能学会走路,可能更容易死亡,从而对基因型产生直接的选择压力,选出能更快学会走路的动物。该效应描述的从表型到基因型的能力转移,可能为习得更复杂的行为(如语言能力及模仿能力)腾出学习资源。

4. 总结:制造更聪明的人工智能

该研究在人工生命的演化中结合进化算法和强化学习,论证了以下三点:首先,环境的复杂性能够促进具身智能的进化,从而使后代形态有助于学习新的任务。其次,人工生命的模拟重现了鲍德温效应,进化能够将早期祖先学会的有利行为表达在后代的基因中。第三,学习效率和物理形态有关,某些形态更加稳定,工作效率更高,因此可以促进学习和控制。

一直以来,设计在复杂环境下完成任务的机器人都是一个难题。然而,真实世界需要机器人的场景往往又都是复杂的,比如爬过核反应堆提取核废物,在人体血管中穿行输送药物,在地震后的废墟中搜寻生命等。也许解决这一问题的唯一道路是通过进化来设计机器人。通过让人工生命在日益复杂的模拟环境中进化,帮助开发现实世界执行复杂任务的机器人,增强其泛化能力和稳定性。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

4b02fa028f543a1dc842f98e20956b72.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构——图的C语言实现

文章目录1.什么是图?2.图的抽象数据结构3.如何在程序中表示一个图?3.1 邻接矩阵3.2 邻接表4.图的遍历4.1 深度优先搜索4.2 广度优先搜索5.图的C语言实现1.什么是图? 2.图的抽象数据结构 3.如何在程序中表示一个图? 3.1 邻接矩阵 …

张亚勤院士谈“智能计算新趋势”

来源:人工智能计算大会作为第四次工业革命的核心,人工智能已经成为全球新一轮科技革命和产业变革的核心驱动力。在2021人工智能计算大会(AICC 2021)上,清华大学智能科学讲席教授、美国艺术与科学院院士张亚勤带来了《智…

神经网络支持大脑是「预测机器」,预测是节能的

来源:ScienceAI编译:绿萝我们的大脑,一个包裹在骨性头骨内的三磅重的组织,如何从感觉中产生知觉是一个长期存在的谜。大量证据和数十年的持续研究表明,大脑不能像拼拼图一样,简单地组合感官信息来感知周围环…

元宇宙不是下一代互联网,而是人类群体思维空间或梦境世界的具现

前言:本文是根据6G俱乐部举办的6G与元宇宙研讨会上的发言整理形成作者:刘锋目前,业内有一种声音提出元宇宙是下一代互联网,之前WEB2.0、物联网、移动互联网和区块链爆发的时候也曾经这样表达过,如果从互联网的发展历史…

数据结构和算法——栈、队列、堆

文章目录1.预备知识1.1 栈1.2 队列1.3 堆2.用队列实现栈2.1 题目描述2.2 解题思路2.3 C实现3.用栈实现队列3.1 题目描述3.2 解题思路3.3 C实现4.最小栈4.1 题目描述4.2 解题思路5.合法的出栈序列5.1 题目描述5.2 解题思路5.3 C实现6.基本计算器6.1 题目描述6.2 解题思路7.数组中…

综述 | 北斗系统应用趋势分析

来源:智绘科服初审:张艳玲复审:宋启凡终审:金 君一、前言2020年6月23日,北斗三号最后一颗组网卫星成功发射。2020年7月31日,北斗三号建成暨开通仪式举行,北斗三号全球卫星导航系统正式开通[1]…

数据结构与算法——贪心算法

文章目录1.分发饼干1.1 题目描述1.2 解题思路1.3 C实现2.摆动序列2.1 题目描述2.2 解题思路2.3 C实现3.移掉K位数字3.1 题目描述3.2 解题思路3.3 C实现4.跳跃游戏4.1 题目描述4.2 解题思路4.3 C实现5.跳跃游戏 II5.1 题目描述5.2 解题思路5.3 C实现6.用最少数量的箭引爆气球6.1…

人为什么要睡觉?科学家给出进一步答案

来源:科技日报作者:张佳欣 人类一生中有三分之一的时间在睡觉,包括苍蝇、蠕虫甚至水母等无脊椎动物也会睡觉。在整个进化过程中,睡眠对所有具有神经系统的有机体来说都是普遍的,也是必不可少的。然而你有没有想过&…

操作系统——简介

文章目录1.操作系统的功能和目标1.1 作为用户和计算机硬件之间的接口1.2 作为系统资源的管理者1.3 作为最接近硬件的层次2.操作系统的概念、功能和目标3.操作系统的四大特征3.1 并发3.2 共享3.3 虚拟3.4 异步4.操作系统的运行机制4.1 两种指令4.2 两种处理器状态4.3 两种程序5.…

Andrew Gelman、Aki Vehtari​ | 过去50年最重要的统计学思想是什么?

来源: 数据分析网作者 :Andrew Gelman 美国统计学家、哥伦比亚大学统计学教授Aki Vehtari 阿尔托大学计算机科学系副教授近日,图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statis…

全局唯一ID的生成

数据在分片时,典型的是分库分表,就有一个全局ID生成的问题。单纯的生成全局ID并不是什么难题,但是生成的ID通常要满足分片的一些要求: 1 不能有单点故障。 2 以时间为序,或者ID里包含时间。这样一是可以少一个索引…

操作系统——进程

文章目录1.进程的定义2.进程的组成3.PCB4.进程的状态4.1 进程的五种状态4.2 进程状态间的转换5.进程控制6.进程通信6.1 共享存储6.2 管道通信6.3 消息传递7.线程7.1 线程的概念7.2 引入线程后的变化7.3 线程的属性7.4 线程的实现方式7.4.1 用户级线程7.4.2 内核级线程7.4.3 混合…

10分钟了解图卷积神经网络的常用算法和发展方向

来源:数学算法俱乐部近几年,机器学习在各个领域井喷式发展,现已成为当下最热门的技术。掌握机器学习,你就比 80% 的人更具备竞争优势。谷歌的无人驾驶、抖音的推荐系统、百度的人脸识别、大疆的无人机、科大讯飞的语音识别、小米的…

操作系统——调度

文章目录1.调度的概念2.调度的三个层次2.1 高级调度2.2 中级调度2.3 低级调度2.4 三种调度之间的关联1.调度的概念 2.调度的三个层次 2.1 高级调度 2.2 中级调度 2.3 低级调度 2.4 三种调度之间的关联

诺奖得主被曝40多篇论文造假!

来源:科研城邦截止2021年11月6日,Gregg L. Semenza教授针对其在Pubpeer被挂的52篇论文,进行了至少6篇文章的纠正,且撤回了1篇文章。离谱的是,这位美国约翰霍普金斯大学教授,正是2019年诺贝尔生理学或医学奖…

操作系统——死锁

文章目录1.死锁的概念2.死锁产生的必要条件3.什么时候会发生死锁4.死锁的处理策略4.1 预防死锁4.1.1 破坏互斥条件4.1.2 破坏不剥夺条件4.1.3 破坏请求和保持条件4.1.4 破坏循环等待条件4.2 避免死锁4.2.1 安全序列4.2.2 银行家算法1.死锁的概念 2.死锁产生的必要条件 3.什么时…

苏联的三进制电脑,为什么被二进制干掉了?

来源:差评 当我们在电脑上打开一个软件,看一部电影,听一首歌的时候,我们很难想象,这些东西都是由 0 和 1 这样的二进制数字组成的。但你有没有好奇过?为什么计算机要用二进制呢?难道是因为它效…

linux标准I/O——标准I/O介绍

文章目录1.文件的相关概念1.1 什么是文件1.2 文件类型2.标准I/O概念2.1 什么是标准I/O2.2 FILE和流2.3 流的缓冲类型2.4 stdin,stdout和stderr1.文件的相关概念 1.1 什么是文件 \qquad一组相关数据的有序集合 1.2 文件类型 文件类型表示举例常规文件r文本文件、二…

70页论文,图灵奖得主Yoshua Bengio一作:「生成流网络」拓展深度学习领域

来源:机器学习研究组订阅GFlowNet 会成为新的深度学习技术吗?近日,一篇名为《GFlowNet Foundations》的论文引发了人们的关注,这是一篇图灵奖得主 Yoshua Bengio 一作的新研究,论文长达 70 页。在 Geoffrey Hinton 的「…

linux标准I/O——流的打开和关闭

文章目录1.打开流2.mode参数3.fopen举例4.新建文件权限5.处理错误信息6.关闭流1.打开流 2.mode参数 3.fopen举例 #include<stdio.h> int main() {FILE *fp;fpfopen("a.txt","r");if(fpNULL){printf("fopen error\n");return -1;}return 0…