李飞飞团队：如何制造更聪明的人工智能？让人工生命在复杂环境中进化

来源：集智俱乐部

作者：郭瑞东

审校：张澳

编辑：邓一雪

论文题目：
Embodied intelligence via learning and evolution
论文链接：
https://www.nature.com/articles/s41467-021-25874-z

1. 智能和身体形态有关

动物能够完成适合其物理形态的特定任务，这被称为具身智能（ embodied smarts）。每个动物的智力在与环境相互作用的过程中，都是与其物理形态协同进化的。因此，蜘蛛用它们细长的腿编织网，海狸拍打它们宽阔的尾巴发出警报，猎豹飞快地跑去抓斑马，而人类有手指去抓握工具。

虽然人工智能也很聪明，但它的智慧与动物不同。人工智能通常是无实体的，如自然语言处理等机器学习，通常是在计算机内部的硅基芯片上完成的，在真实世界中没有物理实体。虽然计算机视觉需要摄像机或传感器，但它通常独立于任何物理形态。

斯坦福大学李飞飞等研究人员想知道：物理形态对智力的进化有影响吗？如果是这样的话，计算机科学家应该如何利用物理形态来创造更聪明的人工智能呢？

为了回答这些问题，它们创建了一个计算机模拟的游乐场。在那里，被称为“ unimals”的节肢动物主体可以在突变和自然选择的约束下学习。随后，研究人员开始观察unimals的虚拟身体是如何影响其智力进化的。

研究发现，虚拟生命的身体形态影响了它们学习新任务的能力。在更具挑战性的环境中或在执行更复杂的任务时进化出的生命形态，比那些在简单环境中进化出的生命形态，能够更快更好地学习。在这项研究中，具有最成功形态特征的人工生命，相比其前几代祖先能更快地完成任务ーー尽管它们在学习开始时的智力水平与其前几代祖先相同。

图1.研究中创建的 Unimal，即通用动物（universal animal），能通过进化产生胳膊，以在模拟环境中生存下来。

2. 人工生命的角斗场

在模拟中，研究者不仅改变了人工生命的身体形态，还改变了它们的训练环境和执行的任务，使得实验的复杂度远高于之前的同类研究。通过锦标赛式的达尔文进化方案，该模拟能够确保每一种人工生命的形态都不会被一票否决，就算在不利的环境下依然有机会将形态传递给下一代。该方法既保持了种群的多样性，又降低了仿真的计算量。

图2. 深度进化强化学习框架（Deep Evolutionary Reinforcement Learning），绿框标出的强化学习发生在个体层面，而红框的突变改变身体形态，是该框架中进化算法的体现。

每次模拟开始于576个独特的人工生命，包括一个“球体”（头部）和一个由不同数量的圆柱形节肢以不同方式排列而成的“身体”。每个人工生命都以相同的方式感知世界，并以相同的神经结构和学习算法开始模拟。换句话说，所有的人工生命在开始它们的虚拟生活时，都拥有相同程度的智慧，只是身体形状不同。

图3. 人工生命所需要经历的各类环境

然后，每一个人工生命都要经过一个学习阶段。在这个阶段中，它要么穿越平坦的地形，要么穿越包括块状山脊、阶梯和平滑山丘等更具挑战性的地形。还有一些人工生命必须移动箱子到目标位置，才可以跨越复杂的地形。

图4. 人工生命分别通过平坦、需要绕障和需要将箱子推至指定位置的环境。

训练结束后，每个人工生命与其它三个在相同的环境/任务组合下训练的人工生命参加锦标赛，获胜者能够产生后代。后代在面临与其父母相同的任务之前，经历了四肢或关节的微小突变。所有的人工生命（包括获胜者）都参加了多项锦标赛，只有当新的后代出现时才会开始衰老。

3. 身体进化，使得习得有利的行为更快

在每个环境完成三次进化迭代（每次迭代产生4000种形态）后，幸存下来的人工生命平均经历了10代的进化，其形态十分多样，包括两足动物、三足动物以及有或没有手臂的四足动物（见图5）。

图5. 在平坦（a）、需要绕障（b）和需要将箱子推至指定位置（c）的三种环境下，进化得出的最佳形态十分多样。

研究人员从每个环境中挑选出了10种表现最好的人工生命，并从头开始训练它们完成绕过障碍物、推球或者把箱子推上斜坡等全新的八个任务（见图6）。

图6. 人工生命需要完成的8种新任务，包括巡逻、越障、探索和逃离等。

结果是：在需要绕障的环境中进化的人工生命，比在平坦环境中进化的人工生命表现更好，而当在需要将箱子推至指定位置的环境下进化出的人工生命表现最好。表现好的人工生命，无论是单独学习（通过较少的训练获得更好的表现）还是跨代学习都更快。事实上，经过10代进化后，表现好的人工生命已经十分适应环境，以至于它们学习相同任务的时间只需要它们最早祖先的一半。

图7.（a）在三种环境下，使种群中表现前100名的主体适应度达到种群初始值的75%所需的平均迭代次数（纵轴）；（b）三种环境中稳定形态的比例，该值在平坦、需绕障和需要推箱子至指定位置的环境中依次增加，说明复杂的环境对稳定性的选择压较高；（c）平均工作成本（纵轴）随进化代数（横轴）的变化；（d）在平坦环境下，不同代人工生命的学习曲线，表明后代不仅表现好，而且学习的更快。

这与19世纪美国心理学家鲍德温（Baldwin）提出的一个假说是一致的，他推测在进化的早期，祖先习得的行为将逐渐成为本能，甚至可能在后代中遗传。鲍德温效应指出：学习适应性优势的能力，可以通过达尔文的自然选择遗传给后代，即“大自然选择的身体形态变化，使得后代能更快学习有利的行为。例如，如果一种动物在生命早期不能学会走路，可能更容易死亡，从而对基因型产生直接的选择压力，选出能更快学会走路的动物。该效应描述的从表型到基因型的能力转移，可能为习得更复杂的行为（如语言能力及模仿能力）腾出学习资源。

4. 总结：制造更聪明的人工智能

该研究在人工生命的演化中结合进化算法和强化学习，论证了以下三点：首先，环境的复杂性能够促进具身智能的进化，从而使后代形态有助于学习新的任务。其次，人工生命的模拟重现了鲍德温效应，进化能够将早期祖先学会的有利行为表达在后代的基因中。第三，学习效率和物理形态有关，某些形态更加稳定，工作效率更高，因此可以促进学习和控制。

一直以来，设计在复杂环境下完成任务的机器人都是一个难题。然而，真实世界需要机器人的场景往往又都是复杂的，比如爬过核反应堆提取核废物，在人体血管中穿行输送药物，在地震后的废墟中搜寻生命等。也许解决这一问题的唯一道路是通过进化来设计机器人。通过让人工生命在日益复杂的模拟环境中进化，帮助开发现实世界执行复杂任务的机器人，增强其泛化能力和稳定性。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”