具身智能（Embodied AI）的概念、核心要素、难点及突破性进展

在ChatGPT之后，具身智能（Embodied AI）这个大模型概念火了，那什么是具身智能呢？

什么是具身智能？

具身智能作为人工智能发展的一个重要分支，正在迅速崭露头角，成为科技界和大众关注的热门话题，同时在各个领域中展现出巨大的潜力和吸引力

具身智能通过在物理世界和数字世界的学习和进化，达到理解世界、互动交互并完成任务的目标。

具身智能是由“本体”和“智能体”耦合而成且能够在复杂环境中执行任务的智能系统。

以上概念是等价的：
Embodied AI = Embodied Intelligence = 具象AI = 具身智能`
Internet AI = Disembodied AI = 非具身智能

核心要素

一般认为，具身智能具有如下的四大核心要素：

本体：作为实际的执行者，是在物理或者虚拟世界进行感知和任务执行的机构。
- 本体通常是具有物理实体的机器人，可以有多种形态。本体的能力边界会限制智能体的能力发挥，所以，具有广泛适应性的机器人本体是非常必要的。如四足机器人、复合机器人、人形机器人
- 本体具备环境感知能力、运动能力和操作执行能力，是连接数字世界和物理世界的载体。
智能体（Embodied Agents），是具身于本体之上的智能核心，负责感知、理解、决策、控制等的核心工作。
- 智能体可以感知复杂环境，理解环境所包含的语义信息，能够和环境进行交互；可以理解具体任务，并且根据环境的变化和目标状态做出决策，进而控制本体完成任务。
- 随着深度学习的发展，现代智能体通常由深度网络模型驱动，尤其是随着大语言模型（LLM）的发展，结合视觉等多种传感器的复杂多模态模型，已经开始成为新一代智能体的趋势。
- 智能体也分化为多种任务形态，处理不同层次和模态的任务。智能体要能够从复杂的数据中学习决策和控制的范式，并且能够持续的自我演进，进而适应更复杂的任务和环境。
- 智能体设计是具身智能的核心。具有通用能力的LLM和VLM等模型，赋予了通用本体强大的泛化能力，使得机器人从程序执行导向转向任务目标导向，向通用机器人迈出了坚实的步伐。
数据：“数据是泛化的关键，但涉及机器人的数据稀缺且昂贵。”
- 为了适应复杂环境和任务的泛化性，智能体规模变的越来越大，而大规模的模型对于海量数据更为渴求。现在的LLM通常需要web-scale级别的数据来驱动基础的预训练过程，而针对具身智能的场景则更为复杂多样，这造成了多变的环境和任务，以及围绕着复杂任务链的规划决策控制数据。尤其是针对行业场景的高质量数据，将是未来具身智能成功应用落地的关键支撑。
学习和进化架构：智能体通过和物理世界（虚拟的或真实的）的交互，来适应新环境、学习新知识并强化出新的解决问题方法。
- 采用虚拟仿真环境进行部分学习是合理的设计，比如英伟达的元宇宙开发平台Omniverse，就是构建了物理仿真的虚拟世界，来加速智能体的演进。
- 真实环境的复杂度通常超过仿真环境，如何耦合仿真和真实世界，进行高效率的迁移（Sim2Real），也是架构设计的关键。

具身智能的难点剖析

需要有强大的通用本体平台：
- 如何解决硬件的关键零部件技术突破，形成具有优秀运动能力和操作能力的平台级通用机器人产品，将具身本体的可靠性、成本和通用能力做到平衡，是一个巨大的挑战。
- 考虑到通用能力，人形机器人被认为是具身智能的终极形态。这方面的研发，也将持续成为热点和核心挑战。
设计强大的智能体系统
- 作为具身智能的核心，具备复杂环境感知认知能力的智能体，将需要解决诸多挑战，包括：物理3D环境精确感知、任务编排与执行、强大的通识能力、多级语义推理能力、人机口语多轮交互能力、long-term记忆能力、个性化情感关怀能力、强大的任务泛化与自学迁移能力等。
- 具身智能要求实时感知和决策能力，以适应复杂和变化的环境。这要求高速的数据采集、传输和处理，以及实时的决策反应，尤其是LLM所消耗的算力规模巨大，对于资源有限的机器人处理系统将形成巨大的数据量、AI计算能力和低延迟的挑战
高质量的行业数据将成为巨大挑战
- 现实场景的复杂多变，使得现阶段缺乏足够的场景数据来训练一个完全通用的大模型，进而让智能体自我进化。
- 耦合的本体，需要实际部署到真实环境中，才能够采集数据，这也是和非具身智能的明显不同。
- 但对于关键业务，要求成功率，则仍然需要高质量的垂域数据。同时，通过层次化的智能体设计，将不同任务限定到特定领域，则是一个解决泛化和成功率的有效尝试
通过虚拟和真实的交互，持续学习和进化的能力，则是具身智能演进的重要技术途径
- 学习新任务来适应环境的变化，则是持续改进的动力。形态适配环境合适的智能体，则可以快速的学习到解决问题能力，进而更好的适应变化。
- 由于形态的变化空间无穷巨大，搜索所有可能的选择在有限的计算资源情况下变的几乎不可能。本体的自由度设计，也会物理上约束智能体的任务执行能力，进而限制了控制器的学习效果。
- 在复杂环境、形态演化和任务的可学习性之间，存在着未可知的隐式关系，如何快速学习到合理的规划和决策能力，则成为具身智能的重要一环。

2023最新突破性进展

PaLM-E: An Embodied Multimodal Language Model: 一个具身多模态语言模型
论文提出了一个具身多模态语言模型，通过将真实世界的连续传感器模态直接融入语言模型中，实现了单词和感知之间的联系。实验结果表明，PaLM-E可以处理来自不同观察模态的各种具身推理任务，并在多个实现上表现出良好的效果。最大的PaLM-E-562B模型拥有562亿个参数，除了在机器人任务上进行训练外，还是一个视觉语言通才，并在OK-VQA任务上取得了最先进的性能。
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
采用语言模型实现机器人操作的可组合3D价值图
论文提出了一种名为VoxPoser的方法，利用大型语言模型和视觉语言模型来合成机器人轨迹。作者发现，LLM可以通过自然语言指令推断出环境和物体的能力和限制，并通过与VLM交互来组合3D值图，将知识转化为代理的观察空间。这些组合的值图然后被用于基于模型的规划框架中，以零样本合成闭环机器人轨迹，并对动态扰动具有鲁棒性。
March in Chat: Interactive Prompting for Remote Embodied Referring Expression
远程具身指代表达的交互提示
论文提出了一种名为March-in-Chat的模型，可以在REVERIE环境中与大型语言模型进行交互并动态规划。REVERIE任务只提供高级指令给代理，类似于人类的实际命令，因此比其他VLN任务更具挑战性。MiC模型通过ROASP实现了环境感知和动态规划，可以基于新的视觉观察调整导航计划，并且能够适应更大、更复杂的REVERIE环境。
Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions
通过多专家讨论实现视觉语言导航
论文提出了一种零样本视觉语言导航框架DiscussNav，通过多专家讨论来帮助代理进行导航。作者认为现有的VLN方法完全依赖单一模型自身的思考来进行预测，而即使是最先进的大型语言模型GPT4，在单轮自我思考中仍然难以处理多个任务。因此，作者借鉴了专家咨询会议的思想，将具有不同能力的大模型作为领域专家，让代理在每一步移动之前与这些专家积极讨论，收集关键信息。实验结果表明，该方法可以有效地促进导航，感知与指令相关的信息，纠正意外错误并筛选出不一致的运动决策
Skill Transformer: A Monolithic Policy for Mobile Manipulation
用于移动操作的单体策略
论文提出了Skill Transformer，一种结合条件序列建模和技能模块性来解决长视野机器人任务的方法。该方法在机器人的自适应和感知观察上基于条件序列模型，并通过训练使用Transformer架构和演示轨迹来预测机器人的高级技能(如导航、选择、放置)和整体低级动作(如基座和手臂运动)。它保留了整个任务的可组合性和模块性，通过一个技能预测模块来推理低级动作并避免常见于模块化方法的传递误差。
See to Touch: Learning Tactile Dexterity through Visual Incentives
通过视觉激励学习触觉灵活性
论文提出了一种名为Tactile Adaptation from Visual Incentives (TAVI)的新框架，通过使用视觉奖励来优化基于触觉的灵巧性策略，从而提高多指机器人的精确度、丰富性和灵活性。在六个具有挑战性的任务中，TAVI使用四指Allegro机器人手实现了73%的成功率，比使用基于触觉和视觉奖励的策略提高了108％，比不使用基于触觉观察输入的策略提高了135％。
Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents
用于执行指令的具身代理的上下文感知规划和环境感知记忆
论文提出了一种CAPEAM方法，用于改善具身代理在视觉导航和对象交互方面的表现。该方法考虑了执行动作的后果，并将语义上下文和已交互物体的状态变化纳入一系列动作中，以推断后续动作。实验证明，该方法在各种指标上实现了最先进的性能，并在未见过的环境中获得了大幅提高。
Statler: State-Maintaining Language Models for Embodied Reasoning
用于具身推理的状态维护语言模型
论文提出了一种名为Statler的框架，用于赋予大型语言模型（LLM）对世界状态的显式表示，可以随着时间的推移进行维护。通过使用两个通用LLM实例——世界模型阅读器和世界模型写入器——与世界状态进行交互和维护，Statler提高了现有LLM在较长时间范围内推理的能力，而不受上下文长度的限制。
Embodied Task Planning with Large Language Models
基于大型语言模型的具身任务规划
本研究提出了一种名为TAsk Planing Agent（TaPA）的基于场景约束的具身任务规划方法，用于在真实世界中生成可执行的计划。该方法通过将大型语言模型与视觉感知模型对齐，根据场景中已存在的对象生成可执行计划。另外，作者还构建了一个多模态数据集，并使用GPT-3.5生成了大量的指令和相应的计划动作。
Conditionally Combining Robot Skills using Large Language Models
使用大型语言模型有条件地组合机器人技能
论文提出了两个贡献。首先，介绍了一个名为“Language-World”的Meta-World基准扩展，允许大型语言模型在模拟机器人环境中使用自然语言查询和脚本化技能进行操作。其次，引入了一种称为计划条件行为克隆（PCBC）的方法，可以使用端到端演示微调高级计划的行为。使用Language-World，表明PCBC能够在各种少数情况中实现强大的性能，通常只需要单个演示即可实现任务泛化。