具身智能论文（四）

1. Alexa Arena: A User-Centric Interactive Platform for Embodied AI
2. EDGI: Equivariant Diffusion for Planning with Embodied Agents
3. Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents
4. Egocentric Planning for Scalable Embodied Task Achievement
5. EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought
6. Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents
7. Language Models Meet World Models: Embodied Experiences Enhance Language Models
参考文献

1. Alexa Arena: A User-Centric Interactive Platform for Embodied AI

在这里插入图片描述

这篇论文旨在开发一个面向用户的互动平台，Alexa Arena，该平台能够促进辅助对话式具身智能体（EAI）的开发和评估，尤其是在家庭环境中的应用。

Alexa Arena平台设计为多房间布局，拥有大量的可交互对象和任务场景，提供了一个富有挑战性和高度可定制的测试环境。智能体在该平台上执行的任务包括导航、对象识别和操作、以及与用户的对话式交互，这些任务旨在模拟真实世界中的家庭助手机器人场景。

为了解决以往平台在用户交互数据收集和系统评估方面的局限，Alexa Arena引入了对话式任务完成基准和在线人类评估。这使得研究人员可以在一个控制的环境中收集丰富的互动数据，同时评估智能体在现实世界任务中的表现。平台支持离线指导和在线执行，智能体可以通过自然语言与用户实时互动，这种设计大幅度提升了用户体验和任务执行的成功率。

在实验方面，研究团队展示了Alexa Arena在提高任务交互性、用户参与度以及执行复杂家庭任务的能力。平台的在线和离线评估协议也证明了其在真实场景中的应用潜力，如辅助用户完成家务或提供信息支持等。

总结来说，Alexa Arena平台通过提供一个用户中心的互动环境，显著推进了EAI系统在家庭助理领域的研究和应用。这项工作不仅为研究人员提供了一个强大的工具来开发和测试具身智能体，也为将来智能家庭助理的实际部署和应用提供了有力的技术支持和实验验证。

2. EDGI: Equivariant Diffusion for Planning with Embodied Agents

在这里插入图片描述

这篇论文介绍了一种新的模型EDGI，专门针对具身智能体在进行复杂任务规划时的挑战。EDGI算法基于等变扩散过程，能够显著提高模型对物理世界对称性的理解，从而增强智能体的样本效率和任务泛化能力。

具体来说，EDGI利用对称群，包括SE(3)空间对称群、离散时间平移群Z和对象置换群Sn，这使得模型能够在不同的物理和抽象层面上保持对称性，从而更好地理解和预测环境中的动态变化。通过嵌入等变性质，EDGI可以利用较少的数据来训练高效的规划模型，减少在类似但不完全相同的任务中重新学习的需求。

在实验部分，研究团队展示了EDGI在多种具身智能体任务中的应用效果，包括复杂的物体操纵和导航任务。EDGI不仅在标准基准测试中表现出色，而且在使用数量级更少的训练数据时，仍能达到或超越现有非等变模型的性能。这一结果验证了EDGI在提高样本效率和任务泛化能力方面的显著优势。

总结来说，通过引入EDGI，这篇论文为具身智能体规划提供了一种新的视角和方法。通过对模型的对称性进行编码，显著提升了智能体处理复杂、动态环境中任务的能力，特别是在面对需求对称操作的场景时。这不仅推动了AI规划领域的理论发展，也为实际应用中的智能系统设计提供了有力的技术支持。

3. Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents

在这里插入图片描述
这篇论文针对具身智能体（embodied agents）在多变的视觉环境中快速适应策略的需求，提出了一种新型框架——对比式提示集合（CONPE）。这一框架旨在通过利用预训练的视觉-语言模型和一系列视觉提示来提升智能体的策略学习和适应能力。

CONPE框架的核心在于其引入的两个创新方法：对比式提示学习和基于引导注意力的提示集合。在对比式提示学习中，每个视觉提示针对具体的领域因素进行优化，这些领域因素显著影响智能体的自我中心感知和观察。通过这种方法，CONPE能够为每个观察生成多个视觉嵌入，然后通过基于引导注意力的集合机制动态调整这些嵌入，以形成对任务特定的状态表示。这种集合方法不仅提高了表示的泛化能力，还优化了任务学习的效率。

实验方面，研究者在包括AI2THOR的导航任务、Metaworld的机器人操作任务和CARLA的自动驾驶任务在内的多个具身智能体任务中测试了CONPE框架。结果显示，CONPE在这些任务中表现出比现有最先进方法更高的零样本性能和更好的样本效率。特别是，在AI2THOR的对象导航任务中，CONPE的零样本表现比EmbCLIP高出20.7%，显示了其出色的适应能力。

总之，这篇论文通过结合先进的对比学习和注意力集合技术，显著提高了智能体在面对环境和物理变化时的快速适应能力。CONPE不仅提升了策略的学习效率，还扩展了智能体在复杂环境中的应用潜力，为具身智能体领域提供了一种新的方法论和技术路线。

4. Egocentric Planning for Scalable Embodied Task Achievement

在这里插入图片描述

这篇论文聚焦于具身智能体在家庭环境中执行复杂任务的问题，这些任务通常涉及到多步骤操作和对环境的动态理解。

为了解决具身智能体在这类环境中的规划和执行任务的挑战，文章提出了一种创新的“自我中心规划”方法。该方法结合了符号规划和面向对象的部分可观测马尔可夫决策过程（POMDPs），以适应具身智能体的视角。自我中心规划首先通过视觉感知系统识别并理解环境中的对象和空间布局，然后构建一个反映这些关系的语义空间图。接着，利用这些信息来定义一个PDDL（规划领域定义语言）任务，使得智能体能在符号规划的帮助下，有效地导航并执行复杂的任务序列。

实验部分，研究团队在ALFRED仿真环境中对自我中心规划进行了测试和验证。ALFRED是一个评估具身智能体在家庭环境中执行任务的基准测试，涉及语言指导和视觉理解的交互。在这个挑战中，自我中心规划显示出卓越的性能，特别是在未见环境中，成功率达到了36.07%，同时赢得了CVPR Embodied AI workshop的ALFRED挑战赛。

通过这些实验，研究团队证明了自我中心规划方法在提高智能体处理复杂、多步骤任务的可扩展性和效率方面的有效性。这种方法不仅增强了智能体对环境的动态适应能力，还提高了长期规划的准确性和鲁棒性，为未来具身智能体在实际家庭环境中的应用提供了有力的技术支持。

5. EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought

在这里插入图片描述
这篇论文引入了EmbodiedGPT，这是一个旨在通过“思维链”（Chain of Thought）方式增强具身人工智能（EAI）的多模态基础模型。研究团队构建了名为EgoCOT的大规模具身规划数据集，包括从Ego4D数据集中精选的视频及其对应的高质量语言指令，以此训练模型。

EmbodiedGPT的训练采用了前缀调整技术，该技术针对7B规模的大型语言模型进行优化，以适应EgoCOT数据集。此外，研究还介绍了一种新的方法来从语言模型生成的规划查询中提取任务相关特征，实现高级规划与低级控制之间的闭环连接。该模型不仅能进行具身规划和控制，还能处理视觉描述和视觉问答任务。

在实验部分，EmbodiedGPT在多个具身AI任务中展示了其卓越性能。特别是在具身控制任务上，该模型显著提高了成功率，在Franka Kitchen和Meta-World基准测试中，分别比BLIP-2基线模型提高了1.6倍和1.3倍的成功率。这一显著的性能提升证明了EmbodiedGPT在提高智能体对物理世界交互的自然性和直观性方面的潜力。

总体来说，这篇论文通过提出EmbodiedGPT模型，展示了大型语言模型在处理具身AI任务中的强大能力和潜力。这不仅推动了具身人工智能领域的技术进步，还为未来智能体在真实世界中的应用提供了新的方法和视角。

6. Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents

在这里插入图片描述

这篇论文针对现有的语言模型在具身智能体应用中由于缺乏对环境的具体理解和实际交互能力而表现不佳的问题，提出了一种名为“Grounded Decoding”（GD）的创新方法。GD方法结合了先进的语言模型和基于环境的地面模型（Grounded Models, GM），通过这种结合，智能体能够生成更适合实际操作的指令和行为。

GD的核心思想是在文本生成过程中引入一个地面真实性的评估机制，使得生成的文本既符合语言模型生成的高概率语句，又满足由地面模型提供的环境约束。例如，智能体在执行导航任务时，不仅需要理解指令的语言表达，还要能够评估指令的可行性和环境的实际情况。

在实验评估中，研究团队在多个仿真环境和真实世界设置中测试了GD方法的有效性。结果显示，在执行包括复杂机器人操作和长期任务规划等一系列具身任务时，GD不仅提高了任务的成功率，还显著优化了智能体的执行效率。这一性能的提升得益于GD方法能够有效地将大型语言模型的抽象理解与具体环境中的实际需求相结合。

总结来说，这篇论文通过提出“Grounded Decoding”，成功地解决了具身智能体在执行复杂长期任务时遇到的挑战，显著提升了任务执行的准确性和效率。这种方法为未来具身智能体如何更好地结合语言理解和环境交互提供了新的视角和工具，为具身AI的发展开辟了新的研究方向。

7. Language Models Meet World Models: Embodied Experiences Enhance Language Models

在这里插入图片描述

这篇论文探讨了现有大型语言模型在理解和执行与物理世界相关的复杂任务时面临的挑战，特别是在处理需要物理知识和环境互动的问题时，这些模型往往显示出理解的局限性。

为了克服这一问题，论文提出了一种新的解决方案，即通过将语言模型与世界模型结合，利用具身体验来增强语言模型的理解能力和适应性。这一方法包括在虚拟环境中，如VirtualHome，部署具身智能体进行目标导向的任务执行和随机探索，通过这些互动体验收集数据，然后用这些具体的体验来微调预训练的语言模型。

这种训练策略的目的是使语言模型不仅能理解文本信息，还能通过模拟的具身体验来学习如何在物理世界中进行推理和规划。实验结果表明，这种结合了具身体验的语言模型在多个下游任务中表现出显著的性能提升，尤其是在需要物理交互和环境理解的任务上，平均性能提升了64.28%，在某些任务上甚至达到了更大模型的性能水平，如ChatGPT。

总之，这篇论文成功地展示了通过结合世界模型和语言模型的训练方法，不仅显著提升了语言模型在具身智能体任务中的应用能力，还为未来智能体在现实世界中的应用开辟了新的可能，这种方法为智能体理解和交互复杂世界提供了新的视角和工具。

参考文献

[1] Gao Q, Thattai G, Shakiah S, et al. Alexa arena: A user-centric interactive platform for embodied ai[J]. Advances in Neural Information Processing Systems, 2024, 36.
[2] Brehmer J, Bose J, De Haan P, et al. EDGI: Equivariant diffusion for planning with embodied agents[J]. Advances in Neural Information Processing Systems, 2024, 36.
[3] Choi W, Kim W K, Kim S H, et al. Efficient policy adaptation with contrastive prompt ensemble for embodied agents[C]//Thirty-seventh Conference on Neural Information Processing Systems. 2023.
[4] Liu X, Palacios H, Muise C. Egocentric Planning for Scalable Embodied Task Achievement[J]. Advances in Neural Information Processing Systems, 2024, 36.
[5] Mu Y, Zhang Q, Hu M, et al. Embodiedgpt: Vision-language pre-training via embodied chain of thought[J]. Advances in Neural Information Processing Systems, 2024, 36.
[6] Huang W, **a F, Shah D, et al. Grounded Decoding: Guiding Text Generation with Grounded Models for Embodied Agents[J]. Advances in Neural Information Processing Systems, 2024, 36.
[7] **ang J, Tao T, Gu Y, et al. Language models meet world models: Embodied experiences enhance language models[J]. Advances in neural information processing systems, 2024, 36.