具身智能论文（一）

1. PoSE: Suppressing Perceptual Noise in Embodied Agents for Enhanced Semantic Navigation
2. Embodied Intelligence: Bionic Robot Controller Integrating Environment Perception, Autonomous Planning, and Motion Control
3. Can an Embodied Agent Find Your “Cat-shaped Mug”? LLM-Based Zero-Shot Object Navigation
4. ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding
5. CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments
参考文献

1. PoSE: Suppressing Perceptual Noise in Embodied Agents for Enhanced Semantic Navigation

在这里插入图片描述

这篇论文探讨了如何在未知环境中提升机器人基于语义信息的导航能力。现有方法，如依赖大量数据集或预设规则的方法，通常面临着扩展性差和适应性弱的问题。而依靠预训练的语言模型的方法，则因视觉与语义信息的不匹配导致感知噪声，影响决策准确性。

为了克服这些限制，论文提出了一种创新的方法，称为基于提示的视觉上下文语义探索（PoSE）。该方法利用视觉-语言模型（VLMs）的先验知识，通过设计特定的提示（prompts）来减少感知噪声，并优化探索效率。这些提示基于存在逻辑，能够在观察到的环境中减少目标对象的误识别，例如通过判断某个场景是否可能找到目标对象来调整探索策略。

论文还引入了一个独特的探索地图，该地图能够将推理出的目标位置转化为机器人探索的坐标。在ALFRED基准上的实验结果显示，PoSE在未见环境中的表现优于传统的规则基础和任务特定的数据驱动策略，尤其是在处理基于文本模式的探索方法时。通过这种集成视觉信息和语义理解的方法，PoSE不仅提高了任务执行的成功率，也增强了模型的泛化能力，展示了其在未知环境中的有效性和广泛适用性。

2. Embodied Intelligence: Bionic Robot Controller Integrating Environment Perception, Autonomous Planning, and Motion Control

在这里插入图片描述

这篇论文针对现代制造业中对机器人智能化和自主性需求的增加，提出了一种新型的仿生机器人控制器，以解决传统机器人控制器在环境感知、目标识别、自主思考和规划能力方面的不足。

为实现这一目标，研究团队在机器人控制器中集成了三个核心模块：运动控制模块、视觉感知模块和自主规划模块。控制器基于ROS框架和ECI（Edge Controls for Industry）平台构建，利用改进的RRT-Growth-Angle算法进行路径规划，以确保机器人在执行任务时能够避免碰撞。

研究中以多目标重排问题作为验证场景，建立了一个双机器人协作系统。系统使用YOLOv5_OBB网络进行对象识别和定位，通过任务序列规划和路径规划算法，自主规划出无碰撞的轨迹，实现从起始点到抓取位置再到放置位置的移动。实验结果表明，该仿生机器人控制器能有效地模仿人的感知、思考和行动过程，智能地处理复杂的自动化任务。这项研究不仅展示了仿生机器人控制器在工业自动化领域的应用潜力，还为未来机器人控制系统的设计提供了新的思路和方向，特别是在提高机器人的自主性和智能化水平方面具有重要意义。

3. Can an Embodied Agent Find Your “Cat-shaped Mug”? LLM-Based Zero-Shot Object Navigation

在这里插入图片描述

这篇论文聚焦在一个特定的挑战：在完全未见过的环境中，让机器人仅通过自然语言的描述来找到特定的目标物体，比如一个形状像猫的马克杯。针对这一挑战，研究团队提出了一种称为“语言引导探索”（Language-Guided Exploration, LGX）的新方法。这种方法利用了大型语言模型（LLMs）的常识推理能力和预训练的视觉-语言模型，通过这些模型，机器人可以理解复杂的、非约束性的自然语言描述，并据此做出导航决策。具体实现上，LGX首先解析环境中的视觉语义信息，再结合LLM生成的导航子目标或直接的空间指令来引导机器人行动。

在实验部分，研究者使用RoboTHOR模拟环境对LGX进行了测试。与现有的基于CLIP的OWL-ViT模型相比，LGX在零样本目标导航的成功率上实现了超过27%的提升，表明其在处理具体目标导航任务中的优势。此外，研究团队还将该方法应用于实际机器人平台，通过真实世界的实验进一步验证了其效果。

通过这些实验，LGX展示了在处理自然语言驱动的零样本目标导航中的有效性，特别是在理解和执行基于复杂自然语言描述的任务方面。这一研究不仅推动了机器人导航和自然语言处理领域的发展，也为未来机器人在真实世界中的应用提供了有力的技术支持。

4. ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding

在这里插入图片描述

这篇论文探讨如何通过人机交互来提升3D视觉定位的准确性，尤其是在识别外观相似的多个邻近物体时的挑战。传统的3D视觉定位技术在处理含糊的空间描述和相似物体的区分上存在局限性，而本研究通过引入身体语言和手势信息，提出了一种名为“基于身体参照的理解（ERU）”的新任务，以改善这些问题。

研究团队首先设计了ScanERU数据集，这是首个融合文本描述、实际视觉图像和合成手势信息的数据集，用于评估和训练模型。此数据集包含了多种半合成场景，旨在提供一个复杂且具有挑战性的测试环境，以验证方法的有效性。

在技术实现上，论文构建了一个基于注意力机制和人体动作的启发式框架。这一框架不仅考虑了语言和视觉信息，还特别强调了手势信息的整合，通过这三者的互动来提高识别精度。实验结果表明，这种多模态融合方法在识别具有复杂空间关系的多个相似物体方面表现出色，尤其是在有手势指示时，识别效果有显著提高。

此外，为了验证方法的实际应用效果，研究团队还在真实世界场景中进行了测试，使用Azure Kinect DK 3D传感器收集现场数据，并应用开发的方法进行处理和分析。这一部分的测试结果进一步证实了所提出方法的实用性和有效性，特别是在真实环境下对于复杂描述的处理能力上。

总的来说，这篇论文通过创新地融合语言、视觉以及身体手势信息，提出了一个全新的3D视觉定位框架，并通过实验和实际应用展示了其在处理复杂场景和提高定位准确性方面的显著优势。这项工作不仅推动了3D视觉定位技术的发展，也为未来人机交互及智能系统设计提供了新的研究方向和实用解决方案。

5. CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments

在这里插入图片描述

这篇论文提出了一种新颖的对话式音视频导航框架CAVEN，专门设计来解决在嘈杂环境中基于声音导航的问题。这种环境中的声音通常是间歇性的、杂音混杂的，给定位声源带来了极大的挑战。在此背景下，传统的声音或视觉导航方法往往难以应对声音信号的不确定性和复杂性。

CAVEN框架的核心创新在于它能够通过与人类或预设的Oracle进行全双工的自然语言交互，以增强导航策略。这种交互不仅限于简单的指令响应，还包括能够生成和解析复杂问题的能力，从而使代理能够根据实时获取的信息动态调整其导航策略。具体来说，该框架包括两个主要组件：一是基于音视频线索的轨迹预测网络，用于生成可能的导航轨迹；二是一个基于自然语言的问题生成与推理网络，用于与Oracle进行互动，以获得导航指令或解决导航中的疑问。

实验部分，研究者使用SoundSpaces模拟器在各种噪音环境下测试CAVEN的效果，并与其他音视导航方法进行了比较。结果显示，CAVEN在成功率上几乎提高了一个数量级，特别是在定位新声源和处理混合声音的场景中表现突出。这一显著的改进归功于CAVEN能够通过双向交流准确处理复杂的语音和视觉信息，显著提高了导航的准确性和鲁棒性。

此外，为了支持这种复杂的交互式导航任务，研究团队还创建了一个新的大规模数据集AVN-Instruct，包含了大量的音频目标、轨迹和语言指令对。这些数据不仅用于训练CAVEN模型中的交互模块，还通过新的评价指标SNO和SNI来评估语言引导导航任务的效果。

参考文献

[1] Zhuang B, Zhang C, Hu Z. PoSE: Suppressing Perceptual Noise in Embodied Agents for Enhanced Semantic Navigation[J]. IEEE Robotics and Automation Letters, 2023.

[2] Gan Y, Zhang B, Shao J, et al. Embodied Intelligence: Bionic Robot Controller Integrating Environment Perception, Autonomous Planning, and Motion Control[J]. IEEE Robotics and Automation Letters, 2024.

[3] Dorbala V S, Mullen Jr J F, Manocha D. Can an Embodied Agent Find Your “Cat-shaped Mug”? LLM-Based Zero-Shot Object Navigation[J]. IEEE Robotics and Automation Letters, 2023.

[4] Lu Z, Pei Y, Wang G, et al. ScanERU: Interactive 3D Visual Grounding Based on Embodied Reference Understanding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(4): 3936-3944.

[5] Liu X, Paul S, Chatterjee M, et al. CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2024, 38(4): 3765-3773.