-
作者:Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang
-
单位:北京工业大学信息科学与技术学院,北京工业大学计算智能与智能系统北京市重点实验室,中科院自动化研究所模式识别国家重点实验室与多智能体系统实验室,湘潭大学自动化与电子信息学院,上海科技大学信息科学与技术学院
-
论文标题:Multimodal Pretrained Knowledge for Real-world Object Navigation
-
论文链接:https://www.mi-research.net/en/article/pdf/preview/10.1007/s11633-024-1537-x.pdf
-
出版信息:Machine Intelligence Research (2025)
主要贡献
-
提出了基于多模态预训练知识的现实世界物体导航方法,通过在关键点进行视觉-语言跨模态对齐,有效地监督机器人导航。
-
构建了室内物体数据库,并开发了多模态对齐概念知识(MACK(indoor)),以支持各种场景下的物体检索。
-
提出了目标位置预测策略,能够准确预测机器人接近目标物体的最佳位置和方向。
-
在物理机器人上实现了该方法,并通过实验验证了其在现实世界环境中的优越性,成功率达到66.7%,优于现有方法。
研究背景
-
视觉-语言导航(VLN)的挑战:大多数VLN研究集中在模拟环境,但在现实世界中,由于视觉和语言之间的错位,导致路径偏差,方法难以泛化。
-
现有方法的局限性:现有方法在动态或复杂环境中泛化能力有限,尤其是在关键位置的语义概念理解、大规模空间导航和复杂决策过程中。
-
多模态预训练知识的潜力:多模态预训练技术在未配对图像-文本匹配中表现出色,但尚未应用于现实世界的VLN任务。
研究方法
多模态预训练知识(MACK(indoor))
-
通过Open Images V7数据集和实验室数据,收集了100个常见室内物体的词-区域对,构建了MACK(indoor)。
-
每个语义概念的视觉原型表示通过平均相关区域表示获得,用于支持物体检索。
关键点筛选与优化
-
在预先构建的2D网格地图上随机生成多个航点,去除非可导航区域的航点,并将剩余航点指定为关键点。
-
通过战略性优化,确保生成的航点在关键位置(如交叉口、入口和视觉复杂区域)有效。
视觉-语言跨模态匹配
-
使用Kinect v2.0相机捕获的RGB图像,应用自下而上的注意力机制提取图像区域特征。
-
将语音命令转换为文本,通过MACK(indoor)映射到相应的特征表示,计算目标文本表示与图像区域特征之间的相似性。
目标可导航位置预测
-
在成功匹配目标物体后,利用深度信息辅助路径规划,使机器人能够高效地接近目标物体。
-
提出了一种结合目标物体深度信息和SLAM地图数据的方法,预测机器人接近目标物体的最佳位置和方向。
实验平台与实现
-
在物理机器人上实现了该方法,机器人平台包括Kinect v2.0 RGB-D相机、支持杆、升降平台、联想9000P电脑、夹持器、专用支架和移动底盘。
实验
数据集与评估指标
-
使用Open Images V7数据集和实验室收集的数据进行评估。
-
采用“R@1”、“R@3”和“R@5”等指标评估多模态预训练知识在关联图像区域与文本描述方面的有效性,并记录平均最大相似度分数。
-
通过平均路径长度(APL)、成功率(SR)、路径长度加权成功率(SPL)和平均导航时间等指标评估导航性能。
关键点密度的影响
-
评估了不同关键点密度范围对导航效率的影响,发现优化后的关键点密度范围在3.5~4.5 m/point时,导航成功率最高,为66.7%。
与SOTA方法的比较
-
与Sim-to-Real方法相比,所提出的方法在成功率和SPL方面分别提高了19.9和16.6个百分点。
不同物体对导航效率的影响
-
发现较大物体更容易检索,导航性能更好,而较小或较远的物体匹配相似度分数较低,影响导航成功率,但通过“先裁剪后匹配”的策略可以提高性能。
动态和视觉复杂环境中的鲁棒性分析
-
在不同光照条件和环境布局下进行导航实验,结果表明所提出的方法具有较强的泛化能力,在语义遮挡、相似干扰和复杂背景环境下,平均跨模态对齐相似度始终超过0.6。
讨论与未来工作
讨论
-
所提出的方法在现实世界环境中表现出色,尤其是在关键点的视觉-语言对齐和目标位置预测方面。
-
实验结果表明,该方法在动态和视觉复杂环境中具有较强的鲁棒性,但仍需进一步优化以应对极端条件(如黑暗环境)。
未来工作
-
计划为机器人配备全景相机和高精度3D雷达系统,以提高感知能力。
-
将现有的VLN模型(如Discrete-Continuous-VLN、VLN-CE、Habitat和ETPNav)扩展到现实世界环境,以扩大其适用性。
-
持续改进视觉-语言导航的鲁棒性、可靠性和适应性,缩小理论与实践之间的差距,最大化其现实世界的影响。