-
作者: Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars
-
单位:鲁汶大学电气工程系,鲁汶大学计算机科学系
-
论文标题: Instruction-guided path planning with 3D semantic maps for vision-language navigation
-
出版信息:Neurocomputing 625 (2025) 129457
-
论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0925231225001298?via%3Dihub
主要贡献
-
引入高分辨率3D语义地图:提出使用高分辨率的3D语义地图作为环境表示,相比传统的2D地图或拓扑地图,能够保留更多环境信息,为导航提供更丰富的语义和空间上下文。
-
提出模块化导航框架(iPPD):设计了一种模块化的导航方法,包含路径提议和路径评分两个阶段。通过指令约束的路径提议算法生成候选路径,并利用基于Transformer的评分模型选择最佳路径,有效利用全局信息,避免了局部决策的误差累积。
-
创新的路径特征编码方案:提出了一种针对3D语义地图的路径特征编码方法,通过“对象罗盘”感知局部环境,并结合PointNet和Transformer模型对路径特征进行编码,增强了路径与语言指令的对齐能力。
-
全局路径规划方法:这是首个基于3D语义地图的全局路径规划方法,通过预探索阶段构建的全局地图进行路径规划,显著提升了语言引导导航任务的性能,减少了训练需求,并展示了其在实际应用中的潜力。
背景知识
-
视觉语言导航(VLN)的目标是让机器人能够理解人类自然语言指令,并在环境中成功导航以执行这些指令。这需要整合语言理解、视觉感知和决策能力。
-
传统的 VLN 方法大多基于离散环境假设,即导航位置是预先定义好的,但在现实场景中,这种假设限制了机器人的灵活性和适应性。
-
因此,研究者们开始探索连续环境中的 VLN 任务,以缩小与实际应用的差距。
研究方法
论文提出了一种名为 Instruction-aware Path Proposal and Discrimination (iPPD) 的新方法,该方法包含两个主要阶段:语义地图构建和基于语言的路径规划。
1. 语义地图构建
在预探索阶段,机器人在环境中随机行走,利用 RGBD(彩色图像和深度图像)传感器收集数据,并通过预训练的语义分割模型(Mask2Former)对每个时间步的观察结果进行语义分割。这些分割结果被投影到 3D 点云中,并结合相机姿态信息,动态更新到全局 3D 语义地图中。地图的分辨率设置为 0.1 米,并通过多视图一致性约束和最大池化操作来减少语义预测误差。
2. 基于语言的路径规划
路径规划阶段包含两个模块:路径提议和路径评分。
-
路径提议:受经典粒子滤波算法启发,论文提出了一种基于指令约束的路径提议算法。该算法利用从指令中提取的稀疏动作-对象序列(如“向左转”、“观察沙发”)来引导粒子的运动。粒子在地图中模拟机器人运动,生成一系列候选路径。这些路径随后被编码并评分。
-
路径评分:论文设计了一种基于 Transformer 的语言驱动判别器,用于评估候选路径并选择最佳路径作为最终结果。路径特征编码方案专门针对 3D 语义地图设计,能够将路径上的环境信息编码为特征表示。这些特征与语言指令对齐,以验证路径是否符合指令。
实验
实验使用了 VLN-CE 数据集,并在验证集上进行了评估。评估指标包括归一化动态时间弯曲(nDTW)、成功率(SR)、成功加权路径长度(SPL)等。
关键结论
-
性能提升:iPPD 方法在验证集上的表现显著优于其他方法,尤其是在 nDTW 和 SR 指标上。例如,在验证集的 seen 环境中,iPPD 的 nDTW 为 0.66,SR 为 0.51,而在 unseen 环境中,nDTW 为 0.63,SR 为 0.42。
-
地图质量的影响:通过对比使用构建的语义地图和使用真实语义地图的模型性能,论文发现构建的语义地图在性能上与真实地图相当,表明其包含的语义信息足以支持导航任务。
-
路径提议策略的影响:论文还比较了不同的路径提议策略,包括随机行走、考虑障碍物的提议策略等。结果表明,论文提出的策略在召回率和路径形状相似性之间取得了较好的平衡。
讨论与未来工作
尽管 iPPD 方法在预探索环境中的 VLN 任务中表现出色,但仍有改进空间。论文指出,未来的研究方向包括:
-
提高语义地图的精度,例如包含实例级信息。
-
探索更先进的语言模型以增强指令理解能力。
-
研究更高效的路径规划算法,以减少对评分模型的依赖。
-
改进地图管理技术,以支持更大规模环境的导航。