3D语义地图中的全局路径规划！iPPD：基于3D语义地图的指令引导路径规划视觉语言导航

作者： Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars
单位：鲁汶大学电气工程系，鲁汶大学计算机科学系
论文标题： Instruction-guided path planning with 3D semantic maps for vision-language navigation
出版信息：Neurocomputing 625 (2025) 129457
论文链接：https://www.sciencedirect.com/science/article/abs/pii/S0925231225001298?via%3Dihub

主要贡献

引入高分辨率3D语义地图：提出使用高分辨率的3D语义地图作为环境表示，相比传统的2D地图或拓扑地图，能够保留更多环境信息，为导航提供更丰富的语义和空间上下文。
提出模块化导航框架（iPPD）：设计了一种模块化的导航方法，包含路径提议和路径评分两个阶段。通过指令约束的路径提议算法生成候选路径，并利用基于Transformer的评分模型选择最佳路径，有效利用全局信息，避免了局部决策的误差累积。
创新的路径特征编码方案：提出了一种针对3D语义地图的路径特征编码方法，通过“对象罗盘”感知局部环境，并结合PointNet和Transformer模型对路径特征进行编码，增强了路径与语言指令的对齐能力。
全局路径规划方法：这是首个基于3D语义地图的全局路径规划方法，通过预探索阶段构建的全局地图进行路径规划，显著提升了语言引导导航任务的性能，减少了训练需求，并展示了其在实际应用中的潜力。

背景知识

视觉语言导航（VLN）的目标是让机器人能够理解人类自然语言指令，并在环境中成功导航以执行这些指令。这需要整合语言理解、视觉感知和决策能力。
传统的 VLN 方法大多基于离散环境假设，即导航位置是预先定义好的，但在现实场景中，这种假设限制了机器人的灵活性和适应性。
因此，研究者们开始探索连续环境中的 VLN 任务，以缩小与实际应用的差距。

研究方法

论文提出了一种名为 Instruction-aware Path Proposal and Discrimination (iPPD) 的新方法，该方法包含两个主要阶段：语义地图构建和基于语言的路径规划。

1. 语义地图构建

在预探索阶段，机器人在环境中随机行走，利用 RGBD（彩色图像和深度图像）传感器收集数据，并通过预训练的语义分割模型（Mask2Former）对每个时间步的观察结果进行语义分割。这些分割结果被投影到 3D 点云中，并结合相机姿态信息，动态更新到全局 3D 语义地图中。地图的分辨率设置为 0.1 米，并通过多视图一致性约束和最大池化操作来减少语义预测误差。

2. 基于语言的路径规划

路径规划阶段包含两个模块：路径提议和路径评分。

路径提议：受经典粒子滤波算法启发，论文提出了一种基于指令约束的路径提议算法。该算法利用从指令中提取的稀疏动作-对象序列（如“向左转”、“观察沙发”）来引导粒子的运动。粒子在地图中模拟机器人运动，生成一系列候选路径。这些路径随后被编码并评分。
路径评分：论文设计了一种基于 Transformer 的语言驱动判别器，用于评估候选路径并选择最佳路径作为最终结果。路径特征编码方案专门针对 3D 语义地图设计，能够将路径上的环境信息编码为特征表示。这些特征与语言指令对齐，以验证路径是否符合指令。

实验

实验使用了 VLN-CE 数据集，并在验证集上进行了评估。评估指标包括归一化动态时间弯曲（nDTW）、成功率（SR）、成功加权路径长度（SPL）等。

关键结论

性能提升：iPPD 方法在验证集上的表现显著优于其他方法，尤其是在 nDTW 和 SR 指标上。例如，在验证集的 seen 环境中，iPPD 的 nDTW 为 0.66，SR 为 0.51，而在 unseen 环境中，nDTW 为 0.63，SR 为 0.42。
地图质量的影响：通过对比使用构建的语义地图和使用真实语义地图的模型性能，论文发现构建的语义地图在性能上与真实地图相当，表明其包含的语义信息足以支持导航任务。
路径提议策略的影响：论文还比较了不同的路径提议策略，包括随机行走、考虑障碍物的提议策略等。结果表明，论文提出的策略在召回率和路径形状相似性之间取得了较好的平衡。