-
作者:Haodong Hong, Sen Wang, Zi Huang
-
单位:昆士兰大学
-
论文链接:Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments (https://dl.acm.org/doi/pdf/10.1145/3664647.3681640)
-
代码链接:https://github.com/honghd16/ObstructedVLN
主要贡献
-
提出R2R-UNO数据集,首次将指令-现实不匹配问题引入VLN任务,通过在R2R数据集中修改导航图和视觉观测,生成了多样化的障碍物,反映了真实世界导航的复杂性。
-
提出ObVLN方法,包括课程训练策略和虚拟图构建机制,帮助智能体有效适应障碍物环境。
-
在R2R-UNO数据集上,ObVLN方法相比现有方法在障碍物环境中的成功率提高了23%,达到了67%的成功率,显著提升了智能体的适应性。
-
在R2R、REVERIE和R2R-UNO数据集上进行了广泛的实验,证明了在VLN研究中引入R2R-UNO的重要性,并展示了ObVLN在原始和无障碍环境中的良好表现。
研究背景
研究问题
当前的VLN任务通常假设指令与固定的预定义导航图完全一致,忽略了实际导航图中可能存在的障碍物,这会导致在室内和室外环境中导航失败。
论文主要解决视觉语言导航(VLN)在实际环境中遇到的指令与现实的匹配问题。
研究难点
该问题的研究难点包括:
-
如何有效地在现有的VLN环境中引入障碍物,使得指令与现实环境不匹配;
-
如何在训练过程中使智能体适应这种不匹配,从而提高其在实际导航中的鲁棒性。
相关工作
-
数据集:介绍了用于VLN的数据集,如Matterport3D和HM3D,并介绍了通过合成指令、额外环境和预测场景来缓解数据稀缺问题的方法。ScaleVLN通过合成高质量的指令-轨迹对来提高智能体性能。
-
环境变化:讨论了修改VLN环境的多种方法,这些方法可以分为基于视觉的调整和基于图的调整。VLN-CE放弃基于图的导航范式,允许智能体在连续环境中自由移动以增强任务真实性。
-
障碍物避让:介绍了几种在视觉导航中处理障碍物的方法,如ETP-Nav和SafeVLN,但这些方法与本文的工作不同,因为它们专注于评估障碍物的属性以避免它们,而不是处理导航图的变化。
-
对象插入:回顾了计算机视觉中对象插入的研究历史,从早期的剪切粘贴策略到使用神经网络的图像合成。在导航领域,THDA和Envedit分别使用3D扫描和语义图像合成来增强训练数据。
研究方法
问题设定
在VLN中,智能体需要遵循自然语言指令在模拟环境中导航。环境通常是一个预定义的无向导航图,智能体在每个时间步感知一个全景视图,并决定一个动作来移动到相邻节点。
然而,现实世界的导航图可能会发生变化,例如由于障碍物的存在,导致指令与现实不符,智能体必须找到替代路径。
R2R-UNO数据集
提出了R2R-UNO数据集,通过在R2R数据集的导航图和视觉观察中进行修改,引入了各种类型的路径障碍,以生成指令与现实的不一致性问题。
-
图的变化:
-
定义了在R2R数据集中路径上的冗余边,并根据这些边的组合创建了不同的阻塞集合(Block-x),其中x表示阻塞边的数量。
-
对于每个路径,识别出所有冗余边,并为每组冗余边的组合计算替代路径,以确保即使某些边被阻塞,智能体仍然可以到达目的地。
-
为了避免生成过长的路径,设置了新路径长度的限制。
-
-
视觉变化:
-
为了与图的变化保持一致,引入了两个新模块:对象插入模块和过滤模块。
-
对象插入模块使用稳定的扩散修复模型来在全景视图中插入物体,从而在视觉上模拟障碍物的存在。
-
过滤模块通过使用CLIP模型评估每个视图-物体对的兼容性分数,从多个生成的候选视图中选择高质量的修复结果。
-
-
对象插入过程:
-
描述了如何在节点的全景视图中定位另一个节点,并计算像素坐标以生成掩码。
-
使用修复模型生成修复后的视图,并通过过滤模块选择最佳的修复结果。
-
最后,将更新后的视图传播到相邻视图,以保持全景视图的一致性。
-
-
多视图一致性:
-
仅在节点连接的冗余边上执行2D修复可能会导致多视图不一致性。
-
尽管如此,这种不一致性在他们的任务中对智能体性能的影响较小,因为指令与现实的不匹配主要是由图的变化定义的。
-
ObVLN
现有的VLN方法在完美指令假设下表现良好,但缺乏适应图变化的基本导航功能,这在现实世界的导航中至关重要。
论文提出ObVLN(Obstructed VLN),帮助智能体从无障碍环境平滑过渡到障碍环境。
-
R2R-UNO验证:通过在R2R-UNO数据集上进行零样本评估,发现即使是表现最好的模型,在遇到单个阻塞边时成功率也会显著下降。
-
ObVLN方法:为了解决这个问题,提出了ObVLN方法,它结合了课程学习策略和图构建机制,帮助智能体更好地适应阻塞环境。
-
课程学习策略:该方法通过逐步增加阻塞环境的样本比例,使智能体能够在原始和阻塞环境中都能保持良好的性能。
-
图构建机制:引入虚拟节点来代表因阻塞而不可达的节点,促进智能体寻找替代路线并提高探索效率。
实验设计
数据集
实验主要在R2R和R2R-UNO数据集上进行:
-
R2R数据集包括10,800个全景视图,分为训练集、验证集(可见和不可见)和测试集。
-
R2R-UNO数据集通过在R2R路径中引入障碍物生成,包含三种不同的障碍物设置(Block-1、Block-2、Block-3)。
评估指标
评估指标包括:
-
轨迹长度(TL),
-
导航误差(NE),
-
成功率(SR),
-
路径长度加权成功率(SPL)。
实现细节
使用stable-diffusion-v1.5-inpainting模型进行对象插入,CLIP ViT-L/14评估文本图像对。
采用HAMT和DUET进行导航训练,优化器为AdamW,学习率为1e-5,批量大小为8,训练100K次。
训练设置
比较了三种不同的训练设置:
-
基本设置(仅使用R2R数据集),
-
+OE设置(结合R2R和R2R-UNO数据集),
-
+ObVLN设置(使用ObVLN方法在R2R和R2R-UNO数据集上训练)。
主要结果
性能提升
-
结果显示,结合两种类型数据的模型在R2R-UNO数据集上的导航性能显著优于仅在R2R上训练的模型。
-
尽管结合数据的训练设置提高了在阻塞场景中的性能,但也导致了在R2R数据集上的性能下降。
-
论文指出这是因为智能体在阻塞环境中过度优化,倾向于在没有障碍物的情况下也采取绕行策略。
ObVLN的优势
-
对于HAMT模型,ObVLN在所有四个R2R和R2R-UNO数据集上都取得了最佳结果。
-
对于DUET模型,尽管在R2R上的SPL略有下降,但在R2R-UNO的所有三个数据集上都取得了最先进的结果。
消融研究
消融研究表明,对象插入模块和过滤模块对提高智能体在障碍环境中的导航性能至关重要。
此外,逐步增加障碍物环境样本比例的采样策略也优于其他策略。
定性分析
展示了R2R-UNO中的一些受阻环境,并与原始视图进行了比较。
结果表明,ObVLN方法能够成功地将各种对象插入到原始视图的特定位置,创建出现实且上下文和谐的障碍物。
总结
论文通过引入障碍物到VLN环境中,解决了指令与现实匹配问题。
提出的R2R-UNO数据集和ObVLN方法有效地提高了智能体在障碍环境中的导航能力。
研究表明,解决完美指令假设对于VLN在实际应用中的鲁棒性和适应性至关重要。