导航指令生成新篇章：将语义地图转化为机器人眼中的“道路”

引言：导航指令生成的挑战与机遇

在人工智能领域，视觉与语言导航（Vision and Language Navigation, VLN）任务是一个充满挑战的研究领域，它要求智能体根据自然语言指令在物理环境中进行导航。然而，VLN任务的数据标注既耗时又成本高昂，这严重限制了模型训练数据的可用性，进而限制了模型的发展。为了解决这一问题，导航指令生成（Navigation Instruction Generation, VL-GEN）任务应运而生，它与VLN任务相反，旨在为虚拟（或物理）环境中的路径生成自然语言指令。这不仅有助于与用户的交互和可解释性，而且先前的工作也证明了VL-GEN在提高VLN系统性能方面的有效性，例如Speaker-Follower模型和EnvDrop。

尽管如此，现有的VL-GEN方法仍存在两个主要缺陷。首先，使用全景图像作为视觉输入在表示上是资源密集型的，需要处理与路径上不同点相对应的多个图像输入。其次，全景图像包含许多与任务无关的细节，模型必须同时学习解释环境并生成指令。为了解决这些问题，我们提出将VL-GEN任务分为两步：环境解释和空间推理。本文聚焦于第二步，探索使用自顶向下的语义地图进行VL-GEN的可行性。

我们的研究问题是，是否可以使用自顶向下的语义地图（单个RGB图像）作为主要信息来源，并探索哪些其他数据源可以进一步提高性能。为了回答这个问题，我们将VL-GEN任务形式化为图像字幕任务，输入为带有路径的语义地图。我们从Habitat模拟器中提取自顶向下的地图，并基于Room-to-Room数据集和VLN-CE进行实验。我们的主要贡献和发现包括以下几点：

我们通过自动和人类评估实验性地证明，包含额外信息（即区域、动作和提示）会比仅使用语义地图生成更准确、更健壮的导航指令。
我们还对生成指令的质量进行了细粒度的错误分析。

论文标题、机构、论文链接和项目地址

论文标题：Semantic Map-based Generation of Navigation Instructions
机构：University of Cambridge, Toshiba Europe Limited
论文链接：https://arxiv.org/pdf/2403.19603.pdf
项目地址：代码、模型训练和推理以及评估的代码已在GitHub上发布：https://github.com/chengzu-li/VLGen。此外，还发布了从Habitat环境中提取的自顶向下的语义地图，扩展了现有的R2R数据集，可以根据https://github.com/chengzu-li/VLGen上的指南进行请求。

任务定义与数据介绍

语义地图的定义与导航路径

在Vision and Language Navigation (VLN)任务中，代理根据自然语言指令在物理环境中导航（Wu等，2021）。VLN任务的数据标注耗时且成本高，而解决该任务的模型开发受到训练数据的严重限制（Gu等，2022）。导航指令生成（VL-GEN）是VLN任务的反向过程，它为虚拟（或物理）环境中的路径生成自然语言指令，有助于与用户的交互和可解释性。先前的研究还表明VL-GEN在改进VLN系统的性能方面是有效的，如Speaker-Follower模型（Fried等，2018）和Env Drop（Tan等，2019）。本文探讨了VL-GEN任务，将其构建为图像字幕任务。

从图像字幕任务到导航指令生成

VL-GEN要求模型在物理环境的背景下生成语言指令，将对象引用和动作指令与给定空间联系起来。先前的研究使用逼真的RGB全景图像作为视觉输入；他们将VL-GEN构建为从一系列逼真的RGB图像生成文本的端到端任务（Fried等，2018；Tan等，2019；Wang等，2022d）。然而，Zhao等（2021）报告称，使用端到端模型生成的指令整体质量仅略优于基于模板的生成，将对象引用应用于全景图像。

现有方法存在两个缺点。从表示的角度来看，使用全景图像需要处理对应于路径上不同点的多个图像输入，这是资源密集型的。其次，全景图像包含许多与任务无关的细节。模型必须学会从RGB全景图像中解释环境，如对象识别，并同时生成指令。由于人类自然而然地从顶部地图（如Google地图）理解导航指令（Paz-Argaman等，2024），我们建议将VL-GEN任务分为两个步骤：1）环境解释，由物理机器人系统中的语义SLAM解决（Chaplot等，2020）；2）空间推理。本文侧重于第二步，并探讨使用顶部语义地图进行VL-GEN的可行性。

方法概述：多模态文本生成模型

BLIP模型的架构与输入处理

受到多模态预训练模型成功的启发，我们使用BLIP2构建了一个多模态文本生成模型。如图2所示，该模型的架构包括处理不同输入的模块。

模型增强：对比损失与提示增强

多模态对齐与对比损失：对比学习是自监督学习中用于视觉表示学习的有效方法（Radford等，2021；Li等，2022），在BLIP中也用于多模态预训练。我们研究了将对比训练引入导航指令生成任务作为辅助损失的有效性。我们定义正例P+(Cgt, Igt)为组合输入嵌入和指令嵌入的对，负例P-(Cgt, Irnd)由输入嵌入和随机抽样指令嵌入的对组成。我们根据CLIP（Radford等，2021）的方法，将多模态输入矩阵Einput和文本指令矩阵Etext相乘，得到输入和标签之间的预测兼容矩阵Cpred，然后在Cpred上使用地面实况对应Cgt计算交叉熵损失。
提示增强与基础：提示LLMs在先前的研究中已经证明在各个领域是有效的（Li和Liang，2021；Liu等，2021；Tang等，2022；Keicher等，2022）。我们从模板生成提示，描述附近的对象和区域，例如从客厅区域靠近沙发靠垫的深黄色点开始。我们使用提示调整模型，并在推断过程中将提示模板馈送到解码器。我们认为提示可以在两个方面有助于生成任务。首先，它可以帮助视觉语言接地，因为提示模板描述了附近的地标和区域。其次，在推断时，生成的指令是根据提示模板自回归地生成的，从而在VL-GEN任务中实现更可控的生成。

实验设置与评估方法

1. 实验设计与系统变体

实验的目的是探索使用顶视图语义地图（top-down semantic map）进行导航指令生成（VL-GEN）的可行性。我们采用了Habitat模拟器中提取的语义地图，这些地图基于Room-to-Room数据集，并且每个地图对象类型都用唯一的颜色表示。实验中，我们考虑了不同的系统变体，包括只使用语义地图（TD）、语义地图加上区域名称和动作（TD+Reg+Act）、以及语义地图加上区域名称、动作和全景图像（TD+Reg+Act+Pano）。此外，我们还探索了对比损失（contrastive loss）和提示（prompting）的影响。

2. 人类参与者与评估流程

我们招募了5名未参与项目的评估员进行人类评估。评估员通过在线评估界面，根据语义地图、路径以及全景图像，对生成的导航指令质量打分，分数范围为0（最差）至10（最佳）。评估材料包括15条在未见环境中随机抽取的导航路径。为了确保评估的准确性，每位评估员的工作量被设计为不超过30分钟。

3. 自动评估指标与显著性测试

自动评估采用了SPICE（Semantic Propositional Image Caption Evaluation）指标，该指标专注于评估图像字幕的语义内容。我们使用双侧置换测试来比较不同系统的性能差异。如果p值大于0.05，则认为两个系统的性能没有显著差异。

实验结果与分析

1. 人类评估与自动评估结果

人类评估结果显示，仅使用语义地图的系统变体得到的平均分数最低（3.42分）。当加入区域、动作和全景图像时，得分最高（4.36分），显著优于基线系统（p=0.05）。然而，加入全景图像（Pano）的系统变体（4.36分）与仅使用TD+Reg+Act（4.20分）的系统变体之间没有显著差异。自动评估的SPICE指标与人类评估结果的Kendall τ相关性为0.6，表明两种评估方法具有一定的一致性。

2. 错误分析与系统性能对比

我们对5种系统变体生成的指令进行了错误分析，关注以下四个方面：幻觉、冗余、语言质量问题和遗漏。结果显示，不使用提示或全景图像的系统在所有情况下都存在错误，其中幻觉是最常见的错误类型。当使用区域和动作作为输入时，动作描述中的幻觉数量减少，但在区域描述中仍然较高。当引入提示进行训练时，生成的指令中动作和对象的幻觉减少，但引入对比损失后，预测中出现了冗余和语言问题。语言质量问题主要包括对象和区域的拼写错误，以及在引入提示和对比损失进行训练时的标点错误。这可能是因为对比损失影响了交叉熵损失，从而干扰了语言生成任务。

讨论与未来方向

1. 语义地图的优势与局限性

语义地图作为一种信息的抽象表示，对于导航指令生成任务（VL-GEN）具有显著的优势。它以单一的RGB图像形式出现，为物理环境提供了自上而下的视角，其中包含了路径和一系列用不同颜色表示的对象。这种表示方式对于当前系统来说是有用的，因为它简化了从环境中提取导航相关信息的过程。然而，语义地图的抽象性也带来了局限性。例如，它无法提供关于房间名称（如浴室、卧室）的信息，这些通常在室内导航指令中自然使用。此外，当前的单层语义地图表示也无法编码对象的属性，如颜色、材质或形状，而这些属性在指令中被提及的频率超过了三分之一。

2. 多模态输入与指令生成的关系

多模态输入对于提高VL-GEN任务的性能至关重要。实验结果表明，包含额外信息（如区域、动作和提示）的系统比仅使用语义地图的系统生成的导航指令更准确、更稳健。此外，研究还发现，将区域名称和动作作为每个导航点的文本输入提供，可以减少在动作描述中出现的幻觉错误。然而，引入全景图像作为输入并没有显著提高性能，这表明当前系统可能不需要全景图像来执行VL-GEN任务。尽管如此，所有模型的绝对性能仍然较低，这表明还有很大的改进空间。