LANA: A Language-Capable Navigator for Instruction Following and Generation

摘要

最近，视觉语言导航（VLN）——要求机器人代理遵循导航指令——已经取得了巨大的进步。然而，现有文献最强调将指令解释为行动，只提供“愚蠢”的寻路代理。在本文中，我们设计了 LANA，一种支持语言的导航代理，它不仅能够执行人类编写的导航命令，还能够向人类提供路线描述。这是通过仅使用一个模型同时学习指令跟随和生成来实现的。更具体地说，分别用于路由和语言编码的两个编码器由两个分别用于动作预测和指令生成的解码器构建和共享，以便利用跨任务知识并捕获特定于任务的特征。在整个预训练和微调过程中，指令跟踪和生成都被设置为优化目标。我们凭经验验证，与最新的先进任务特定解决方案相比，LANA 在指令跟踪和路由描述方面都获得了更好的性能，并且复杂度接近一半。此外，LANA具有语言生成能力，可以向人类解释其行为并协助人类寻路。这项工作预计将促进未来构建更值得信赖和社交智能导航机器人的努力。

引言

开发能够以自然语言与人类交互，同时在环境中感知并采取行动的智能体，是人工智能的基本目标之一。作为朝着这一目标迈出的一小步，视觉语言导航（VLN）[4]——赋予智能体执行自然语言导航命令——最近受到了极大的关注。在 VLN 领域，人们在语言基础方面做了很多工作——教导智能体如何将人类指令与感知相关的动作联系起来。然而，在相反的方面——语言生成——教智能体如何用语言生动地描述导航路线，却很少有工作[27,71,1,78,23]。更重要的是，现有的 VLN 文献分别训练专门针对每个任务的代理。结果，交付的代理要么是强大的寻路演员但从不说话，要么是健谈的路线指导员但从不走路。

本文强调了 VLN 中的一个基本挑战：我们能否学习一个既能够遵循导航指令又能够创建路线描述的代理？

我们提出 LANA，一种具有语言能力的导航代理，它充分意识到这种挑战（图 1）。通过同时学习指令基础和生成，LANA 将人与机器人和机器人与人的通信形式化，并在统一的框架中使用面向导航的自然语言进行传达。这非常重要，因为：i）它完成了人类和智能体之间必要的通信周期，并促进了 VLN 智能体在现实世界中的效用[59]。例如，当代理需要很长时间来执行导航命令时，在此期间持续的人类注意力是不可行且不可取的，代理应该报告其进度[73]。此外，智能体还需要在智能体探索的区域中引导人类 [82]，这与灾区的搜索和救援机器人 [72, 19]、公共场所的引导机器人 [78] 以及视障人士的导航设备相关[36]。 ii) 双向通信是紧密的人机协调不可或缺的一部分（即“我将继续这样……”）[7]，并增强人类对机器人的信任[6, 24]，从而提高导航机器人的接受度。 iii）发展语言生成技能可以制造出更易于解释的机器人，它们可以以人类可读的路线描述的形式解释其导航行为。

从技术上讲，LANA 是一个基于 Transformer 的多任务学习框架。该网络由两个单模态编码器组成，分别用于语言和路由编码，以及基于这两个编码器的两个多模态解码器，分别用于路由到指令和指令到路由翻译。在预训练和微调阶段，整个网络都是通过指令基础和生成任务进行端到端学习的。综上所述，LANA 提供了一个统一、强大的框架，探索模型设计和网络训练核心的特定任务和跨任务知识。因此，即使在没有明确监督的情况下，LANA 也可以更好地理解语言线索（例如单词、短语和句子）、视觉感知、长期行动及其关系，并最终使这两项任务受益。

我们在三个著名的 VLN 数据集（即 R2R [4]、R4R [38]、REVERIE [63]）上进行了广泛的实验，用于指令跟踪和生成，给出了一些有趣的点：首先，LANA 使用以下方法成功解决了这两个任务：只需一台代理，无需在不同型号之间切换。其次，凭借优雅的集成架构，LANA 的性能可与最近领先的特定任务替代方案相媲美，甚至更好。第三，与单独学习每个任务相比，在两个任务上联合训练 LANA 可以获得更好的性能，同时降低复杂性和模型大小，证实了 LANA 在跨任务相关性建模和参数效率方面的优势。第四，LANA 可以通过口头描述其导航路线来向人类解释其行为。 LANA 本质上可以被视为一个可解释的 VLN 机器人，配备了自适应训练的语言解释器。第五，主观分析表明我们的语言输出质量高于基线，但仍然落后于人类生成的话语。虽然仍有改进的空间，但我们的结果揭示了未来 VLN 研究的一个有希望的方向，在可解释的导航代理和机器人应用方面具有巨大的潜力。