导航指令生成新篇章:将语义地图转化为机器人眼中的“道路”


5bb8020454f9d910ebb41ee947153b0b.jpeg


引言:导航指令生成的挑战与机遇

在人工智能领域,视觉与语言导航(Vision and Language Navigation, VLN)任务是一个充满挑战的研究领域,它要求智能体根据自然语言指令在物理环境中进行导航。然而,VLN任务的数据标注既耗时又成本高昂,这严重限制了模型训练数据的可用性,进而限制了模型的发展。为了解决这一问题,导航指令生成(Navigation Instruction Generation, VL-GEN)任务应运而生,它与VLN任务相反,旨在为虚拟(或物理)环境中的路径生成自然语言指令。这不仅有助于与用户的交互和可解释性,而且先前的工作也证明了VL-GEN在提高VLN系统性能方面的有效性,例如Speaker-Follower模型和EnvDrop。

尽管如此,现有的VL-GEN方法仍存在两个主要缺陷。首先,使用全景图像作为视觉输入在表示上是资源密集型的,需要处理与路径上不同点相对应的多个图像输入。其次,全景图像包含许多与任务无关的细节,模型必须同时学习解释环境并生成指令。为了解决这些问题,我们提出将VL-GEN任务分为两步:环境解释和空间推理。本文聚焦于第二步,探索使用自顶向下的语义地图进行VL-GEN的可行性。

我们的研究问题是,是否可以使用自顶向下的语义地图(单个RGB图像)作为主要信息来源,并探索哪些其他数据源可以进一步提高性能。为了回答这个问题,我们将VL-GEN任务形式化为图像字幕任务,输入为带有路径的语义地图。我们从Habitat模拟器中提取自顶向下的地图,并基于Room-to-Room数据集和VLN-CE进行实验。我们的主要贡献和发现包括以下几点:

  • 我们通过自动和人类评估实验性地证明,包含额外信息(即区域、动作和提示)会比仅使用语义地图生成更准确、更健壮的导航指令。
  • 我们还对生成指令的质量进行了细粒度的错误分析。

  • 54b5cc3840792cc2c1c8919e2d4d9396.jpeg

论文标题、机构、论文链接和项目地址

  • 论文标题:Semantic Map-based Generation of Navigation Instructions
  • 机构:University of Cambridge, Toshiba Europe Limited
  • 论文链接:https://arxiv.org/pdf/2403.19603.pdf
  • 项目地址:代码、模型训练和推理以及评估的代码已在GitHub上发布:https://github.com/chengzu-li/VLGen。此外,还发布了从Habitat环境中提取的自顶向下的语义地图,扩展了现有的R2R数据集,可以根据https://github.com/chengzu-li/VLGen上的指南进行请求。

任务定义与数据介绍

语义地图的定义与导航路径

在Vision and Language Navigation (VLN)任务中,代理根据自然语言指令在物理环境中导航(Wu等,2021)。VLN任务的数据标注耗时且成本高,而解决该任务的模型开发受到训练数据的严重限制(Gu等,2022)。导航指令生成(VL-GEN)是VLN任务的反向过程,它为虚拟(或物理)环境中的路径生成自然语言指令,有助于与用户的交互和可解释性。先前的研究还表明VL-GEN在改进VLN系统的性能方面是有效的,如Speaker-Follower模型(Fried等,2018)和Env Drop(Tan等,2019)。本文探讨了VL-GEN任务,将其构建为图像字幕任务。

从图像字幕任务到导航指令生成

VL-GEN要求模型在物理环境的背景下生成语言指令,将对象引用和动作指令与给定空间联系起来。先前的研究使用逼真的RGB全景图像作为视觉输入;他们将VL-GEN构建为从一系列逼真的RGB图像生成文本的端到端任务(Fried等,2018;Tan等,2019;Wang等,2022d)。然而,Zhao等(2021)报告称,使用端到端模型生成的指令整体质量仅略优于基于模板的生成,将对象引用应用于全景图像。

现有方法存在两个缺点。从表示的角度来看,使用全景图像需要处理对应于路径上不同点的多个图像输入,这是资源密集型的。其次,全景图像包含许多与任务无关的细节。模型必须学会从RGB全景图像中解释环境,如对象识别,并同时生成指令。由于人类自然而然地从顶部地图(如Google地图)理解导航指令(Paz-Argaman等,2024),我们建议将VL-GEN任务分为两个步骤:1)环境解释,由物理机器人系统中的语义SLAM解决(Chaplot等,2020);2)空间推理。本文侧重于第二步,并探讨使用顶部语义地图进行VL-GEN的可行性。

方法概述:多模态文本生成模型

BLIP模型的架构与输入处理

受到多模态预训练模型成功的启发,我们使用BLIP2构建了一个多模态文本生成模型。如图2所示,该模型的架构包括处理不同输入的模块。

e8093feb30880fff6d05db2d2ec6646b.jpeg

模型增强:对比损失与提示增强

  • 多模态对齐与对比损失:对比学习是自监督学习中用于视觉表示学习的有效方法(Radford等,2021;Li等,2022),在BLIP中也用于多模态预训练。我们研究了将对比训练引入导航指令生成任务作为辅助损失的有效性。我们定义正例P+(Cgt, Igt)为组合输入嵌入和指令嵌入的对,负例P-(Cgt, Irnd)由输入嵌入和随机抽样指令嵌入的对组成。我们根据CLIP(Radford等,2021)的方法,将多模态输入矩阵Einput和文本指令矩阵Etext相乘,得到输入和标签之间的预测兼容矩阵Cpred,然后在Cpred上使用地面实况对应Cgt计算交叉熵损失。
  • 提示增强与基础:提示LLMs在先前的研究中已经证明在各个领域是有效的(Li和Liang,2021;Liu等,2021;Tang等,2022;Keicher等,2022)。我们从模板生成提示,描述附近的对象和区域,例如从客厅区域靠近沙发靠垫的深黄色点开始。我们使用提示调整模型,并在推断过程中将提示模板馈送到解码器。我们认为提示可以在两个方面有助于生成任务。首先,它可以帮助视觉语言接地,因为提示模板描述了附近的地标和区域。其次,在推断时,生成的指令是根据提示模板自回归地生成的,从而在VL-GEN任务中实现更可控的生成。

实验设置与评估方法

1. 实验设计与系统变体

实验的目的是探索使用顶视图语义地图(top-down semantic map)进行导航指令生成(VL-GEN)的可行性。我们采用了Habitat模拟器中提取的语义地图,这些地图基于Room-to-Room数据集,并且每个地图对象类型都用唯一的颜色表示。实验中,我们考虑了不同的系统变体,包括只使用语义地图(TD)、语义地图加上区域名称和动作(TD+Reg+Act)、以及语义地图加上区域名称、动作和全景图像(TD+Reg+Act+Pano)。此外,我们还探索了对比损失(contrastive loss)和提示(prompting)的影响。

2. 人类参与者与评估流程

我们招募了5名未参与项目的评估员进行人类评估。评估员通过在线评估界面,根据语义地图、路径以及全景图像,对生成的导航指令质量打分,分数范围为0(最差)至10(最佳)。评估材料包括15条在未见环境中随机抽取的导航路径。为了确保评估的准确性,每位评估员的工作量被设计为不超过30分钟。

3. 自动评估指标与显著性测试

自动评估采用了SPICE(Semantic Propositional Image Caption Evaluation)指标,该指标专注于评估图像字幕的语义内容。我们使用双侧置换测试来比较不同系统的性能差异。如果p值大于0.05,则认为两个系统的性能没有显著差异。

实验结果与分析

1. 人类评估与自动评估结果

人类评估结果显示,仅使用语义地图的系统变体得到的平均分数最低(3.42分)。当加入区域、动作和全景图像时,得分最高(4.36分),显著优于基线系统(p=0.05)。然而,加入全景图像(Pano)的系统变体(4.36分)与仅使用TD+Reg+Act(4.20分)的系统变体之间没有显著差异。自动评估的SPICE指标与人类评估结果的Kendall τ相关性为0.6,表明两种评估方法具有一定的一致性。

ad1fedee7d56e548cadb3b0da12809a2.jpeg

2. 错误分析与系统性能对比

我们对5种系统变体生成的指令进行了错误分析,关注以下四个方面:幻觉、冗余、语言质量问题和遗漏。结果显示,不使用提示或全景图像的系统在所有情况下都存在错误,其中幻觉是最常见的错误类型。当使用区域和动作作为输入时,动作描述中的幻觉数量减少,但在区域描述中仍然较高。当引入提示进行训练时,生成的指令中动作和对象的幻觉减少,但引入对比损失后,预测中出现了冗余和语言问题。语言质量问题主要包括对象和区域的拼写错误,以及在引入提示和对比损失进行训练时的标点错误。这可能是因为对比损失影响了交叉熵损失,从而干扰了语言生成任务。

6714228c6ff9a27c3ce8985eccb2b22f.jpeg

讨论与未来方向

1. 语义地图的优势与局限性

语义地图作为一种信息的抽象表示,对于导航指令生成任务(VL-GEN)具有显著的优势。它以单一的RGB图像形式出现,为物理环境提供了自上而下的视角,其中包含了路径和一系列用不同颜色表示的对象。这种表示方式对于当前系统来说是有用的,因为它简化了从环境中提取导航相关信息的过程。然而,语义地图的抽象性也带来了局限性。例如,它无法提供关于房间名称(如浴室、卧室)的信息,这些通常在室内导航指令中自然使用。此外,当前的单层语义地图表示也无法编码对象的属性,如颜色、材质或形状,而这些属性在指令中被提及的频率超过了三分之一。

2. 多模态输入与指令生成的关系

多模态输入对于提高VL-GEN任务的性能至关重要。实验结果表明,包含额外信息(如区域、动作和提示)的系统比仅使用语义地图的系统生成的导航指令更准确、更稳健。此外,研究还发现,将区域名称和动作作为每个导航点的文本输入提供,可以减少在动作描述中出现的幻觉错误。然而,引入全景图像作为输入并没有显著提高性能,这表明当前系统可能不需要全景图像来执行VL-GEN任务。尽管如此,所有模型的绝对性能仍然较低,这表明还有很大的改进空间。

结论:向更智能的导航指令生成迈进

本研究的长期目标是构建具有空间感知和推理能力的移动机器人,这些机器人可以遵循自然语言指令并以自然语言表达其意图。我们提出使用语义地图作为空间推理的中间表示,因为它是一种人类可解释的、轻量级的方法,能够在单一的抽象图像中编码导航所需的信息。

通过为R2R语料库创建带有自上而下语义地图的数据集,并将指令生成任务框架为图像字幕任务,我们为从语义地图输入生成指令设定了基准。实验结果表明,使用自上而下的语义地图与使用全景图像序列作为输入的端到端方法表现相当。

当前对语义地图表示的方法缺少生成或解释指令所需的一些信息。未来的工作计划包括引入多层语义地图,在编码对象的同时,另一层将编码关于区域的信息。此外,我们还将在语义地图中编码对象的属性,以解决当前编码不包含的问题。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/815505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《QT实用小工具·十九》回车跳转到不同的编辑框

1、概述 源码放在文章末尾 该项目实现通过回车键让光标从一个编辑框跳转到另一个编辑框&#xff0c;下面是demo演示&#xff1a; 项目部分代码如下&#xff1a; #ifndef WIDGET_H #define WIDGET_H#include <QWidget>namespace Ui { class Widget; }class Widget : p…

使用SquareLine Studio创建LVGL项目到IMX6uLL平台

文章目录 前言一、SquareLine Studio是什么&#xff1f;二、下载安装三、工程配置四、交叉编译 前言 遇到的问题&#xff1a;#error LV_COLOR_DEPTH should be 16bit to match SquareLine Studios settings&#xff0c;解决方法见# 四、交叉编译 一、SquareLine Studio是什么…

appium driver install uiautomator2 安装失败

报错 Installing ‘uiautomator2’ using NPM install spec ‘appium-uiautomator2-driver’ Error: Encountered an error when installing package: npm command ‘install --save-dev --no-progress --no-audit --omitpeer --save-exact --global-style --no-package-lock…

汉语拼音中的轻声规则简直让人崩溃

找到方便和合适的与人教社教材中的拼音接近的字体本来就不容易&#xff0c;而准确高效地把短短一篇文字中的轻声全都标对&#xff0c;也是一件让人头大的事&#xff01;

全国贫困县DID数据(2008-2022年)

数据来源&#xff1a;国W院扶贫开发领导小组办公室 时间跨度&#xff1a;2008-2022年 数据范围&#xff1a;各县域 数据指标 年份 县域名称 所属地市 所属省份 县域代码 是否贫困县(是为1&#xff0c;否为0) 参考文献&#xff1a; [1]马雯嘉,吴茂祯.从全面脱贫到乡村振兴…

【Qt 学习笔记】Qt控件概述

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt控件概述 文章编号&#xff1a;Qt 学习笔记 / 14 文章目录 Qt控件概…

什么是面向对象思想?

面向对象不是一种技术&#xff0c;而是一种思想。它指导我们以什么形式组织代码&#xff0c;以什么思路解决问题。 面向对象编程&#xff0c;是一种通过对象方式&#xff0c;把现实世界映射到计算机世界的编程方法。 面向对象解决问题的思路&#xff1a;把构成问题的事物分解成…

【数据结构与算法】搜索算法(深度优先搜索 DFS和广度优先搜索 BFS)以及典型算法例题

目录 搜索算法&#xff08;深度优先搜索DFS和广度优先搜索BFS&#xff09;以及典型算法例题深度优先搜索 &#xff08;Depth First Search 简称 DFS&#xff09;DFS 的设计步骤深度优先搜索&#xff08;DFS&#xff09;算法例题例题一&#xff1a;N皇后问题例题二&#xff1a;路…

国内开通gpt会员方法

ChatGPT镜像 今天在知乎看到一个问题&#xff1a;“平民不参与内测的话没有账号还有机会使用ChatGPT吗&#xff1f;” 从去年GPT大火到现在&#xff0c;关于GPT的消息铺天盖地&#xff0c;真要有心想要去用&#xff0c;途径很多&#xff0c;别的不说&#xff0c;国内GPT的镜像…

配置DHCP服务器实现为动态客户端和静态客户端分配不同网络参数

相关学习推荐&#xff1a;什么是DHCP?为什么要使用DHCP&#xff1f; 华为HCIP课程【视频教程】&#xff1a;华为HCIP必考题&#xff1a;DHCP协议原理与配置 组网需求 如图1所示&#xff0c;Router作为企业出口网关&#xff0c;PC和IP Phone为某办公区办公设备。为了方便统一管…

Docker部署WebRTC-Streamer

文章目录 WebRTC-Streamer概述Docker部署WebRTC-StreamerVue使用WebRTC-Streamer一些问题 WebRTC-Streamer概述 WebRTC-Streamer是一个基于WebRTC技术的流媒体传输工具&#xff0c;它可以通过Web浏览器实现实时音视频流的传输和播放。它提供了一种简单而强大的方式&#xff0c…

Appium的使用:混合APP切换上下文

网上别的文章说要把移动端的webview设置成调试模式,才能看到下图信息。 但我这里是直接在Android Studio新建了一个空白活动,然后放的webview控件,写的webview代码,直接部署到模拟器上,在确定adb可以连接到模拟器后,在桌面浏览器输入chrome://inspect/#devices后就可以看…

分布式存储系统Megastore

文章目录 说明设计目标及方案选择数据的分区和复制 数据模型照片共享服务数据模型实例Megastore索引Bigtable中存储情况 事务及并发控制Megastore提供的三种读Megastore的写操作完整的事务周期 Megastore基本架构快速读与快速写 核心技术之复制复制的日志数据读取数据写入协调者…

小米温度计接入HA后,手机米家app里温度计就看不到温度数值了

环境&#xff1a; 小米温度计 HA OS Core 2023.12.1 Supervisor 2024.04.0 Operating System 11.1 问题描述&#xff1a; 小米温度计接入HA后&#xff0c;手机米家app里和HA里面温度计就看不到温度数值了 解决方案&#xff1a; 1.前往米家APP&#xff0c;解绑温度计和本地…

全局代理导致JetBrains IDE CPU占用高,jdk.internal.net.http.common

GoLand版本&#xff1a;2022.3.4 解决办法&#xff1a; 使用SOCKS代理代替HTTP代理 禁用Space和Code With Me插件 禁用 TLS V1.3&#xff0c;参考&#xff1a;https://stackoverflow.com/questions/54485755/java-11-httpclient-leads-to-endless-ssl-loop 参考 https://…

vue快速入门(二十三)侦听器的简单写法与完整写法

注释很详细&#xff0c;直接上代码 上一篇 新增内容 侦听器简单写法侦听对象或属性侦听器完整写法侦听对象&#xff08;可选深度侦听&#xff09; 源码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name…

五子棋:不会下五子棋也没关系,会用Java写五子棋就行

关注公号“微澜网络”获取完整源代码&#xff01; 效果展示&#xff1a; 目录 效果展示&#xff1a; 导语&#xff1a; 游戏介绍&#xff1a; 程序设计&#xff1a; 1.游戏规则和功能&#xff1a; 2.用户界面设计&#xff1a; 3.程序架构设计&#xff1a; 4.可扩展性和灵…

64B/66B编码

一、前言 8B/10B编码主要作用的优化直流平衡&#xff0c;从8bit中插2个bit进去&#xff0c;这样的话最终效果能够使长0或者长1的位数不超过5位&#xff0c;达到很好的效果。但是由于8B/10B编码的带宽利用率非常低&#xff0c;10G的带宽只有8G在传输有效数据&#xff0c;2G的带…

【高录用-快速见刊】2024年数字化经济与金融创新国际学术会议(ICDEFI 2024)

会议简介 2024年数字经济与金融创新国际学术会议即将召开。此次会议旨在汇集全球数字经济与金融创新领域的专家学者&#xff0c;共同探讨数字经济的发展趋势以及金融创新的路径。与会者将分享前沿研究成果&#xff0c;讨论数字技术在金融领域的应用与创新&#xff0c;并推动数…

一篇文章了解php7和php8新特性

PHP7新特性 ?? 运算符 php7以前用三目判断变量是否存在或是否为空 $a isset($_GET[a]) ? $_GET[a] : 1;php7新增null 合并运算符??快捷判断 $a $_GET[a] ?? 1;函数返回值类型声明 用:返回值类型的形式定义函数的返回值类型 <?phpdeclare(strict_types1); fun…