无需训练的具身导航探索!TRAVEL:零样本视觉语言导航中的检索与对齐

  • 作者: Navid Rajabi, Jana Kosecka

  • 单位:乔治梅森大学计算机科学系

  • 论文标题:TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation

  • 论文链接:https://arxiv.org/pdf/2502.07306

主要贡献

  • 提出了基于模块化方法的Vision-Language Navigation(VLN)任务解决方案,该方法在零样本设置下利用最先进的大型语言模型(LLMs)和视觉语言模型(VLMs),将问题分解为四个子模块,通过提取导航指令中的地标和访问顺序,检索最后地标的候选位置,生成路径假设,并计算与指令的对齐分数,最终评估路径保真度。

  • 在复杂的R2RHabitat指令数据集上,与使用联合语义地图的方法(如VLMaps)相比,展示了优越的性能,并详细量化了视觉定位对导航性能的影响。

研究背景

  • VLN任务:要求控制智能体(在模拟环境或现实世界中)根据自然语言指令在环境中导航。例如,让智能体按照“在走廊左转,去厨房,在水槽边停下”这样的指令行动。该任务需要解析语言输入,将短语与视觉概念(场景、地标、动作等)以及时间线索(如“在……之前”)进行对应。

  • 现有方法
    • 端到端方法:采用序列到序列模型,输入语言指令和视觉信息,输出低级导航动作序列。训练时使用强化学习和模仿学习的混合方法,但在新环境和复杂指令下性能受限,且需要大量高质量训练样本和计算资源。

    • 基于LLM和VLM的模块化方法:将LLMs、VLMs与传统地图表示和机器人导航堆栈相结合。例如,CLIPNav利用CLIP VLMs和GPT-3进行指令分解和方向判断,但依赖于环境的可导航图,且CLIP在关联地标与图像方面能力有限;VLMaps构建联合视觉语言语义占用图,但指令简单,且需要额外数据集进行LLMs微调。

研究方法

  • 整体框架:该方法包含八个主要步骤,基于R2R-Habitat数据集的复杂指令,利用预训练的LLMs和VLMs进行零样本导航。

  • 步骤详解
    • 步骤1:使用数据集的训练集构建环境的拓扑地图,将每个节点表示为360°RGB全景图,边的权重为1,确保训练集中每个真实路径节点在拓扑地图中有对应节点。

    • 步骤2:使用预训练的LLM(LLama-3.1-8B-Instruct)从自然语言指令中提取地标序列,并识别最后地标短语,搜索最后地标的候选目标节点。

    • 步骤3:利用最先进的VLM(SigLIP)进行目标/最后地标识别,通过计算全景图与地标文本描述的余弦相似度来完成。与VLMaps方法相比,在127个地标上的平均Precision@10从34.4%提升到70.0%,优势在于使用SigLIP代替CLIP进行地标识别。

    • 步骤4:根据前k个目标位置,从起始位置到目标节点计算BFS最短路径,得到k条路径假设。

    • 步骤5(方法一):将路径与指令对齐问题视为序列到序列对齐问题,构建全景图序列与地标短语序列的矩阵A,使用VLM(GPT-4o)获取地标在全景图中的二值定位分数,然后通过动态规划算法(Pano2Land)计算路径的归一化对齐分数,类似于最长公共子序列问题。

    • 步骤6(方法二):直接提示GPT-4o根据全景图序列、原始自然语言指令和提取的地标短语序列,对路径进行1到5的评分,跳过了单独地标定位和Pano2Land算法计算对齐分数的步骤,但性能略低于方法一,且结果可解释性较差。

    • 步骤7:对于每种方法的输出,计算真实路径与最佳对齐路径之间的归一化动态时间规整(nDTW)度量,以评估路径保真度,nDTW比成功率(SR)更符合任务目标,因为SR仅考虑智能体最后位置与真实目标的距离,而不考虑智能体按顺序访问的中间地标。

实验

  • 实验设置:在R2R-Habitat数据集的五个环境中进行实验,使用上述两种方法对路径进行排名和选择。

  • 实验结果
    • 路径假设生成准确率:平均准确率为65.72%,表明在大多数情况下,真实路径或高度相似的路径能够被选为路径假设之一。

    • nDTW分数:方法一的平均nDTW分数为88.92%,方法二为88.34%,且方法一的成功率(nDTW分数高于87%)更高,说明方法一在路径与指令对齐方面表现更好。

    • 标准差:两种方法的标准差均较小,表明结果具有一定的稳定性。

讨论与未来工作

  • 局限性
    • 该方法仅适用于之前探索过的环境,并且需要拓扑地图。

    • 当自然语言指令不是基于地标,而是包含大量空间和时间短语、动作短语以及绝对距离时,该方法可能不适用。

    • 由于管道是模块化的,不是端到端训练的,因此早期阶段(如LLM地标提取和VLM检索)的缺点会传播到后续阶段的Pano2Land对齐或GPT-4o排名中,路径假设的质量最终决定了GPT-4o或其他VLM计算的排名上限。

  • 未来工作:可以通过对现有的VLMs在导航任务上进行微调,以及将智能体的探索和导航部分无缝整合,使其能够在以前未见过的环境中部署,从而实现性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77431.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3+Vite+TypeScript+Element Plus开发-22.客制Table组件

系列文档目录 Vue3ViteTypeScript安装 Element Plus安装与配置 主页设计与router配置 静态菜单设计 Pinia引入 Header响应式菜单缩展 Mockjs引用与Axios封装 登录设计 登录成功跳转主页 多用户动态加载菜单 Pinia持久化 动态路由 -动态增加路由 动态路由-动态删除…

Java读取JSON文件并将其中元素转为JSON对象输出

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息 文章目录 Java读取JSON文件并将其中元素转为JSON对象输…

Spring Boot自动配置原理深度解析:从条件注解到spring.factories

大家好!今天我们来深入探讨Spring Boot最神奇的特性之一——自动配置(Auto-configuration)。这个功能让Spring Boot如此受欢迎,因为它大大简化了我们的开发工作。让我们一起来揭开它的神秘面纱吧!👀 🌟 什么是自动配置…

【ELF2学习板】利用OpenMP采用多核并行技术提升FFTW的性能

目录 引言 OpenMP简介 编译OpenMP支持的FFTW库 部署与测试 测试程序 程序部署 测试结果 结语 引言 在前面已经介绍了在ELF2开发板上运行FFTW计算FFT。今天尝试利用RK3588的多核运算能力来加速FFT运算。FFTW利用多核能力可以考虑使用多线程或者OpenMP。今天介绍一下Ope…

2000-2017年各省城市天然气供气总量数据

2000-2017年各省城市天然气供气总量数据 1、时间:2000-2017年 2、来源:国家统计局、能源年鉴 3、指标:行政区划代码、城市、年份、城市天然气供气总量 4、范围:31省 5、指标说明:城市天然气供气总量是指在一定时间…

Hadoop的三大结构及其作用?

Hadoop是一个分布式存储和计算框架,其三大核心组件是HDFS(Hadoop Distributed File System)、YARN(Yet Another Resource Negotiator)和MapReduce。它们各自有着重要的作用,共同构成了Hadoop生态系统的基础…

【AI论文】ColorBench:视觉语言模型能否看到并理解多彩的世界?一个全面的色彩感知、推理和鲁棒性基准测试

摘要:颜色在人类感知中起着重要作用,通常在视觉推理中提供关键线索。 然而,尚不清楚视觉语言模型(VLMs)是否以及如何像人类一样感知、理解和利用颜色。 本文介绍了ColorBench,这是一个精心设计的创新基准&a…

Python番外——常用的包功能讲解和分类组合

目录 1. Web开发框架与工具 2. 数据处理与分析 3. 网络请求与爬虫 4. 异步编程 5. 数据库操作 6. 图像与多媒体处理 7. 语言模型与NLP 8. 安全与加密 9. 配置与工具 10. 其他工具库 11.典型组合场景 此章节主要是记录我所使用的包,以及模块。方便供自己方…

华硕原厂系统枪神9/9p超竟版-WIN11原装开箱出厂系统安装

华硕原厂系统枪神9/9p超竟版-WIN11-24H2-专业工作站版本安装可带F12-ASUSRecovery恢复功能 适用机型: G635LX、G635LW、G835LX、G835LW、G615LW、G615LP、G615LM、G615LH G815LW、G815LP、G815LM、G815LH、G635LR、G835LR、G615LR、G815LR 远程恢复安装&#xff…

拉取windows的docker镜像转到服务器上构建服务镜像

在windows上将拉取ubuntu的docker镜像转到服务器上 1.要求 1.1 要求windows和服务器安装好docker 2.拉取ubuntu镜像到windows(dos操作,可能需要连接到外网) 一旦你选择了一个合适的基础镜像,你可以使用docker pull命令从Docke…

T1结构像+RS-fMRI影像处理过程记录(数据下载+Matlab工具箱+数据处理)

最近需要仿真研究T1结构像RS-fMRI影像融合处理输出目标坐标的路线可行性。就此机会记录下来。 为了完成验证目标处理,首先需要有数据,然后需要准备对应的处理平台和工具箱,进行一系列。那么开始记录~ 前言: 为了基于种子点的功能连…

Nginx-前言

nginx是什么? 轻量级,开源免费的web服务器软件,服务器安装nginx,服务器则成为web服务器 nginx的稳定版版本号: 偶数版本 nginx的相关目录: /etc/nginx/nginx.conf nginx的主配置文件 /etc/nginx/ngi…

缓慢前行,静待花开

最期待的不是成品出炉,而是揉面时感受到温度、发酵时闻到淡淡香气 1 “慢就是稳,稳就是快”。 这句来自特种兵的训练语,被许多自媒体人奉为准则。 在看似风云突变的环境下,速度被隐藏在稳定中,结果被酝酿在过程里。…

洛谷的几道题(2)

P1008 [NOIP 1998 普及组] 三连击 # P1008 [NOIP 1998 普及组] 三连击 ## 题目背景 本题为提交答案题,您可以写程序或手算在本机上算出答案后,直接提交答案文本,也可提交答案生成程序。 ## 题目描述 将 $1, 2, \ldots , 9$ 共 $9$ 个数分…

Day10【基于encoder- decoder架构实现新闻文本摘要的提取】

实现新闻文本摘要的提取 1. 概述与背景2.参数配置3.数据准备4.数据加载5.主程序6.预测评估7.生成效果8.总结 1. 概述与背景 新闻摘要生成是自然语言处理(NLP)中的一个重要任务,其目标是自动从长篇的新闻文章中提取出简洁、准确的摘要。近年来…

【大疆dji】ESDK开发环境搭建(软件准备篇)

接上一篇【大疆dji】ESDK开发环境搭建(硬件准备篇) 1. 编译环境 ESDK 提供 x86_64/aarch64 基于 Linux 平台 Ubuntu 发行版操作系统构建的静态库,运行 demo 先正确安装所需的依赖包。arm32位就不支持了。建议使用编译安装的方式,…

Java数据结构——ArrayList

Java中ArrayList 一 ArrayList的简介二 ArrayList的构造方法三 ArrayList常用方法1.add()方法2.remove()方法3.get()和set()方法4.index()方法5.subList截取方法 四 ArrayList的遍历for循环遍历增强for循环(for each)迭代器遍历 ArrayList问题及其思考 前言 ArrayList是一种 顺…

【信息获取能力】

第一层:表象观察 现象:AI系统(如GPT-4)可以瞬间调用并整合全球互联网上的公开信息,而人类即使穷尽一生也无法完成同等规模的知识储备。 底层逻辑: 存储与检索效率:人类大脑的记忆容量有限&…

03、GPIO外设(三):标准库代码示例

标准库代码示例 1、点亮LED2、LED闪烁3、LED流水灯4、按键控制LED5、蜂鸣器 本章源代码链接: 链接: link 1、点亮LED 实验要求:点亮LED ①LED.c文件的代码如下: #include "LED.h"/*** LED引脚初始化*//* 定义数组,想要添加引脚…

卷积神经网络(CNN)与VGG16在图像识别中的实验设计与思路

卷积神经网络(CNN)与VGG16在图像识别中的实验设计与思路 以下从基础原理、VGG16架构解析、实验设计步骤三个层面展开说明,结合代码示例与关键参数设置,帮助理解其应用逻辑。 一、CNN与VGG16的核心差异 基础CNN结构 通常包含33~55个…