ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理

  • 论文:Yiran Qin 1 , 2 ^{1,2} 1,2, Ao Sun 2 ^{2} 2, Yuze Hong 2 ^{2} 2, Benyou Wang 2 ^{2} 2, Ruimao Zhang 1 ^{1} 1
  • 单位: 1 ^{1} 1中山大学, 2 ^{2} 2香港中文大学深圳校区
  • 论文标题:NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants
  • 论文链接:https://arxiv.org/pdf/2502.13894
  • 项目主页:https://21styouth.github.io/NavigateDiff/

主要贡献

  • 提出了新的导航框架NavigateDiff,通过将高层次任务推理与低层次机器人控制分离,增强了导航的泛化能力。
  • 引入了视觉预测器,结合多模态语言模型和扩散模型,用于生成未来的场景图像,以辅助机器人决策。
  • 设计了混合融合策略网络,通过整合当前观察、未来预测和目标图像,优化机器人的导航动作。
  • 通过模拟和现实环境的广泛实验,验证了该方法在零样本导航中的有效性和鲁棒性,展示了其在不同环境中的适应性。

研究背景

研究问题

论文主要解决的问题是家庭机器人在导航不熟悉环境时面临的挑战,特别是如何在不进行大量地图绘制和探索的情况下,实现零样本导航。

研究难点

该问题的研究难点包括:

  • 现有强化学习方法依赖于大量的地图绘制和探索,导致时间消耗大且效率低下;
  • 现有数据集无法覆盖机器人可能遇到的所有环境和场景,缺乏广泛的逻辑知识。

相关工作

  • 基于视觉的导航
    • 讨论了经典的SLAM方法和基于学习的方法在机器人视觉导航中的应用。
    • 这些方法包括端到端学习技术、记忆增强的强化学习、单目相机设置下的导航改进,以及模块化的导航和语义映射任务。
  • 扩散模型用于图像生成
    • 介绍了文本到图像的扩散模型如何改进指令驱动的图像生成方法。
    • 这些模型在图像编辑和动态导航任务中的应用被讨论,强调了在导航任务中生成符合物理规则的未来图像的挑战。
  • 预训练基础模型用于具身任务
    • 探讨了大模型(LLMs)和扩散模型在导航等具身任务中的应用。
    • 这些模型通过其信息处理和生成能力,用于导航任务中的先验知识推理、路径规划和目标识别等。

研究方法

论文提出了NavigateDiff导航框架,旨在通过视觉预测器将高层次的任务推理与低层次的机器人控制分离,从而实现可泛化的导航。

形式化描述

  • 为了生成未来帧的训练数据,论文使用模拟器内置的“最短路径跟随”算法来获取每个任务的标准化路线,并生成相应的视频。
  • 在现实世界中,论文记录了人类远程控制导航机器人完成图像导航任务的视角视频。
  • 从收集的视频中,随机选择起始帧,并根据预定义的预测间隔生成对应的未来帧。同时记录相关的导航任务信息,形成训练元组 ( x t , x t + k , x h , y , x g ) (x_{t}, x_{t+k}, x_{h}, y, x_{g}) (xt,xt+k,xh,y,xg),其中:
    • x t x_{t} xt 是当前观察图像,
    • x t + k x_{t+k} xt+k 是需要预测的未来帧图像,
    • x h x_{h} xh 是历史帧,
    • y y y 是任务的文本指令,
    • x g x_{g} xg 是导航任务的最终目标图像。

预测器

  • 预测器结合了多模态大模型(MLLM)和未来帧预测模型,能够处理当前观察、目标图像和指令,并生成预测的未来图像。
  • 多模态大模型:输入当前观察 x t x_{t} xt、目标图像 x g x_{g} xg 和文本指令 y y y,生成特殊图像标记 ,然后传递给未来帧预测模型。
  • 未来帧预测模型:将特殊图像标记转换为语义相关的表示 f N f^{N} fN,并将其与从2D编码器提取的特征 f H f^{H} fH 融合。融合特征 f ∗ f^{*} f 用于条件化编辑型扩散模型生成未来图像:
    f ∗ = H ( Q ( h < image > ) , E v ( x h ) ) f^{*} = H(Q(h_{<\text{image}>}), E_{v}(x_{h})) f=H(Q(h<image>),Ev(xh))
    其中, Q Q Q 表示Q-Former, E v E_{v} Ev 是二维编码器, H H H 是融合块,包含两个自注意力块、一个交叉注意力块和一个MLP层。
  • 训练目标是通过最小化噪声与去噪结果之间的差异来优化预测器:
    L predictor = E E ( x t + k ) , E ( x t ) , ϵ ∼ N ( 0 , 1 ) , s [ ∥ ϵ − ϵ δ ( s , [ z s , E ( x t ) ] + f ∗ ) ∥ 2 2 ] \mathcal{L}_{\text{predictor}} = E_{\mathcal{E}(x_{t+k}), \mathcal{E}(x_{t}), \epsilon \sim \mathcal{N}(0,1), s} [\|\epsilon - \epsilon_{\delta}(s, [z_{s}, \mathcal{E}(x_{t})] + f^{*})\|_{2}^{2}] Lpredictor=EE(xt+k),E(xt),ϵN(0,1),s[ϵϵδ(s,[zs,E(xt)]+f)22]
    其中, ϵ \epsilon ϵ 表示未缩放的噪声, s s s 表示采样步长, z s z_{s} zs 是步骤 s s s 的潜在噪声, E ( x t ) \mathcal{E}(x_{t}) E(xt) 对应于当前观察的条件。

融合导航策略

  • 尽管预测器提供了视觉模态内的未来状态规划,但仍需要训练一个低层次控制器来选择适当的导航动作。
  • 图像融合策略:在训练阶段,将当前观察 x t x_{t} xt 与未来帧 x t + k x_{t+k} xt+k 和目标图像 x g x_{g} xg 拼接并通过可训练的二维编码器进行处理,以获得融合表示。使用强化学习(如PPO)训练导航策略:
    s t = π ( [ f p , f o , a t − 1 ] ∣ h t − 1 ) s_{t} = \pi([\,f_{p}, f_{o}, a_{t-1}\,] | h_{t-1}) st=π([fp,fo,at1]ht1)
    其中, s t s_{t} st 表示智能体当前状态的嵌入, h t − 1 h_{t-1} ht1 表示策略 π \pi π 中来自前一步的循环层的隐藏状态。
  • 测试阶段:使用训练好的预测器和融合导航策略在新环境中进行导航。生成未来帧后,执行融合导航策略以生成具体的动作序列。
  • 融合策略设计: 提出了混合融合方法,比较了其与早期融合和晚期融合的性能。混合融合方法在像素级建立语义关联,并在时间维度上分离局部和全局信息,从而实现更好的性能。

实验

预测器

  • 数据集:使用GIBSON数据集中的视频序列进行训练,设置预测间隔 k = 5 k=5 k=5
  • 训练过程:首先使用InstructPix2Pix预训练扩散模型的权重,然后在导航环境中进行端到端的优化。

  • 评估:使用三种图像级指标(Frechet Inception Distance, Peak Signal-to-Noise Ratio, Learned Perceptual Image Patch Similarity)评估预测器的生成能力。结果显示,预测器在所有指标上均优于基线模型。

模拟实验

  • 数据集:在Habitat模拟器中使用GIBSON数据集进行训练,采用72个训练场景和14个测试场景。
  • 设置:训练500M步,遵循FGPrompt的规则。报告了多个数据集上的结果,以便与现有工作直接比较。

  • 结果

    • 在GIBSON数据集上,NavigateDiff在Success Rate (SR) 和 Success weighted by Path Length (SPL) 上表现优异。
    • 在MP3D数据集上进行跨域评估,NavigateDiff在较小的训练数据集上表现出色,超越了全数据集上的现有方法。
  • 跨任务评估

    • 数据集:在GIBSON环境中训练的模型直接转移到MP3D环境中进行评估。
    • 结果:NavigateDiff在MP3D数据集上实现了68.0%的SR和41.1%的SPL,优于其他方法。

真实世界实验

  • 设置:在办公室、停车场和走廊三种室内环境中进行测试,每种环境代表不同的布局、照明和障碍物挑战。
  • 结果:在所有三种真实世界场景中,NavigateDiff在成功率和SPL上均超过基线模型,展示了其在不同环境中的鲁棒性。

融合策略设计

  • 评估:在不同的融合策略(早期融合、晚期融合和混合融合)上进行评估。
  • 结果:混合融合策略在GIBSON ImageNav任务中实现了91.0%的SR和64.8%的SPL,显著优于其他融合策略。

总结

  • 论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。
  • NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901000.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ESP32S3】GATT Server service table传送数据到调试助手

前言 在初步学习esp32蓝牙的过程中&#xff0c;借鉴了官方的GATT Server Service Table Example&#xff0c;可以在readme中看到&#xff0c;此demo是采用低功耗蓝牙的通用属性服务器来创建订阅服务和特性。如果你接触过MQTT&#xff0c;你会发现GATT Server这一特性和MQTT的订…

DeepSeek :中国 AI 如何用 “小米加步枪” 逆袭硅谷

2025 年春节前夕&#xff0c;人工智能领域诞生了一项重大成果 ——DeepSeek 发布DeepSeek - R1 大模型。这一模型迅速引发广泛关注&#xff0c;在苹果 AppStore 中国区免费榜登顶。 DeepSeek 采用开源策略&#xff0c;依据宽松的 MIT 许可证&#xff0c;公开了模型权重、训练方…

关税扰动下市场波动,如何寻找确定性的长期之锚?

近期的关税纷争&#xff0c;扰动全球资本市场下行。A股市场一度大幅下跌。但随着各大主力下场&#xff0c;有关部委发布有关有力措施&#xff0c;A股逐步稳住阵脚。 4月8日至4月10日&#xff0c;大盘指数连续3天上涨&#xff0c;上涨120多点&#xff0c;展现出较强的抵御关税壁…

NeuroImage:膝关节炎如何影响大脑?静态与动态功能网络变化全解析

膝骨关节炎&#xff08;KOA&#xff09;是导致老年人活动受限和残疾的主要原因之一。这种疾病不仅引起关节疼痛&#xff0c;还会显著影响患者的生活质量。然而&#xff0c;目前对于KOA患者大脑功能网络的异常变化及其与临床症状之间的关系尚不清楚。 2024年4月10日&#xff0c;…

【KWDB 创作者计划】KWDB 数据库全维度解析手册

——从原理到实践&#xff0c;构建下一代数据基础设施 ​第一章&#xff1a;KWDB 设计哲学与技术全景 1.1 为什么需要 KWDB&#xff1f; 在数据爆炸与业务场景碎片化的今天&#xff0c;传统数据库面临三大挑战&#xff1a;​扩展性瓶颈​&#xff08;单机性能天花板&#xff…

一个批量文件Dos2Unix程序(Microsoft Store,开源)

这个程序可以把整个目录的文本文件改成UNIX格式&#xff0c;源码是用C#写的。 目录 一、从Microsoft Store安装 二、从github获取源码 三、功能介绍 3.1 运行 3.2 浏览 3.3 转换 3.4 转换&#xff08;无列表&#xff09; 3.5 取消 3.6 帮助 四、源码解读 五、讨论和…

std::string` 类

以下是对 std::string 类中 修改操作 和 字符串操作 的示例代码&#xff0c;帮助你更好地理解这些函数的使用&#xff1a; 5. 修改操作 (1) operator 用于追加字符串、C 风格字符串或字符。 #include <iostream> #include <string>int main() {std::string str …

《Spring Boot+策略模式:企业级度假订单Excel导入系统的架构演进与技术实现》

前言 在数字化时代背景下&#xff0c;订单管理系统的高效性与灵活性成为企业竞争力的核心要素。本文档详细剖析了一个基于 策略模式 的度假订单导入系统&#xff0c;通过分层架构设计实现了多源异构数据的标准化处理。系统以 Spring Boot 为核心框架&#xff0c;结合 MyBatis …

SSRF漏洞公开报告分析

文章目录 1. SSRF | 获取元数据 | 账户接管2. AppStore | 版本上传表单 | Blind SSRF3. HOST SSRF一、为什么HOST修改不会影响正常访问二、案例 4. Turbonomic 的 终端节点 | SSRF 获取元密钥一、介绍二、漏洞分析 5. POST | Blind SSRF6. CVE-2024-40898利用 | SSRF 泄露 NTL…

告别 ifconfig:为什么现代 Linux 系统推荐使用 ip 命令

告别 ifconfig&#xff1a;为什么现代 Linux 系统推荐使用 ip 命令 ifconfig 指令已经被视为过时的工具&#xff0c;不再是查看和配置网络接口的推荐方式。 与 netstat 被 ss 替代类似。 本文简要介绍 ip addr 命令的使用 简介ip ifconfig 属于 net-tools 包&#xff0c;这个…

VLC快速制作rtsp流媒体服务器

1.安装vlc media player工具 2.打开后点击菜单 媒体->流 3.添加mp4视频&#xff0c;选择串流 4.选择 下一个 5.新目标选择 RTSP&#xff0c;点击添加按钮 6.端口和路径随便填写&#xff0c;如果推流失败就换个端口。一路操作下去 7.点击 流 按钮后&#xff0c;就可以看到下图…

基于 JavaWeb 的 SSM 在线视频教育系统设计和实现(源码+文档+部署讲解)

技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;免费功能设计、开题报告、任务书、中期检查PPT、系统功能实现、代码编写、论文编写和辅导、论文…

RK3568 基于Gstreamer的多媒体调试记录

文章目录 1、环境介绍2、概念理清3、提前准备4、GStreamer编译5、GStreamer基础介绍6、视频播放初体验7、视频硬编码7.1、h2647.2、h265 8、视频硬解码8.1、解码视频并播放解码视频并播放带音频 1、环境介绍 硬件&#xff1a;飞凌ok3568-c开发板 软件&#xff1a;原厂rk356x …

Mac学习使用全借鉴模式

Reference https://zhuanlan.zhihu.com/p/923417581.快捷键 macOS 的快捷键组合很多&#xff0c;相应的修饰键就多达 6 个&#xff08;Windows 系统级就 4 个&#xff09;&#xff1a; Command ⌘ Shift ⇧ Option ⌥ Control ⌃ Caps Lock ⇪ Fn 全屏/退出全屏 command con…

SpringBoot多线程,保证各个子线程和主线程事物一致性

SpringBoot多线程&#xff0c;保证各个子线程和主线程事物一致性 1、第一种写法1.1、TransactionalUntil工具类1.2、service业务类 2、第二种写法2.1、service业务类 1、第一种写法 1.1、TransactionalUntil工具类 import org.springframework.jdbc.datasource.DataSourceTra…

高并发的业务场景下,如何防止数据库事务死锁

一、 一致的锁定顺序 定义: 死锁的常见原因之一是不同的事务以不同的顺序获取锁。当多个事务获取了不同资源的锁,并且这些资源之间发生了互相依赖,就会形成死锁。 解决方法: 确保所有的事务在获取多个锁时,按照相同的顺序请求锁。例如,如果事务A需要锁定表A和表B,事务…

【从0到1学MybatisPlus】MybatisPlus入门

Mybatis-Plus 使用场景 大家在日常开发中应该能发现&#xff0c;单表的CRUD功能代码重复度很高&#xff0c;也没有什么难度。而这部分代码量往往比较大&#xff0c;开发起来比较费时。 因此&#xff0c;目前企业中都会使用一些组件来简化或省略单表的CRUD开发工作。目前在国…

力扣HOT100之链表: 148. 排序链表

这道题直接用蠢办法来做的&#xff0c;直接先遍历一遍链表&#xff0c;用一个哈希表统计每个值出现的次数&#xff0c;由于std::map<int, int>会根据键进行升序排序&#xff0c;因此我们将节点的值作为键&#xff0c;其在整个链表中的出现次数作为值&#xff0c;当所有元…

Transformer多卡训练初始化分布式环境:(backend=‘nccl‘)

Transformer多卡训练初始化分布式环境:(backend=‘nccl’) dist.init_process_group(backend=nccl)在多卡环境下初始化分布式训练环境,并为每个进程分配对应的 GPU 设备。下面为你逐行解释代码的含义: 1. 初始化分布式进程组 try:dist.init_process_group(backend=nccl) e…

使用Mybatis时在XML中SQL高亮显示的方法

如图所示&#xff0c;上方的SQL代码很像是一个字符串&#xff0c;那么如何把上方的SQL改成和下方一样的SQL,使得IDEA可以识别SQL方言呢&#xff1f; 1.选中SQL中的一部分代码&#xff0c;此时左侧会出现一个黄色的灯泡图案&#xff0c;点击2.选择这个注入语言或者引用