MIR-2025 | 多模态知识助力机器人导航:从复杂环境到高效路径规划

  • 作者:Hui Yuan, Yan Huang, Zetao Du, Naigong Yu, Ziqi Liu, Dongbo Zhang, Kun Zhang

  • 单位:北京工业大学信息科学与技术学院,北京工业大学计算智能与智能系统北京市重点实验室,中科院自动化研究所模式识别国家重点实验室与多智能体系统实验室,湘潭大学自动化与电子信息学院,上海科技大学信息科学与技术学院

  • 论文标题:Multimodal Pretrained Knowledge for Real-world Object Navigation

  • 论文链接:https://www.mi-research.net/en/article/pdf/preview/10.1007/s11633-024-1537-x.pdf

  • 出版信息:Machine Intelligence Research (2025)

主要贡献

  • 提出了基于多模态预训练知识的现实世界物体导航方法,通过在关键点进行视觉-语言跨模态对齐,有效地监督机器人导航。

  • 构建了室内物体数据库,并开发了多模态对齐概念知识(MACK(indoor)),以支持各种场景下的物体检索。

  • 提出了目标位置预测策略,能够准确预测机器人接近目标物体的最佳位置和方向。

  • 在物理机器人上实现了该方法,并通过实验验证了其在现实世界环境中的优越性,成功率达到66.7%,优于现有方法。

研究背景

  • 视觉-语言导航(VLN)的挑战:大多数VLN研究集中在模拟环境,但在现实世界中,由于视觉和语言之间的错位,导致路径偏差,方法难以泛化。

  • 现有方法的局限性:现有方法在动态或复杂环境中泛化能力有限,尤其是在关键位置的语义概念理解、大规模空间导航和复杂决策过程中。

  • 多模态预训练知识的潜力:多模态预训练技术在未配对图像-文本匹配中表现出色,但尚未应用于现实世界的VLN任务。

研究方法

多模态预训练知识(MACK(indoor))

  • 通过Open Images V7数据集和实验室数据,收集了100个常见室内物体的词-区域对,构建了MACK(indoor)。

  • 每个语义概念的视觉原型表示通过平均相关区域表示获得,用于支持物体检索。

关键点筛选与优化

  • 在预先构建的2D网格地图上随机生成多个航点,去除非可导航区域的航点,并将剩余航点指定为关键点。

  • 通过战略性优化,确保生成的航点在关键位置(如交叉口、入口和视觉复杂区域)有效。

视觉-语言跨模态匹配

  • 使用Kinect v2.0相机捕获的RGB图像,应用自下而上的注意力机制提取图像区域特征。

  • 将语音命令转换为文本,通过MACK(indoor)映射到相应的特征表示,计算目标文本表示与图像区域特征之间的相似性。

目标可导航位置预测

  • 在成功匹配目标物体后,利用深度信息辅助路径规划,使机器人能够高效地接近目标物体。

  • 提出了一种结合目标物体深度信息和SLAM地图数据的方法,预测机器人接近目标物体的最佳位置和方向。

实验平台与实现

  • 在物理机器人上实现了该方法,机器人平台包括Kinect v2.0 RGB-D相机、支持杆、升降平台、联想9000P电脑、夹持器、专用支架和移动底盘。

实验

数据集与评估指标

  • 使用Open Images V7数据集和实验室收集的数据进行评估。

  • 采用“R@1”、“R@3”和“R@5”等指标评估多模态预训练知识在关联图像区域与文本描述方面的有效性,并记录平均最大相似度分数。

  • 通过平均路径长度(APL)、成功率(SR)、路径长度加权成功率(SPL)和平均导航时间等指标评估导航性能。

关键点密度的影响

  • 评估了不同关键点密度范围对导航效率的影响,发现优化后的关键点密度范围在3.5~4.5 m/point时,导航成功率最高,为66.7%。

与SOTA方法的比较

  • 与Sim-to-Real方法相比,所提出的方法在成功率和SPL方面分别提高了19.9和16.6个百分点。

不同物体对导航效率的影响

  • 发现较大物体更容易检索,导航性能更好,而较小或较远的物体匹配相似度分数较低,影响导航成功率,但通过“先裁剪后匹配”的策略可以提高性能。

动态和视觉复杂环境中的鲁棒性分析

  • 在不同光照条件和环境布局下进行导航实验,结果表明所提出的方法具有较强的泛化能力,在语义遮挡、相似干扰和复杂背景环境下,平均跨模态对齐相似度始终超过0.6。

讨论与未来工作

讨论

  • 所提出的方法在现实世界环境中表现出色,尤其是在关键点的视觉-语言对齐和目标位置预测方面。

  • 实验结果表明,该方法在动态和视觉复杂环境中具有较强的鲁棒性,但仍需进一步优化以应对极端条件(如黑暗环境)。

未来工作

  • 计划为机器人配备全景相机和高精度3D雷达系统,以提高感知能力。

  • 将现有的VLN模型(如Discrete-Continuous-VLN、VLN-CE、Habitat和ETPNav)扩展到现实世界环境,以扩大其适用性。

  • 持续改进视觉-语言导航的鲁棒性、可靠性和适应性,缩小理论与实践之间的差距,最大化其现实世界的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77169.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

javaSE.泛型界限

现在有一个新的需求,没有String类型成绩了,但是成绩依然可能是整数,也可能是小数,这是我们不希望用户将泛型指定为除数字类型外的其他类型,我们就需要使用到泛型的上界定义: 上界👇只能使用其本…

压缩包网页预览(zip-html-preview)

zip-html-preview 项目介绍 这是一个基于 Spring Boot 开发的在线 ZIP 文件预览工具,主要用于预览 ZIP 压缩包中的 HTML 文件及其相关资源。 主要功能 支持拖拽上传或点击选择多个 ZIP 文件自动解压并提取 ZIP 文件中的 HTML 文件在线预览 HTML 文件及其相关的 CSS、JavaSc…

QML之Overlay

Overlay(覆盖层)是QML中用于在当前界面之上显示临时内容的重要组件。 一、Overlay基础概念 1.1 什么是Overlay? Overlay是一种浮动在现有界面之上的视觉元素,具有以下特点: 临时显示,不影响底层布局 通…

iso17025证书申请方法?iso17025认证意义

ISO/IEC 17025证书申请方法 ISO/IEC 17025是检测和校准实验室能力的国际标准,申请CNAS认可的流程如下: 1. 前期准备 标准学习:深入理解ISO/IEC 17025:2017标准要求。 差距分析:评估现有实验室管理与技术能力与标准的差距。 制…

reverse3 1(Base加密)

题目 做法 下载安装包,解压,把解压后的文件拖进Exeinfo PE进行分析 32位,无壳 扔进IDA(32位),找到main,F5反编译 只是因为在人群中多看了你一眼——第31行的right flag,关键词找到…

电控---CMSIS概览

1. CMSIS库简介 CMSIS(Cortex Microcontroller Software Interface Standard,Cortex微控制器软件接口标准)是由ARM公司开发的一套标准化软件接口,旨在为基于ARM Cortex-M系列处理器(如Cortex-M0/M0/M3/M4/M7/M33等&am…

list.

列表类型是用来存储多个有序的字符串,列表中的每个字符串称为元素(element),⼀个列表最多可以存储个元素 在 Redis 中,可以对列表两端插入(push)和弹出(pop),…

关于Diamond机械手的运动学与动力学的推导

1.关于Diamond机械手 (1)位置模型推导 逆解:机械末端平台的位置与驱动关节之间的关系。 设p点在xy平面的坐标是(x,y)T,此时根据向量求解 OP等于向量r等于e向xy轴的向量主动臂长度向xy轴的向量…

如何新建一个空分支(不继承 master 或任何提交)

一、需求分析: 在 Git 中,我们通常通过 git branch 来新建分支,这些分支默认都会继承当前所在分支的提交记录。但有时候我们希望新建一个“完全干净”的分支 —— 没有任何提交,不继承 master 或任何已有内容,这该怎么…

Flask(补充内容)配置SSL 证书 实现 HTTPS 服务

没有加密的http服务,就像在裸泳,钻到水里便将你看个精光。数据在互联网上传输时,如果未经加密,随时可能被抓包软件抓住,里面的cookie、用户名、密码什么的,它会看得一清二楚,所以,只…

云服务器CVM标准型S5实例性能测评——2025腾讯云

腾讯云服务器CVM标准型S5实例具有稳定的计算性能,CPU采用采用 Intel Xeon Cascade Lake 或者 Intel Xeon Cooper Lake 处理器,主频2.5GHz,睿频3.1GHz,CPU内存配置2核2G、2核4G、4核8G、8核16G等配置,公网带宽可选1M、3…

什么是智算中心

智算中心是一种专门为智能计算提供强大算力支持的基础设施,以下是关于它的详细介绍: 定义与功能 智算中心是基于强大的计算能力,特别是针对人工智能算法进行优化的计算中心。它集成了大量的高性能计算设备,如 GPU 集群、FPGA 阵…

注意力机制是如何实现的

注意力机制的实现可以分解为几个核心步骤,其本质是通过动态计算权重,决定不同位置信息的重要性,再对信息进行加权融合。以下从数学原理、代码实现到直观解释逐步展开: 一、核心实现步骤 以最常见的**点积注意力(Dot-P…

【裁员感想】

裁员感想 今天忽然感觉很emo 因为知道公司要裁员 年中百分之10 年末百分十10 我知道这个百分20会打到自己 所以还挺不开心的 我就想起 我的一个亲戚当了大学老师 我觉得真的挺好的 又有寒暑假 又不是很累 薪资也不低 又是编制 同时也觉得自己很失败 因为对自己互联网的工作又…

从信号处理角度理解图像处理的滤波函数

目录 1、预备知识 1.1 什么是LTI系统? 1.1.1 首先来看什么是线性系统,前提我们要了解什么是齐次性和叠加性。

目标检测概述

为什么基于卷积网络的目标检测模型在预测后要使用非极大值抑制 基于卷积网络的目标检测模型可能会在目标的相邻区域生成多个相互重叠框,每个框的预测结果都是同一个目标,引起同一目标的重复检测。造成这一现象的原因主要有两个, 基于卷积网络…

【JAVA】在idea新加artifact时,点击Build-Build Artifacts时,新加的artifact不能选中

首先保证添加artifact无问题,比如依赖都正确、无重复命令的情况等 办法 一 File > Invalidate Caches / Restart。 重启IDEA后,重新检查Artifact是否可选 办法 二 打开 Project Structure(CtrlShiftAltS)。 进入 Artifacts 选…

Paramiko 使用教程

目录 简介安装 Paramiko连接到远程服务器执行远程命令文件传输示例 简介 Paramiko 是一个基于 Python 的 SSH 客户端库,它提供了在网络上安全传输文件和执行远程命令的功能。本教程将介绍 Paramiko 的基本用法,包括连接到远程服务器、执行命令、文件传输…

《TCP/IP网络编程》学习笔记 | Chapter 24:制作 HTTP 服务器端

《TCP/IP网络编程》学习笔记 | Chapter 24:制作 HTTP 服务器端 《TCP/IP网络编程》学习笔记 | Chapter 24:制作 HTTP 服务器端HTTP 概要理解 Web 服务器端无状态的 Stateless 协议请求消息(Request Message)的结构响应消息&#x…

【Quest开发】在虚拟世界设置具有遮挡关系的透视窗口

软件:Unity 2022.3.51f1c1、vscode、Meta XR All in One SDK V72 硬件:Meta Quest3 仅针对urp管线 参考了YY老师这篇,可以先看他的再看这个可能更好理解一些:Unity Meta Quest MR 开发(七):使…