3D语义地图中的全局路径规划!iPPD:基于3D语义地图的指令引导路径规划视觉语言导航

  • 作者: Zehao Wang, Mingxiao Li, Minye Wu, Marie-Francine Moens, Tinne Tuytelaars

  • 单位:鲁汶大学电气工程系,鲁汶大学计算机科学系

  • 论文标题: Instruction-guided path planning with 3D semantic maps for vision-language navigation

  • 出版信息:Neurocomputing 625 (2025) 129457

  • 论文链接:https://www.sciencedirect.com/science/article/abs/pii/S0925231225001298?via%3Dihub

主要贡献

  • 引入高分辨率3D语义地图:提出使用高分辨率的3D语义地图作为环境表示,相比传统的2D地图或拓扑地图,能够保留更多环境信息,为导航提供更丰富的语义和空间上下文。

  • 提出模块化导航框架(iPPD):设计了一种模块化的导航方法,包含路径提议和路径评分两个阶段。通过指令约束的路径提议算法生成候选路径,并利用基于Transformer的评分模型选择最佳路径,有效利用全局信息,避免了局部决策的误差累积。

  • 创新的路径特征编码方案:提出了一种针对3D语义地图的路径特征编码方法,通过“对象罗盘”感知局部环境,并结合PointNet和Transformer模型对路径特征进行编码,增强了路径与语言指令的对齐能力。

  • 全局路径规划方法:这是首个基于3D语义地图的全局路径规划方法,通过预探索阶段构建的全局地图进行路径规划,显著提升了语言引导导航任务的性能,减少了训练需求,并展示了其在实际应用中的潜力。

背景知识

  • 视觉语言导航(VLN)的目标是让机器人能够理解人类自然语言指令,并在环境中成功导航以执行这些指令。这需要整合语言理解、视觉感知和决策能力。

  • 传统的 VLN 方法大多基于离散环境假设,即导航位置是预先定义好的,但在现实场景中,这种假设限制了机器人的灵活性和适应性。

  • 因此,研究者们开始探索连续环境中的 VLN 任务,以缩小与实际应用的差距。

研究方法

论文提出了一种名为 Instruction-aware Path Proposal and Discrimination (iPPD) 的新方法,该方法包含两个主要阶段:语义地图构建和基于语言的路径规划。

1. 语义地图构建

在预探索阶段,机器人在环境中随机行走,利用 RGBD(彩色图像和深度图像)传感器收集数据,并通过预训练的语义分割模型(Mask2Former)对每个时间步的观察结果进行语义分割。这些分割结果被投影到 3D 点云中,并结合相机姿态信息,动态更新到全局 3D 语义地图中。地图的分辨率设置为 0.1 米,并通过多视图一致性约束和最大池化操作来减少语义预测误差。

2. 基于语言的路径规划

路径规划阶段包含两个模块:路径提议和路径评分。

  • 路径提议:受经典粒子滤波算法启发,论文提出了一种基于指令约束的路径提议算法。该算法利用从指令中提取的稀疏动作-对象序列(如“向左转”、“观察沙发”)来引导粒子的运动。粒子在地图中模拟机器人运动,生成一系列候选路径。这些路径随后被编码并评分。

  • 路径评分:论文设计了一种基于 Transformer 的语言驱动判别器,用于评估候选路径并选择最佳路径作为最终结果。路径特征编码方案专门针对 3D 语义地图设计,能够将路径上的环境信息编码为特征表示。这些特征与语言指令对齐,以验证路径是否符合指令。

实验

实验使用了 VLN-CE 数据集,并在验证集上进行了评估。评估指标包括归一化动态时间弯曲(nDTW)、成功率(SR)、成功加权路径长度(SPL)等。

关键结论
  • 性能提升:iPPD 方法在验证集上的表现显著优于其他方法,尤其是在 nDTW 和 SR 指标上。例如,在验证集的 seen 环境中,iPPD 的 nDTW 为 0.66,SR 为 0.51,而在 unseen 环境中,nDTW 为 0.63,SR 为 0.42。

  • 地图质量的影响:通过对比使用构建的语义地图和使用真实语义地图的模型性能,论文发现构建的语义地图在性能上与真实地图相当,表明其包含的语义信息足以支持导航任务。

  • 路径提议策略的影响:论文还比较了不同的路径提议策略,包括随机行走、考虑障碍物的提议策略等。结果表明,论文提出的策略在召回率和路径形状相似性之间取得了较好的平衡。

讨论与未来工作

尽管 iPPD 方法在预探索环境中的 VLN 任务中表现出色,但仍有改进空间。论文指出,未来的研究方向包括:

  1. 提高语义地图的精度,例如包含实例级信息。

  2. 探索更先进的语言模型以增强指令理解能力。

  3. 研究更高效的路径规划算法,以减少对评分模型的依赖。

  4. 改进地图管理技术,以支持更大规模环境的导航。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901679.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《AI大模型应知应会100篇》第20篇:大模型伦理准则与监管趋势

第20篇:大模型伦理准则与监管趋势 摘要 随着人工智能(AI)技术的飞速发展,尤其是大模型(如GPT、PaLM等)在自然语言处理、图像生成等领域的广泛应用,AI伦理问题和监管挑战日益凸显。本文将梳理当…

【Ai】dify:Linux环境安装 dify 详细步骤

一、什么是dify Dify 是一个 开源的大语言模型(LLM)应用开发平台,旨在帮助开发者快速构建基于 AI 的应用程序,例如智能对话助手、知识库问答、内容生成工具等。它提供了可视化的流程编排、模型集成、数据管理等功能,降低了开发门槛,支持快速迭代和部署。 核心功能与特点…

CentOS 操作系统下搭建 tsung性能测试环境

写在前面 为何这么安装,实际就是这么做的,这是经过好几次实践得出的经验总结。 这为了让大家更清楚的知道怎么安装 tsung性能测试环境,按步照搬的安装即可。 步骤 1、 下载软件安装包 CentOS-6.0-x86_64-bin-DVD1.iso jdk-6u4-linux-x64-rpm.bin erlang: otp_src_1…

Vulkanised

Vulkanised 1. About VulkanisedReferences The Premier Vulkan Developer Conference premier /ˈpremiə(r)/ n. 总理;(尤用于报章等) 首相;(加拿大的) 省总理;地区总理 adj. 第一的;首要的;最著名的;最…

C++之 动态数组

一、新建一个动态数组 数组名和下标操作符[]的组合可以被替换成一个指向该数组的基地址的指针和对应的指针运算: int a[20]; int *x a; 指针变量 x 指向数组 a 的地址, a[0] 和 *x 都代表数组的第一个元素。 于是,根据指针运算原则&…

ubuntu1804服务器开启ftp,局域网共享特定文件给匿名用户

要在 Ubuntu 18.04 上设置一个 FTP 服务器,满足以下要求: 允许匿名登录(无需账号密码)。指定分享特定目录下的文件。只允许只读下载。 可以使用 vsftpd(Very Secure FTP Daemon)来实现。以下是详细步骤&a…

mcp和API区别

MCP(Model Context Protocol,模型上下文协议)与传统API(Application Programming Interface,应用程序编程接口)在技术架构、集成方式和应用场景等方面存在显著差异,以下是主要区别的总结&#x…

高版本Android (AIDL HAL) 使用HIDL方法

目录 修改步骤和编译方法 注意事项 Android 11 引入了使用 AIDL 实现 HAL 的功能。 后续Android新版本,HAL默认切到了使用AIDL. 因此当导入旧HIDL实现方式时,需要做一些修改。 1.将HAL HIDL模块拷贝到相应目录,进行编译 source build/envsetup.sh lunch xxx mmm 模块路径 1.…

基于redis 实现我的收藏功能优化详细设计方案

基于redis 实现我的收藏功能优化详细设计方案 一、架构设计 +---------------------+ +---------------------+ | 客户端请求 | | 数据存储层 | | (收藏列表查询) | | (Redis Cluster) | +-------------------…

学习笔记 - Swfit 6.1 - 语法概览

获取版本号 swift -versionHello world print("Hello, world!")末尾不需要分号 值 常量(let),变量(var) var myVariable 42 myVariable 50 let myConstant 42可以显式声明变量类型,若没有则隐式推断,类似下面的Double let implicitInteger 70 let implicit…

确保连接器后壳高性能互连的完整性

本文探讨了现代后壳技术如何促进高性能互连的电气和机械完整性,以及在规范阶段需要考虑的一些关键因素。 当今的航空航天、国防和医疗应用要求连接器能够提供高速和紧凑的互连,能够承受振动和冲击,并保持对电磁和射频干扰 (EMI/R…

第IV部分有效应用程序的设计模式

第IV部分有效应用程序的设计模式 第IV部分有效应用程序的设计模式第23章:应用程序用户界面的架构设计23.1设计考量23.2示例1:用于非分布式有界上下文的一个基于HTMLAF的、服务器端的UI23.3示例2:用于分布式有界上下文的一个基于数据API的客户端UI23.4要点第24章:CQRS:一种…

学习笔记十四——一文看懂 Rust 迭代器

🌀 一文看懂 Rust 迭代器 📚 目录导航 什么是迭代器?为什么 Rust 到处都在用它?Rust 迭代器的底层逻辑是什么?适配器 vs 消费者:谁是主角?常见适配器:加工数据的全能工厂常见消费者…

QR轻量二维码生成系统PHP源码

源码介绍 基于PHP编写的二维码在线生成系统。只需点击几下就可以生成您的个人二维码!上传您的徽标,选择自定义颜色,生成多种类型。选择一个图案并下载最终的qrcode。可用格式:.png,.svg 效果预览 源码获取 QR轻量二…

基于Spring MVC的客户端真实IP获取方案解析

文章目录 基于Spring MVC的客户端真实IP获取方案解析概述核心方法解析代码实现工作流程 IP获取优先级策略IP有效性验证异常处理与日志使用场景注意事项扩展建议 基于Spring MVC的客户端真实IP获取方案解析 概述 在Web应用开发中,准确获取客户端真实IP地址是常见的…

Idea集成AI:CodeGeeX开发

当入职新公司,或者调到新项目组进行开发时,需要快速熟悉项目代码 而新的项目代码,可能有很多模块,很多的接口,很复杂的业务逻辑,更加有与之前自己的代码风格不一致的现有复杂代码 更别提很多人写代码不喜…

Python(18)Python中JSON的妙用:详解序列化与反序列化原理及实战案例

目录 一、背景:为什么Python需要JSON?二、核心技术解析:序列化与反序列化2.1 核心概念2.2 类型映射对照表 三、Python操作JSON的四大核心方法3.1 基础方法库3.2 方法详解1. json.dumps()2. json.loads()3. json.dump()4. json.load() 四、实战…

【物联网】基于LORA组网的远程环境监测系统设计

基于LORA组网的远程环境监测系统设计 演示视频: 简介: 1.本系统有一个主机,两个从机。 2.一主多从的LORA组网通信,主机和两个从机都配备了STM32F103单片机与 LoRa 模块,主机作为中心设备及WIFI网关,负责接收和发送数据到远程物联网平台和手机APP,两个从机则负责采集数…

通过金融科技(Fintech)掌控财务:智能理财管理指南

李升伟 编译 在当今世界,科技几乎重塑了我们生活的方方面面,包括金钱的管理方式。金融科技(Fintech)让个人财务管理变得前所未有的便捷、高效和智能。从追踪支出到投资理财、提升信用评分,金融科技工具赋予个人掌控财…

html-css样式

1. 所有类型为文本的 元素的样式 指定所有类型为文本的 元素的样式 /* 文本框的样式 */ input[type"text"] { font-size: 25px;width: 80px; /* 文本框的宽度 */ padding: 25px; } font-size:字体大小 width:文本框宽度 padding&#…