ICPR-2025 | 让机器人在未知环境中 “听懂” 指令精准导航!VLTNet:基于视觉语言推理的零样本目标导航

  • 作者:Congcong Wen, Yisiyuan Huang, Hao Huang ,Yanjia Huang, Shuaihang Yuan, YuHao, HuiLin and Yi Fang

  • 单位:纽约大学阿布扎比分校具身人工智能与机器人实验室,纽约大学阿布扎比分校人工智能与机器人中心,纽约大学坦登工程学院,中国科学技术大学,清华大学软件学院

  • 论文标题:Zero-Shot Object Navigation with Vision-Language Models Reasoning

  • 论文链接:https://link.springer.com/chapter/10.1007/978-3-031-78456-9_25

  • 项目主页:https://vlt-lzson.github.io/

主要贡献

  • 提出了 Vision Language 模型与 Tree-of-thought 网络相结合的 VLTNet,用于语言驱动的零样本目标导航(L-ZSON)任务,该模型能够使机器人在没有特定训练数据的情况下与未知物体交互。

  • 创新性地将 Tree-of-Thought(ToT)推理框架应用于机器人探索过程中的导航前沿选择,使模型具备多路径推理过程和必要时的回溯能力,从而实现更准确的全局决策。

  • 通过在 PASTURE 和 RoboTHOR 两个基准测试中的实验,证明了模型在处理复杂的自然语言指令作为目标指示的 L-ZSON 任务中的出色性能,特别是在涉及复杂自然语言指令的场景中。

研究背景

  • 传统的机器人目标导航方法依赖于大量的视觉训练数据,包含环境中的标记物体,这限制了它们在未知和非结构化环境中的泛化能力。

  • 零样本目标导航(ZSON)旨在解决这一问题,让机器人能够与未知物体进行导航和交互,但在需要复杂交互和通信的场景中仍存在不足。

  • 语言驱动的零样本目标导航(L-ZSON)通过自然语言指令引导智能体,但现有方法只能处理明确包含物体类别的指令,难以处理描述未知物体或具有空间、视觉属性的物体的指令。

研究方法

VLTNet 模型由四个核心模块组成,包括视觉语言模型理解模块、语义映射模块、树状思维推理与探索模块以及目标识别模块。

  • 视觉语言模型理解模块 :利用预训练的视觉语言模型(如 GLIP)对观测到的 RGB 图像进行语义解析,识别图像中的物体和房间等信息,增强模型对环境语义的理解。

  • 语义映射模块 :结合视觉语言模型理解模块生成的语义解析图像、智能体捕获的深度图像以及智能体姿态,构建包含物体、房间和前沿的语义导航地图,为智能体在复杂环境中的导航决策提供支持。

  • 树状思维推理与探索模块 :是 VLTNet 的核心组件,创新性地将 ToT 推理框架应用于导航前沿选择。与传统方法不同,ToT 推理框架通过模拟多个专家对问题的讨论,逐步达成共识,使模型能够进行多路径推理和自我评估,从而选择最优的前沿进行探索,提高导航决策的准确性和全局性。

  • 目标识别模块 :用于确定智能体当前接近的物体是否与指令中指定的目标物体匹配,不仅考虑物体类别,还结合空间和外观描述等复杂信息,通过视觉语言模型将当前场景转化为语言表达,再利用大型语言模型(如 GPT-3.5)进行分析,实现对场景上下文与目标描述之间一致性的准确评估。

实验

  • 实验环境与数据集 :在 PASTURE 和 RoboTHOR 两个基准测试上评估 VLTNet 的性能。PASTURE 数据集包含多种独特的导航挑战,如不常见物体、外观复杂的物体等;RoboTHOR 则基于真实世界室内环境,提供精确的 3D 环境表示。

  • 评估指标 :采用成功率(SR)和路径长度加权成功率(SWPL)作为评估指标,SR 衡量智能体在最大步数内成功导航到目标物体的比例,SWPL 则同时考虑导航的成功性和路径的最优性。

  • 基线模型 :与多个最先进的模型进行对比,包括 CoW 及其变体(如 CLIPRef、CLIP-Patch 等)、ESC 等。

  • 实验结果 :在 PASTURE 数据集上,VLTNet 模型在所有指标上均优于其他模型,在外观类别中的成功率达到 35.0%,在空间类别中的成功率为 33.3%;在 RoboTHOR 数据集上,VLTNet 的成功率为 33.2%,SWPL 为 17.1%,优于 CoW 等模型。此外,消融实验表明,使用 ToT 提示的模型在前沿选择上优于没有 ToT 提示的模型,证明了 ToT 推理的有效性;在目标识别模块中,使用 GPT-3.5 的模型在验证目标对象与空间提示的一致性方面表现最佳。

讨论与未来工作

  • 论文指出,尽管 VLTNet 在 L-ZSON 任务中取得了显著的性能提升,但仍存在一些局限性,例如在处理某些复杂的自然语言指令时可能还需要进一步优化模型的推理过程和语义理解能力。

  • 未来的工作可以探索如何进一步改进 ToT 推理框架,以更好地处理复杂的导航场景和更丰富的语言指令。

  • 此外,还可以研究如何将 VLTNet 与其他技术(如强化学习、模拟真实世界环境的高保真仿真等)相结合,以进一步提高机器人的导航性能和泛化能力,使其能够在更接近真实世界的环境中更有效地执行任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/76387.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于DeepSeek的考研暑假日志分析

注:我去年考研时写了日志,大致记录了我每天的主要活动。由于过于琐碎,一直没有翻看。突发奇想,现在利用deepseek总结其中规律。 从你的日志中可以总结出以下规律和活动兴衰起落: ​​一、学习活动规律与演变​​ ​​…

【刷题Day20】TCP和UDP

TCP 和 UDP 有什么区别? TCP提供了可靠、面向连接的传输,适用于需要数据完整性和顺序的场景。 UDP提供了更轻量、面向报文的传输,适用于实时性要求高的场景。 特性TCPUDP连接方式面向连接无连接可靠性提供可靠性,保证数据按顺序…

REST 架构详解:从概念到应用的全面剖析

REST(Representational State Transfer)即表述性状态转移,是一种用于构建网络应用程序的架构风格和设计理念,由计算机科学家罗伊・菲尔丁(Roy Fielding)在 2000 年提出。以下是关于它的详细介绍&#xff1a…

蓝桥杯之递归二

1.数的划分 题目描述 将整数 nn 分成 kk 份,且每份不能为空,任意两份不能相同(不考虑顺序)。 例如:n7,k3n7,k3,下面三种分法被认为是相同的。 1,1,5;1,5,…

LeetCode(Hot.2)—— 49.字符异位词分组题解

Problem: 49. 字母异位词分组 字母异位词的定义是:两个单词的字母组成一样,但顺序可以不同,比如 eat、tea 和 ate 就是一个组的。 思路 将每个字符串按字母排序,把排序后的字符串作为 key,相同 key 的放在一个 list 中…

为什么信号完整性对于高速连接器设计至关重要?

外部连接器通过在各种电子元件和系统之间可靠地传输数据而不损失保真度来保持信号完整性。在本文中,我们将讨论信号完整性的重要性,回顾高速部署挑战,并重点介绍各种连接器设计策略,以防止失真和降级。 了解连接器信号完整性挑战…

得物官网sign签名逆向分析

打开得物官网,点击鞋类,可以看到请求 直接搜sign function p(e) {return f()("".concat(e ? s()(e).sort().reduce(function(t, n) {return "".concat(t).concat(n).concat(e[n])}, "") : "", "048a9…

Ubuntu 安装WPS Office

文章目录 Ubuntu 安装WPS Office下载安装文件安装WPS问题1.下载缺失字体文件2.安装缺失字体 Ubuntu 安装WPS Office 下载安装文件 需要到 WPS官网 下载最新软件,比如wps-office_12.1.0.17900_amd64.deb 安装WPS 执行命令进行安装 sudo dpkg -i wps-office_12.1…

javaSE.判空包装类

判空包装类Optional,这个类可以很有效的处理空指针问题 空指针异常👇 特判null👇 Optional类可以更加优雅地处理这种问题👇👇 ofNullable👇 isPresent isEmpty 👇 👇 包装之后&…

使用 vcpkg 构建支持 HTTPS 的 libcurl 并解决常见链接错误

适用环境:Windows 10/11 Visual Studio 2022 CMake ≥ 3.20 目标读者:希望在 C 项目中轻松调用 HTTPS(GET/POST/PUT/DELETE),又被 LNK20xx 链接错误困扰的开发者 目录 为什么选 vcpkg 与 libcurl用 vcpkg 安装带 SS…

ISO26262-浅谈用例导出方法和测试方法

目录 1 摘要2 测试方法3 测试用例导出方法4 测试方法与用例导出方法的差异和联系5 结论 1 摘要 ISO26262定义了测试方法和用例导出方法,共同保证产品的开发质量。但在刚开始学习ISO26262的时候,又不是非常清晰地理解它俩的区别和联系。本文主要对它俩的…

RoBoflow数据集的介绍

https://public.roboflow.com/object-detection(该数据集的网址) 可以看到一些基本情况 如果我们想要下载,直接点击 点击图像可以看到一些基本情况 可以点击红色箭头所指,右边是可供选择的一些yolo模型的格式 如果你想下载…

基于CFSSL构建高可用ETCD集群全指南(含TLS证书管理)

基于CFSSL构建高可用ETCD集群全指南(含TLS证书管理) 摘要:本文深入讲解使用CFSSL工具签发TLS证书,并部署生产级高可用ETCD集群的完整流程。涵盖证书全生命周期管理、集群配置优化及安全加固方案,适用于Kubernetes、分…

【设计模式】适配器模式:让不兼容的接口和谐共处

引言 在软件开发中,我们经常会遇到这样的情况:两个已经存在的接口无法直接协同工作,但我们又希望它们能够无缝对接。这时,适配器模式就派上用场了。适配器模式(Adapter Pattern)是一种结构型设计模式&…

doris/clickhouse常用sql

一、doris常用SQL 1、doris统计数据库的总大小(单位:MB) SELECT table_schema AS database_name,ROUND(SUM(data_length) / 1024 / 1024, 2) AS database_size_MB FROM information_schema.tables WHERE table_schema NOT IN (information…

软件架构分层策略对比及Go项目实践

一、水平分层 vs 功能划分 vs 组件划分 维度水平分层功能划分组件划分核心思想按垂直层次划分职责(如表示层、业务层、数据层)按业务功能模块划分(如用户管理、订单服务、支付模块)按技术或业务能力划分独立组件(如数…

Linux进程地址空间、写时拷贝

1.进程地址空间 感知进程地址空间 C/C有内存的概念,内存空间包括栈、堆、代码段等等,下面是32位下的内存分布图,自底向上(由0x00000000至0xFFFFFFFF); 下面通过程序来验证各个数据在该空间的地址,由此感知整个地址空间的分布情…

python成功解决AttributeError: can‘t set attribute ‘lines‘

文章目录 报错信息与原因分析解决方法示例代码代码解释总结 报错信息与原因分析 在使用 matplotlib绘图时,若尝试使用 ax.lines []来清除图表中的线条,会遇到AttributeError: can’t set attribute错误。这是因为 ax.lines是一个只读属性,不…

从零搭建微服务项目Pro(第6-2章——微服务鉴权模块SpringSecurity+JWT)

前言: 在上一章已经实现了SpringBoot单服务的鉴权,在导入SpringSecurity的相关依赖,以及使用JWT生成的accessToken和refreshToken能够实现不同Controller乃至同一Controller中不同接口的权限单独校验。上一章链接如下: 从零搭建微服务项目Pr…

win安装软件

win安装软件 jdk安装 jdk安装 首先去官网下载适合系统版本的JDK,下载地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html进入下载页面,如下图: 首先选择:Accept License Agreement单选按钮&…