Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation

题目:用于视觉语言导航的层次化跨模态智能体

摘要

1. 问题背景和现有方法

  • VLN任务:这是一种复杂的任务,要求智能体基于视觉输入和自然语言指令进行导航。

  • 现有方法的局限性:之前的工作大多将这个问题表示为离散的导航图,智能体的动作空间是有限的、离散的。

2. 新提出的设置

  • Robo-VLN:这篇论文提出了一种新的任务环境,名为Robo-VLN。该设置更加复杂,因为智能体不再局限于离散的导航图,而是在连续的三维重建环境中进行操作。这个新环境更接近现实中的导航问题。

  • Robo-VLN的挑战

    • 轨迹长度更长

    • 动作空间是连续的

    • 存在障碍物等现实问题

3. 基准和问题

  • 研究者提供了一个基于现有VLN方法的基准测试,发现它们在Robo-VLN任务中效果较差。这表明,传统方法在面对更加复杂和连续的环境时,适应性较弱。

4. 新方法

  • 分层决策:研究者提出了一种新的智能体模型,即分层的高层与低层策略来解决这一问题。

  • HCM智能体:这个模型通过层次化的决策过程,模块化的训练方式,以及将推理与模仿学习的过程分开,能够更有效地处理Robo-VLN任务。

5. 实验结果

  • 通过大量的实验,研究者证明了他们提出的HCM智能体在各项关键指标上优于现有基准,设立了新的Robo-VLN任务的基准。

总结:

这篇论文的核心贡献在于:

  • 提出了一个更接近现实世界的视觉与语言导航任务(Robo-VLN),增加了问题的复杂性。

  • 通过分层决策、模块化训练和推理与模仿的解耦,提出了HCM智能体,解决了之前方法在连续环境中的不足。

引言

1. 背景与动机

  • 个人助理机器人:该研究旨在推动个人助理机器人能够无缝执行人类指令,尤其是在现实环境中。深度学习和深度强化学习的进展为这一领域带来了可能性,但仍有很多挑战需要克服。

  • 现有工作与模拟环境:由于现实环境中收集数据的难度,很多研究使用了类似Matterport3D和Gibson等模拟环境来训练智能体。这些环境允许研究人员通过视觉和语言输入训练自主导航智能体。

  • VLN任务的定义:VLN任务要求智能体仅依靠视觉输入和语言指令进行导航,且没有预先提供的全球地图。

2. 现有方法的局限性

  • 离散动作空间的假设:之前的工作大多将导航问题简化为离散的导航图,这些工作假设智能体在已知的拓扑结构中能进行完美的定位,并且没有障碍物。这些假设与现实世界中的问题有很大差距,特别是在连续控制和复杂环境感知方面。

3. Robo-VLN的提出

  • Robo-VLN任务:本文的第一个贡献是提出了一种更复杂的、基于连续控制的VLN任务。该任务不再依赖离散的导航图,而是要求智能体在连续的三维环境中执行任务。这使得问题更贴近现实,增加了轨迹长度和任务复杂性。

  • Robo-VLN的挑战:研究表明,之前为离散环境设计的模型在这种连续控制的长轨迹任务中表现较差,表明现有方法不能很好地适应这种复杂环境。

4. 层次化方法的提出

  • 层次化分解:为了应对连续控制环境中的VLN任务,研究者提出了一种分层决策模型。

  • 分层决策模型的关键能力

    1. 推理与模仿的解耦:通过高层策略和低层策略的分工,高层策略负责将语言指令与视觉输入匹配,推理已完成的指令,并进行任务的子目标推理;低层策略则模仿控制器的反馈,基于视觉状态和子目标进行具体行动。

    2. 模块化训练:通过将推理与控制分离,复杂的长时间任务被分解为短时间的子任务。每个模块有自己独立的目标,采用端到端的训练方式,且层次之间的通信仅限于子目标信息。

5. 贡献总结

  • 突破离散假设:这是首个将VLN任务表述为连续控制问题的工作,抛弃了导航图和离散动作空间的假设。

  • 提出层次化的HCM智能体:通过分层决策和模块化训练,该智能体能够更有效地处理跨模态任务,尤其是长时间和复杂环境中的任务。

  • 性能提升:通过与现有方法的对比,研究表明提出的方法在Robo-VLN任务中设立了新的基准,相对于未见环境的验证数据集,绝对成功率提升了13%。

ROBO-VLN

任务定义

1. Robo-VLN的引入

  • Robo-VLN任务:该任务是现有视觉与语言导航(VLN)任务的一种扩展,采用连续控制的形式,目的是更加接近现实世界中的导航挑战。与以往基于导航图或离散的VLN任务相比,Robo-VLN增加了轨迹长度、视觉帧数以及动作的多样性。

  • 任务特点

    • 平均每条轨迹的步数增加了4.5倍,意味着需要智能体执行更长时间的决策。

    • 提供了大约350万帧的视觉输入,极大地增加了感知任务的复杂性。

    • 具有更加平衡的高层次动作分布,意味着智能体在导航时需要处理更广泛的控制和决策。

  • 成功标准:任务的成功标准为:

    1. 智能体与目标之间的距离小于3米的阈值,且执行了停止动作

    2. 智能体与目标之间的距离小于3米的阈值,其角速度减少到某一阈值以下来停止

连续VLN环境的构建

层次跨模态智能体

High-Level 策略

多模态交叉注意力编码器

多模态注意力解码器

Low-Level 策略

训练细节

数据集细节

1. 模拟器和数据集

  • Habitat模拟器:实验是在Habitat模拟器上进行的。Habitat是一种用于强化学习和导航任务的高效模拟环境,能够在高保真3D环境中进行快速模拟。

  • Robo-VLN数据集:Robo-VLN数据集是基于Matterport3D数据集构建的。Matterport3D数据集包含了90个环境,这些环境通过大约10,000个高分辨率RGB-D全景图像进行捕捉。Robo-VLN数据集提供了3,177条轨迹,每条轨迹与来自R2R数据集的人工注释指令相对应。

    • 数据集规模:Robo-VLN数据集中总共有9,533对专家指令和轨迹,平均每条轨迹的步数为326步,相比之下,VLN-CE数据集的平均轨迹步数为55.8,R2R数据集为5步。

    • 数据集划分:数据集分为三个部分:训练集、验证集(已见环境)和验证集(未见环境)。

2. 评估指标

实验采用了一系列标准的评估指标来衡量模型的性能:

  • 成功率 (Success Rate, SR):衡量智能体是否到达了目标位置。

  • 路径长度加权成功率 (Success weighted by Path Length, SPL):不仅考虑成功率,还将路径长度纳入考量,强调智能体在最短路径内到达目标的能力。

  • 归一化动态时间规整 (Normalized Dynamic Time Warping, NDTW):比较智能体的轨迹与地面真值轨迹的相似度,注重智能体是否遵循了地面真值的完整路径。

  • 轨迹长度 (Trajectory Length, TL):智能体在导航中的实际路径长度。

  • 导航误差 (Navigation Error, NE):智能体最终停止的位置与目标点的距离。

主要评价指标

  • SPLNDTW 被认为是主要的对比指标。SPL更侧重于智能体是否成功到达目标,而NDTW更关注智能体是否跟随了地面真值路径。

3. 实现细节

  • 特征提取

    • ResNet-50:使用在ImageNet上预训练的ResNet-50模型从RGB图像中提取空间特征。

    • DDPPO预训练ConvNet:使用在大规模点目标导航任务上预训练的卷积神经网络(ConvNet)从深度图像中提取特征。

  • Transformer模块:Transformer模块的配置如下:

    • 隐藏层大小 H=256H = 256H=256

    • Transformer头的数量 nh=4n_h = 4nh​=4

    • 前馈层的大小 FF=1024FF = 1024FF=1024

  • 截断反向传播 (Truncated Backpropagation Through Time, TBPTT):由于Robo-VLN任务涉及长时间序列,模型训练时采用了截断反向传播来提高训练效率。截断长度为100步,用于训练注意力解码器。

  • 训练

    • 网络训练了20个epoch,使用“早停法”(early stopping)来根据验证集上的表现终止训练。

实验

1. 平坦基线模型 (Flat Baselines)

研究者提出了一套平坦基线模型,用于与他们的分层模型进行比较。这些基线模型与VLN-CE中的基线类似,但有一些适应性变化:

  • Seq2Seq:一种编码器-解码器结构,通过教师强制(teacher-forcing)训练。

  • Progress Monitor (PM):基于Seq2Seq模型,增加了一个用于进度监控的辅助损失。

  • Cross-Modal Attention (CMA):一种基于跨模态注意力的模型,类似于RCM。

  • 输出变化:这些基线模型的输出从离散的动作空间(向前、左转、右转、停止)转变为预测连续的线速度、角速度和停止动作。

2. 与平坦基线模型的比较

研究者的分层策略模型(HCM)在Robo-VLN任务中取得了明显优于平坦基线模型的性能:

  • 验证未见环境中的表现:HCM模型的成功率(SR)为46%,路径长度加权成功率(SPL)为40%,相比最佳基线模型分别提高了13%和10%。

  • 长远影响:这些结果表明,HCM的分层结构在处理长时间、跨模态的路径跟踪任务时表现更优越。

3. 消融实验

消融实验用于验证不同设计选择对HCM模型的影响,结果总结如下:

  • 视觉信息的重要性:去除视觉输入后,模型的表现与随机智能体相近(SPL和SR均为0.07),这表明视觉输入在真实模拟环境中的重要性。

  • RGB和深度融合的时机:将RGB和深度信息在跨注意力层之前融合的架构表现不如单独对齐RGB和深度与语言指令的架构,这表明在视觉模态上进行分开对齐的有效性。

  • 层次结构的重要性:去除层次结构的实验表明,尽管提供了辅助子目标监督,平坦模型的性能仍低于分层模型(如SR从46%降到40%,SPL从40%降到34%)。这证明了层次化策略在任务中的关键作用。

4. 层次结构的影响

  • 层次结构的来源:HCM模型通过分层决策,将复杂的任务分解为高层次的子目标预测和低层次的速度控制预测。实验结果显示,即使在给予辅助监督的情况下,平坦的模型也无法达到分层模型的表现。这表明分离推理和模仿的做法有助于学习有效的单独策略。

5. 定性比较

  • 定性分析:研究者对比了分层智能体和平坦智能体的表现,结果显示分层智能体能够成功预测低层次的速度命令,并在511步内成功到达目标。而平坦智能体则在导航中多次碰到障碍物,最终在1000步内仍未能到达目标。

6. 总结

  • 分层策略优势:通过消融实验和定性分析,研究者证明了分层策略的优势。分层结构不仅能有效处理长时间的任务,还能够将复杂的跨模态推理任务拆解为易于处理的子任务。

  • 与基线模型的比较:HCM模型在长时间、连续控制的任务中表现显著优于基线模型,尤其是在处理跨模态信息和长时间依赖时,分层策略的设计至关重要。

这种分层策略使得Robo-VLN任务中的智能体在面对复杂导航任务时能够更有效地做出决策,成功率和路径跟踪能力都有显著提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/54608.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL基础教程(一):连接数据库和使用表

这个专栏用来讲解 MySQL 数据的基本语法和用法。本教程的目的是方便查询 MySQL 的用法,因此对于原理的讲解会偏少一些,但特点就是会有很多实验操作图。 本专栏使用的源材料是《MySQL必知必会》这本书的源代码。 文章目录 1. 连接 MySQL 数据库2. 创建数…

【物流配送中心选址问题】基于改进粒子群算法

课题名称: 基于改进粒子群算法的物流配送中心选址问题 改进方向:动态惯性权重优化粒子群算法 代码获取方式: 模型描述: 待补充 Matlab仿真结果: 1. 模型优化后的仿真结果 2. 初始解对应的物流配送路径图 3. 粒子…

Tianrui Green Shield

Tianrui Green Shield,即天锐绿盾,是一款专注于企业数据防泄密的软件系统。以下是对天锐绿盾的详细介绍: 一、基本信息 产品名称:天锐绿盾(又名绿盾信息安全管理软件)公司官网:www.drhchina.co…

VMware中Ubuntu系统Docker正常运行但网络不通(已解决)

问题描述:在VMware中的Ubuntu系统下部署了Docker,当在docker容器中运行Eureka微服务时,发现Eureka启动正常,但无法通过网页访问该容器中Eureka。 解决办法如下: 1、创建桥接网络:test-net sudo docker n…

2024年最强网络安全学习路线,详细到直接上清华的教材!

关键词:网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊,学习网络安全方向通常会有哪些问题前排提示:文末有CSDN官方认证Python入门资料包 ! 1、打基础时间太长 学基础花费很长时间,光语…

微信第三方开放平台接入本地消息事件接口报错问题java.security.InvalidKeyException: Illegal key size

先看报错: java.security.InvalidKeyException: Illegal key sizeat javax.crypto.Cipher.checkCryptoPerm(Cipher.java:1039)at javax.crypto.Cipher.implInit(Cipher.java:805)at javax.crypto.Cipher.chooseProvider(Cipher.java:864)at javax.crypto.Cipher.in…

Java基础(上)

Java的特性 简单易学(语法简单,上手容易); 面向对象(封装,继承,多态); 平台无关性( Java 虚拟机实现平台无关性); 支持多线程&…

什么是数据编织

What Is Data Fabric? 【dataCamp】 What Is Data Fabric? Data fabric is a unified data architecture that connects disparate data sources, simplifying access and management while ensuring consistency and security across the entire data landscape. Data Fa…

【设计模式】设计模式介绍和常见设计模式代码示例

文章目录 设计模式分类创建型模式结构型模式行为型模式 设计模式详解单例模式(Singleton Pattern)懒汉模式饿汉模式 工厂模式(Factory Pattern)简单工厂模式工厂方法模式抽象工厂模式 装饰模式(Decorator Pattern&…

设计模式的学习

OO:Object-Oriented 面向对象 --- 《Head First设计模式》 这本书是用java写的,我是写C的,用C来写相关的代码 --- p2(第二页) #ifndef DUCK_H #define DUCK_H/*** brief The Duck class 鸭子类*/ class Duck { public:D…

No.8 笔记 | SQL 查询语句:数据探索的钥匙

2024/10/7 心记 - 致在路上默默奋斗的你 在当今数字化的时代,网络安全已成为我们生活中不可或缺的一部分。它如同守护数字世界的隐形盾牌,保护着我们的隐私、数据和整个社会的稳定运行。 学习网络安全,是踏上一段充满挑战与机遇的征程。 每一…

软件设计师(软考学习)

数据库技术 数据库基础知识 1. 数据库中的简单属性、多值属性、复合属性、派生属性简单属性:指不能够再分解成更小部分的属性,通常是数据表中的一个列。例如学生表中的“学号”、“姓名”等均为简单属性。 多值属性:指一个属性可以有多个值…

【网络原理】面试高频考点!!TCP协议“三次握手,四次挥手”,保姆级详解,建议收藏!

💐个人主页:初晴~ 📚相关专栏:计算机网络那些事 通过上篇文章,我们可以得知TCP通过 “确认应答” 和 “超时重传”机制相辅相成,共同构建了 TCP的“可靠传输机制”。而为了保障建立通信和断开通信的可靠性…

解决磁盘负载不均——ElasticSearch 分片分配和路由设置

ES 分片分配(Shard Allocation)时间点: 初始恢复(Initial Recovery)副本分配(Replica Allocation)重平衡(Rebalance)节点添加或移除 小结: 准备移除节点时&a…

CAN转WiFi模块在仓库系统中应用

CAN转WiFi模块在仓库系统中应用 我们的LCWLAN设备在实际使用中以裸板的形式放在客户的智能总线控制器中,客户的智能总线刀片灯,柔性灯货架,柔性感应钢网柜以及智能电子料架等设备都是接到总线控制器中,然后总控制器通过CAN总线和…

Qt-QSpacerItem布局相关控件(45)

目录 描述 属性 使用 控件小结 描述 使⽤布局管理器的时候,可能需要在控件之间,添加⼀段空⽩.就可以使⽤ QSpacerItem 来表⽰ 属性 width宽度height⾼度hData⽔平⽅向的 sizePolicy • QSizePolicy::Ignored : 忽略控件的尺⼨,不对布局产⽣影响。 • QSizePol…

免费高可用软件

高可用软件是指那些能够提供高可用性、高可靠性的软件,它们在各种应用场景下都能确保系统的稳定运行。以下是四款免费的高可用软件,它们在不同领域都表现出色,能够满足各种高可用性需求。 一、PanguHA PanguHA是一款专为Windows平台设计的双…

贪心算法c++

贪心算法C概述 一、贪心算法的基本概念 贪心算法(Greedy Algorithm),又名贪婪法,是一种解决优化问题的常用算法。其基本思想是在问题的每个决策阶段,都选择当前看起来最优的选择,即贪心地做出局部最优的决…

网络通信——OSPF协议(基础篇)

这里基础是因为没有讲解OSPF中的具体算法过程,以及其中很多小细节。后续会更新。 目录 一.OSPF的基础信息 二.认识OSPF中的Router ID 三.OSPF中的三张表 四.OSPF中的度量方法(计算开销值) 五. OSPF选举DR和BDR(就是这个区域…