论文阅读:BEVBert: Multimodal Map Pre-training for Language-guided Navigation

BEVBert:语言引导导航的多模态地图预训练

摘要

现存的问题:目前大多数现有的预训练方法都采用离散的全景图来学习视觉-文本关联。这要求模型隐式关联全景图中不完整、重复的观察结果,这可能会损害智能体的空间理解

本文解决方案:提出了一种新的基于地图的具备空间感知能力的预训练范式,可用于 VLN。具体来说,我们构建一个局部度量地图来显式聚合不完整的观察结果并删除重复项,同时在全局拓扑地图对导航依赖性进行建模。这种混合设计可以平衡 VLN 对短期推理和长期规划的需求。 然后,基于混合地图,我们设计了一个预训练框架来学习多模态地图表示,这增强了空间感知的跨模态推理,从而促进了语言引导的导航目标。

大量实验证明了基于地图的 VLN 预训练路线的有效性,并且所提出的方法在四个 VLN 基准上达到了最先进的水平。

介绍

使用自然语言与助理机器人交互是一个长期目标。 为了实现这一目标,视觉和语言导航(VLN)被提出并引起了越来越多的研究兴趣[1-3]。 给定自然语言指令,VLN 代理需要解释并遵循指令才能到达所需位置。 加强视觉文本关联的学习对于智能体的成功至关重要。 受视觉语言预训练巨大成功的启发[4-9],多种VLN预训练方法被研究并取得了可喜的结果。

然而,大多数现有的 VLN 预训练模型都采用离散全景图(图 1(a))作为视觉输入,这要求模型隐式关联全景图视图中不完整、重复的观察结果。 这可能会妨碍智能体的跨膜态空间推理能力。 如图1(a)所示,很难推断出“书柜对面的第二间卧室”,因为在不同的视图中存在重复的“卧室”和“书柜”图像,因此很难区分它们是同一对象或多个实例的图像(也就是说很难去判断第1张图和第3张图是不是同一个卧室,或者哪个是书柜对面的卧室)。一个潜在的解决方案是将这些观察结果投影到一个统一的地图中,该地图明确聚合不完整的观察结果并删除重复的结果。 尽管该方案在许多导航场景中取得了成功[15-17],但其与预训练的结合仍有待研究,本文进行了首次探索。

在具身导航中,地图通常分为度量 [16, 18] 或拓扑 [17, 19]。 度量地图使用密集的网格特征来精确描述环境,但尺度效率低下[20]。 因此,使用大地图来捕获长视距导航依赖性可能会导致计算量过高[21],特别是对于计算密集型预训练而言。 然而,这种依赖性对于 VLN 来说至关重要[14,22]。 另一方面,拓扑图可以通过以图结构的形式跟踪访问过的位置来有效地捕获依赖性[17]。 它还允许代理制定有效的长期目标计划,例如回溯到之前的位置[23,24]。 然而,图中的每个节点通常由压缩的特征向量表示,缺乏用于局部空间推理的细粒度信息。

度量图是一种详细的环境表示方式,它准确记录了环境中各个物体的位置和尺寸,以二维或者三维的形式存在,能够提供关于环境中物理空间的精准度量信息。适用于需要精准控制和详细环境信息的情况。

拓扑图是一种更加抽象的环境表示方式,关注环境中各个位置之间的连接关系而不是具体的物理距离。这种地图通常由节点(代表特定位置或区域,如房间、走廊)和边(代表节点之间的连接,如门口或通道)组成,主要用于简化的路径决策和规划,它可以帮助机器人理解从一个区域到另一个区域的可达性。更适合于当环境比较大或者路径规划需要高效处理时使用。

在本文中,我们没有使用大型全局度量图,而是提出了一种混合方法来平衡上述两个图(如图 1 (b) 所示)。 它包含用于短期空间推理的局部度量地图,同时在全局拓扑图上执行总体长期行动计划。 该方案与机器人学中的经典拓扑测量 SLAM 具有相似的精神 [20,25],但其不同之处在于可学习的多模态表示。为了学习这种表示,我们提出了 BEVBert,这是一种新颖的基于地图的预训练范式,可以在鸟瞰图中学习更好的视觉文本关联,以帮助 VLN 智能体进行复杂的空间推理。具体来说:

1、BEVBert 首先基于大规模 VLN 视觉路径构建离线混合地图。

2、我们采用跨模态transformer进行地图-指令交互以获得多模态地图表示。

3、为了学习这种表示,除了语言建模[26]和动作预测[10]之外,我们还设计了一个地图预测代理任务。 该任务学习对语言和空间先验进行编码,以预测未观察区域的信息,从而减少决策的不确定性。

4、最后,我们通过顺序动作预测和在线构建的混合地图对模型进行微调。得益于学习到的地图表示,我们的代理学习了更强大的导航策略,并在四个 VLN 基准(R2R、R2R-CE、RxR、REVERIE)上实现了最先进的水平。

SLAM允许机器人在未知环境中同时进行定位和建图。SLAM技术可以分为经典的度量SLAM和拓扑SLAM两种形式,有时还会结合使用,称为拓扑度量SLAM。

度量SLAM的目标是在机器人探索环境的同时创建环境的精确度量地图,如三维地图或栅格地图,并在此过程中确定机器人的精确位置。

拓扑SLAM不那么注重地图的精确度量信息,而是更多地关注地图的结构,即环境中各位置点如何相互连接。它的重点在于建立环境的拓扑结构,这种结构更容易更新和维护,特别是在大型或复杂的环境中。

拓扑度量SLAM结合了上述两种方法的优点,创建了同时具有度量精确性和拓扑简洁性的地图。这种方法可以提供环境的详细度量视图,同时保持地图的拓扑关系,以便于进行路径规划和导航。通过结合这两种地图,可以在需要详细信息时使用度量图,在进行长距离导航或路径规划时利用拓扑图的优势。

本文的贡献如下:

1、首次探索 VLN 中的拓扑-度量图。所提出的混合方法在短期推理和长期规划之间呈现出很好的平衡。

2、提出了一种新颖的基于地图的预训练范式,并凭经验证明学习的地图表示可以增强空间感知的跨模式推理。

3、 BEVBert 在四个 VLN 基准测试中实现了最先进的水平。

方法

本文的方法侧重于基于地图的预训练来提高VLN智能体的规划能力。

问题定义

智能体根据指令W,在预定义的图G^*上遍历,以达到目标位置。在时间t,智能体的观测为O_t=\left \{ V_t,D_t,P_t \right \},其中V_tD_t为RGB图像和深度图构成的离散全景图,P_t是智能体的位姿信息。智能体的目标是训练一个策略\pi (a_i|W,O_t),预测一个动作a_t,其中动作是在候选集里选的(36个方向选其中1个)。VLN 数据集提供带注释的指令路径对来学习策略,即一个指令路径对由指令W和路径\Gamma =\left \langle O_1,...,O_T \right \rangle

模型Overview

如图2所示,我们的基于地图的预训练框架由两个模块组成,即拓扑-度量地图和多模态地图学习。 地图模块通过采样的专家路径构建离线混合地图(第 3.1 节)。学习模块进行地图-指令交互(第 3.2 节),然后通过三个预训练任务学习多模态地图表示(第 3.3 节)。 预训练后,使用在线构建的地图(第 3.4 节)对顺序动作预测任务对同一模型进行微调。

离线构建导航地图是指在机器人执行任务前,预先采集环境数据并在非实时环境中构建地图的过程,通常有几个步骤:数据采集、数据处理、地图优化。离线地图构建适用于环境相对固定不变,且对实时反应要求不高的场景。

在线构建导航地图是指在机器人执行导航任务的同时实时地构建和更新地图。这种方式通常用于环境动态变化大或未知的场景。其特点包括:实时数据采集和处理、根据更新的地图实时调整导航路径等。

拓扑-度量图

为了平衡 VLN 对长期规划和短期推理的需求,我们建议构建一个混合地图。如图2(a)所示,假设智能体当前处于步骤t,行走路径为\Gamma ^{'},我们构建全局拓扑图Gt和局部度量图Mt。接下来我们介绍如何构建这两个地图。

图像处理

对于每个时间步t的全景图V_t,使用预训练的Vit抽取特征向量V^p_t和缩小的网格特征V^g_t。深度图D_t缩小到和网格特征同样的比例,作为D^{'}_t

拓扑图

拓扑图G_t=\left \{ N_t, E_t \right \}由路径\Gamma ^{'}上已观测到的节点组成。给定\Gamma ^{'},我们通过从预定义的图G^*导出相应的子图来初始化G_t。节点N_t被分为已访问节点、当前节点和幽灵节点,其中幽灵节点表示在路径\Gamma ^{'}上,但是还未被探索到的可导航节点。边E_t记录了所有相邻节点的欧氏距离。我们将特征向量V^p_{*}映射到节点上作为他们的视觉表示。例如,在时刻t,V^p_t首先被pano编码器(一个两层的transformer)编码,以获取上下文视图的embedding\hat{V} _t^p。由于已访问的节点已经被看到,当前节点也可以从全景图获得,因此将这两类型的节点表示为全景图embedding的平均值,即\left ( \hat{V} _t^p \right ) \in \mathbb{R}^D,其中D是embedding的维度。幽灵节点是部分被观测的,因此通过计算嵌入节点可被观测到的部分的视觉embedding作为表征。

此外,我们为G_t构建了一个用于长期规划的全局动作空间\mathcal{A} ^G,该空间包含所有的被观测到的节点。

度量图

基于网格的度量图M_t\in \mathcal{R} ^{U\times V\times D}以当前节点为中心进行局部构建。我们将M_t定义为一个以自我为中心的地图,其中每个格子表示一个D大小的潜在特征,代表周围布局的一个小区域。我们将网格的视觉特征V^g_{*}映射到网格上来表示地图。由于M_t是一种局部表示,可以从当前节点的附近访问过的节点观察到,因此我们集成了周边访问过的节点的网格特征来构建地图。

具体来说,假设当前的节点是n_i,我们首先查询拓扑图G_t,来获取其附近k阶内访问过的节点:\mathcal{N}_k=\left \{ n_j|order(n_i,n_j)\le k \right \}。然后,将\mathcal{N}_k个节点的网格特征V^g_{*}结合起来,并且使用与之对应的D^{'}_*h和P_*,把它们以当前节点为中心,进行投射。最终投影特征被离散化到二维空间网格特征M_t中,使用元素平均池化来处理单元格中的特征碰撞。我们为M_t配备了用于短期推理的局部动作空间\mathcal{A} ^M,该空间由当前节点及其相邻节点组成。我们通过将这些节点的姿态投影到地图上来计算这些节点在M_t上的坐标,即“节点→单元”。

特征碰撞,即多个物理特征或观测数据被错误地映射到同一个栅格或相邻栅格中,从而引起数据的冲突或混淆。在栅格地图中,环境被划分为许多小的、固定尺寸的单元格,每个单元格存储关于该区域是否可通行的信息,空间分辨率过大、传感器误差或覆盖、动态环境的更新都可能引发特征碰撞问题。为了减少特征碰撞,我们可以使用更小的栅格尺寸、将多传感器的数据进行融合、持续更新和验证地图等。

预训练模型

如图 2 (b) 所示,然后我们将第 3.1 节中获得的混合图\left ( G_t,M_t \right )输入到预训练模型中以获得多模态图表示。 预训练模型包含拓扑图编码器和度量图编码器,它们分别将指令WG_tM_t融合。输出随后被输入到三个预训练任务中,以学习面向导航的多模态地图表示(第 3.3 节)。

文本编码器

指令W中的每个词嵌入都添加了位置嵌入[26]和文本类型嵌入[5]。 然后,所有嵌入都被输入多层transformer,以获得上下文词嵌入 \tilde{W}

拓扑图编码器

该模块采用拓扑图G_t和编码指令\tilde{W}进行节点级跨模态融合。

Node embedding

每个节点特征n_i\in N_t都添加了位置嵌入和导航步骤嵌入。位置嵌入是通过每个节点到当前节点的相对方向和欧几里德距离来计算的。步骤嵌入是当前节点和已访问过的节点之间的最新访问步长,对于幽灵节点,是0。我们在图中添加一个零向量“停止”节点n_0来表示停止动作,并将其与所有其他节点连接。

跨模态长期transformer

编码后的节点和词嵌入被输入多层transformer以进行节点级跨模态融合。 每层的架构与LXMERT类似,包含一个双向交叉注意子层、两个自注意子层和两个前馈子层。 在[24]的基础上,我们用图感知自注意(GASA)替换视觉自注意子层,它引入了用于节点编码的图拓扑。输出是节点-指令相关的表示\left ( \tilde{N}_t,\tilde{W}^G \right )

度量图编码器

该模块采用度量图M_t和编码指令\tilde{W}进行单元级跨模态融合。

cell embedding

对于每个网格特征m_{u,v}\in M_t,添加了位置嵌入p_{u,v}和导航嵌入n_{u,v}。为了捕获代理与周围房间布局之间的关系,我们为每个单元设计了一个以自我为中心的位置嵌入:

其中\theta _{u,v}dis_{u,v}表示一个单元格相对于智能体位置的相对航向和归一化距离。

 对于位于局部动作空间\mathcal{A} ^M中的单元,导航嵌入被设置为1,否则设置为0。 

位置和导航嵌入都线性转换为 D 维。

跨模态短期transformer

编码后的单元和词嵌入被输入多层transformer以进行跨模态融合。 每层架构与第 3.2.2 节中的类似,但使用自注意力进行单元编码而不是 GASA。 短期transformer对细粒度(单元级)地图表示进行跨模态推理,这有利于推理复杂的空间关系,例如“进入楼梯右侧第二个走廊”。 输出是与单元指令相关的表示\left ( \tilde{M}_t,\tilde{W}^M \right )

预训练任务

我们设计了三个任务来学习3.2节获得的多模态地图表示。

Masked Language Modeling(MLM)

MLM 是 BERT 预训练中最常用的代理任务。对于VLN任务,MLM的目标是通过推理周围的单词W_{\setminus m}和混合地图,恢复屏蔽词W_m。准确地说,我们首先以 15% 的概率随机屏蔽指令的输入标记,然后进行地图-指令交互,如第 3.2 节中所述。 为了学习长期和短期推理,我们讲获得的\tilde{W}_{\setminus m}^G\tilde{W}_{\setminus m}^M相加,然后将其输入 MLM 头,该任务通过最小化负对数似然来优化:

其中D表示训练数据集,\theta表示可训练参数。

Hybrid Single Action Prediction (HSAP)混合单动作预测

HSAP 旨在有利于下游目标:预测导航操作。我们的模型在全局动作空间\mathcal{A} ^G预测一个整体的动作。为了制定更稳健的行动计划,我们将度量地图的短期推理结果集成到拓扑图中。

具体来说,我们首先使用单元到节点(3.1节的逆操作),完成局部动作空间\mathcal{A} ^M转换到全局动作空间\mathcal{A} ^G,即\tilde{M}_t^{'}=\left \{ \tilde{m}_i|i\in \mathcal{A} ^{G^{'}} \right \},其中\mathcal{A} ^{G^{'}}\mathcal{A} ^G的子集。

然后使用两个前向神经网络预测节点\tilde{n}_i\in \tilde{N}_t和单元\tilde{m}_i\in \tilde{M^{'}}_t的导航分数,并且根据智能体的状态融合它们:

其中\delta _t=Sigmoid(FFN(\left [ \tilde{n} _0;\tilde{m}_{c,c} \right ] ))\tilde{n} _0表示填充的stop节点,\tilde{m}_{c,c}表示智能体的状态。

在大多数 VLN 任务中,不需要代理重新访问节点,因此我们mask访问过的节点的分数。我们通过融合分数\left \{ s_i \right \}和教师动作a_t^{*}的交叉熵损失进行优化:

Masked Semantic Imagination (MSI) mask语义想象

我们注意到度量图M_t上存在一些未观察到的区域,这给决策带来了不确定性。 为了缓解这个问题,我们建议 MSI 使代理能够通过对指令和部分观察到的地图进行推理,来想象未观察到的区域的信息。

具体来说,我们首先以15%的经验概率随机屏蔽度量图M_t的单元来模拟未观察到的区域。然后用指令W和掩码地图M_{t,\setminus m}进行交互。最后MSI头强制模型预测语义掩码区域的语义S。度量图的每个单元可能包含多种语义;,因此,该任务被表述为多标签分类问题,并通过二元交叉熵损失进行优化:

其中,S_i表示对应于第 i 个语义类 (C = 40),我们从 Matterport3D 数据集中获取这些标签。

训练和推理

训练

首先混合第 3.3 节中的三个任务,用离线专家数据预训练模型。

为了避免过度拟合专家经验,我们随后通过顺序动作预测来微调模型。在微调阶段,拓扑图G_t在线更新。如图3所示,在步骤t,我们通过将新观察到的节点添加到G_{t-1}并更新节点状态来获得G_t(模拟器会提供每一步的导航节点)。 对于微调中​​的轨迹,我们交替运行“教师强制”和“学生强制”[1]。 “教师强迫”相当于等式5,代理始终执行教师动作。在“学生强迫”中,在每一步,下一个动作都是从预测分数分布(等式4)中采样并由伪标签监督[24]。

推理

在测试过程中的每个步骤中,智能体都会在线构建一个类似于微调阶段的混合地图,然后在该地图上执行跨模态推理,如第 3.2 节中所述。 在 VLN 的单次运行设置之后,代理贪婪地选择具有最大预测分数(方程 4)的节点(幽灵节点或“停止”节点)作为下一个动作 如果所选节点是长期动作(与当前节点不相邻),则智能体在当前拓扑图上使用 Dijkstra 算法规划到达所选节点的最短路径。 如果代理选择“停止”节点或达到最大操作步骤,它将停止。

实验

我们在 R2R [1]、R2RCE [27]、RxR [3] 和 REVERIE [2] 数据集上评估所提出的方法。 R2R、R2R-CE 和 RxR 专注于细粒度指令跟踪,而 R2R-CE 是连续环境中 R2R 的变体,RxR 提供更详细的路径描述(例如,对象及其关系)。 REVERIE 是一项使用粗粒度指令的目标导向任务,例如“前往入口通道并清洁咖啡桌”。

评估指标

轨迹长度(TL):平均路径长度(以米为单位);

导航误差 (NE):最终位置和目标位置之间的平均距离(以米为单位);

成功率(SR):NE小于3米的路径的比例;

Oracle SR(OSR):给定oracle停止策略的SR;

SPL;

NDTW;

SDTW

Object Grounding指标

我们使用RGS和RGSPL来评估物体grounding的能力。

除TL和NE外,所有指标均越高越好。

实现细节

图片处理和地图

我们将 RGB 图像调整大小并集中裁剪为 224 × 224。按照 [42, 67],我们使用 ViT-B/16-CLIP [51] 来提取视觉特征。网格视觉特征的尺度为14×14(在ViT的MLP头之前输出)。 我们将度量地图比例尺设置为21×21,每个单元代表一个边长为0.5m的正方形区域(因此整个地图为10.5m×10.5m)。

训练细节

我们模型中的可训练模块包括第 3.1 节中的全景编码器、文本编码器和两个地图编码器。 对于所有数据集,我们首先使用 4 个 NVIDIA Tesla A100 GPU 以批量大小 64 进行 10 万次迭代的离线预训练 BEVert(约 10 小时)。 我们分别使用 Prevalent [10]、RxR-Markey [69] 和 REVERIE-Spk [24] 合成指令作为 R2R/R2RCE、RxR 和 REVERIE 上的数据增强。我们选择具有最佳零样本性能的预训练模型(例如,R2R/R2R-CE 上的 SR + SPL、RxR 上的 SR + NDTW、REVERIE 上的 SR + RGS)作为下游微调的初始化。然后,我们使用替代的教师强制和学生强制在模拟器中在线微调模型,批量大小为 16,在 4 个 NVIDIA Tesla A100 GPU 上进行 40k 次迭代(约 20 小时)。 最佳迭代是通过验证未见分割的最佳性能来选择的。

SOTA

R2R

与同样使用度量映射的 Chasing [62] 相比,我们的改进是巨大的(在测试中未见的分割上 ↑ 40 SR 和 ↑ 32 SPL)。 我们将此归因于我们的混合地图设计,它平衡了短期推理和长期规划,而Chasing则采用度量地图,导致长期规划能力不理想。 此外,Chasing 是从头开始训练的,而 BEVbert 通过所提出的预训练框架获得了卓越的泛化能力。

R2R-CE

图 2 显示了 R2R-CE 数据集上的结果。 我们调整第 3.1 节中的拓扑映射过程,以使 BEVbert 适应连续环境。具体来说,在每一步中,代理都会预测一组路径点[70]并将它们组织为类似于[50]的拓扑图。 BEVbert 在 R2R-CE 数据集上设置了新的 SoTA,与仅拓扑图的 ETPNav 相比,SR 提高了 4 倍,SPL 提高了 2 倍 [50]。 这进一步凸显了所提出的混合地图的功效。

RXR

RxR 比 R2R 更具挑战性,因为它的路径更长并且涉及更详细的路径描述。 凭借细粒度的度量映射,BEVBert 能够熟练地处理这些复杂的指令,并取得了相当大的进步。

REVERIE

与 DUET 相比,测试未见分割的改进不太明显。 我们将其归因于 val unseen 和 test unseen 分割之间的分布变化。

定量和定性分析

定量分析

我们的目标是评估 BEVbert 在涉及空间推理的指令上的表现,例如“进入楼梯右侧第二个走廊”。 因此,从 R2R 和 RxR val 看不见的分割中,我们首先提取包含空间标记(例如“左边”、“最右边”)或数字标记(例如“第二”、“第四”)的相关指令。 智能体的推理能力可以从它遵循这些指令的程度来推断。 我们在图 4 中比较了 BEVert 和 SoTA 方法在这些指令上的性能。随着每条指令中特殊标记数量的增加,所有模型的性能都呈现下降趋势,这表明空间推理是现有方法的瓶颈。 然而,BEVbert 始终优于这些同行,尤其是在包含更多空间描述的 RxR 数据集上。 这凸显了 BEVbert 在空间推理方面的优越性。

定性分析

我们在图 5 中可视化 BEVbert 和 DUET [24] 的预测路径。DUET 使用离散全景进行局部推理,导致空间推理能力不理想。 例如,它没有严格遵循说明(例如“在厨房柜台之间走”、“在沙发后面走”)并导致错误的端点。 相比之下,由于明确的空间表示,BEVbert 可以解释这些复杂的描述并做出正确的决策。

消融实验

我们进行了大量的实验来评估 BEVert 的关键设计选择。 结果报告为 R2R val 未见分割,并突出显示了主要指标。

地图变体的比较

图 5 展示了使用不同地图变体训练的模型的结果。第 1 行仅使用拓扑图进行动作预测。它达到了不错的 70.25 SR,但由于缺乏局部空间推理的度量信息,与混合地图(第 5 行、第 6 行)存在明显差距(∼ 4.5 SR)。第2行进一步将深度特征 [78] 融合到拓扑图的节点表示中,但没有增益。这表明简单的深度融合不能提高空间推理能力。 第 3 行和第 4 行仅使用度量地图,导致 TL 较高,且导航性能(OSR 和 SR)较差,因为智能体缺乏长期规划能力并进行了一些无效的探索。在第 5 行和第 6 行中,应用所提出的拓扑-度量图时,导航性能大幅提高。 这表明所提出的混合地图是上述两个地图之间的良好权衡,可以实现长期和短期的平衡决策。

sensing:真实深度,

estimated:估计深度

†表示在地形图设置中融合深度特征

真实深度指的是通过精确的测量工具或传感器(如激光雷达、结构光传感器等)获得的深度数据。这些数据直接反映了观察场景中各个物体的精确距离,因此它们是非常准确的,并可以直接用于计算和理解环境的三维结构。

估计深度是指通过算法或模型从二维图像中推算出的深度信息。这种方法依赖于计算机视觉技术,尤其是深度学习模型,通过分析图像的视觉线索(如纹理渐变、大小变化、透视信息等)来估算场景中各个物体的距离。

对深度传感器的依赖

我们采用域内预训练的 RedNet [79] 进行深度估计,然后研究 BEVbert 对深度传感器的依赖性。如图 5 所示(第 3 行与第 4 行、第 5 行与第 6 行),应用估计深度进行度量映射时几乎没有性能下降。 这表明我们的方法并不高度依赖精确的深度感测。 主要原因是我们的度量图是在特征空间中构建的,其中我们使用粗糙的网格深度(例如,14×14)进行特征投影。 我们相信 BEVbert 有潜力扩展到无法使用深度传感器的合成环境 [41, 80] 的大规模训练中。

预训练任务的影响

图6说明了不同预训练任务的效果。 第 1 行从头开始训练模型。 它的性能最差,因为学习的地图缺乏通用的多模态表示。 通过通用 MLM 任务,第 2 行可以实现不错的性能(例如 73.52 SR 和 60.13 SPL)。 然而,TL 较高,因此导致与第 3 行和第 4 行相比,具有较低的 SPL。在第 3 行中,TL 降低,并且在应用 HSAP 任务后 SPL 显着增加(例如,第 2 行 ↑ 2.90 SPL)。 它表明动作预测任务有利于学习动作通知的地图表示以实现高效导航。 第 4 行进一步提高了建议的 MSI 任务的导航性能(例如,与第 3 行相比,SR ↑ 0.85 SR 和 SPL ↑ 0.57)。 潜在的原因是智能体学会想象未观察到的区域并减少决策的不确定性,这有助于概括未见过的环境。

度量地图的比例和大小

表7报告了 BEVbert 使用不同尺度和大小的度量图以及短期 Transformer flops的性能。 随着地图大小的增加(第 2 行与第 1 行),性能呈上升趋势,因为代理可以感知边界范围内的环境。当网格大小减小时,第 3 行的表现略好于第 2 行,这有助于更好地感知微小物体。 随着地图尺度的增大,第4行的性能提升并不明显。 潜在的原因在于用于捕获远程导航依赖需要使用拓扑图; 因此,大的度量地图只会带来边际效益。 另一方面,较大的度量地图会导致大量计算。因此,第 3 行是我们的默认设置。

度量图的多步积分效果

我们在第 3.1 节中设计了一种用于度量图的局部集成策略,它结合了 κ 阶内访问节点的历史观察结果。图8呈现κ的效果。 当 κ = 0 时,度量图仅根据当前节点的观测值构建。 由于缺乏历史信息,它的性能最差,这可能会使智能体无法理解提到的短期时间依赖性,当合并一阶历史观测值时,第 2 行比第 1 行将 SPL 提高了 1.23,但随着第 3 行中 κ 的增加,没有更多增益。因为一阶积分对于小型局部地图来说已经足够了。

视觉特征

BEVbert 通过 CLIP 预训练功能实现了更好的性能,如表 9 所示。 Imagenet 特征可能缺乏多样化的视觉概念,因为它们是通过专注于图像显着区域的单一热分类任务来学习的。 相比之下,CLIP 特征是通过大规模图像文本匹配来学习的,其中视觉网格特征是通过不同的语言概念来了解的[67],这更适合度量图。

总结

在本文中,我们首先设计了一个混合图来平衡 VLN 对短期推理和长期规划的需求。 基于混合图,我们提出了一种新的预训练范例 BEVbert,以学习显式空间表示中的视觉文本关联。 我们凭经验验证学习的多模态地图表示可以增强空间感知的跨模态推理并促进最终的语言引导导航目标。 大量的实验证明了所提出方法的有效性,并且 BEVbert 达到了最先进的水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/827567.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TikTok账号0播放是限流了吗?想要播放破万,试试这些方法!

前言 账号0播放问题,想必困扰着许多的TikTok运营同学。精心制作的短视频发布在TikTok,不是零播放,就是仅自己可见。那么,TikTok账号0播放是不是真的意味着被限流了呢?本篇总结了账号0播放的原因并附上解决方案&#xf…

[Flutter3] Json转dart模型举例

记录一下 Android studio plugin -> FlutterJsonBeanFactory 处理json转dart 模型 案例 json字符串, 一个 response的data返回数据 {"code":1,"msg":"\u64cd\u4f5c\u6210\u529f","data":{"list":{"id":"8…

SwiftUI 5.0(iOS 17.0)触摸反馈“震荡波”与触发器模式趣谈

概览 要想创作出一款精彩绝伦的 App,绚丽的界面和灵动的动画并不是唯一吸引用户的要素。有时我们还希望让用户真切的感受到操作引发的触觉反馈,直击使用者的灵魂。 所幸的是新版 SwiftUI 原生提供了实现触觉震动反馈的机制。在介绍它之后我们还将进一步…

等保测评之主机测评详解(二级)

等保测评之主机测评详解(二级)服务器——Windows 身份鉴别: 测评项a): a)应对登录的用户进行身份标识和鉴别,身份标识具有唯一性,身份鉴别信息具有复杂度要求并定期更换; 整改方…

antd中Upload上传图片宽高限制以及上传文件的格式限制

项目中有一个需求,要上传轮播图,且有尺寸要求,所以就需要在上传图片的时候进行尺寸限制,使用了Upload组件,需要在组件的beforeUpload方法中进行限制。 定义一个上传前的方法,并且添加一个图片尺寸获取的方…

【Redis】Zset 数据类型

文章目录 常用命令zaddzcard & zcountzrange & zrevrangezpopmax & bzpopmaxzpopmin & bzpopminzrank & zrevrankzscore & zremzremrangebyrank & zremrangebyscorezincrby 多个集合间的交互命令交集 & zinterstore并集 & sunionstore 内部…

【声呐仿真】学习记录0.5-配置ssh远程连接docker、在docker中使用nvidia显卡

【声呐仿真】学习记录0.5-配置ssh远程连接docker、在docker中使用nvidia显卡 配置ssh远程连接docker1.端口映射2.配置ssh 在docker中使用nvidia显卡配置CUDA 注意:之前已经创建过容器的,需要打包成镜像,重新创建容器,因为要在创建…

【C++庖丁解牛】C++11---右值引用和移动语义

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 1 左值引用和右值引用2 左…

第一个Spring Boot程序

目录 一、Spring Boot介绍 二、创建Spring Boot项目 1、插件安装(专业版不需要) 2、创建SpringBoot项目 (1)这里如果插件下载失败,解决方案: (2)项目启动失败,解决…

web测试基础知识

目录 web系统的基础 web概念(worldwideweb) 网络结构 发展 架构 B/S C/S P2P 工作原理 静态页面 动态页面 web客户端技术 浏览器的核心--渲染引擎 web服务器端技术 web服务器 应用服务器 集群环境 数据库 案例-URL 协议类型 主机名 端口 IP地址 分类 …

C#开发的全套成熟的LIS系统源码JavaScript+SQLserver 2012区域云LIS系统源码

C#开发的全套成熟的LIS系统源码JavaScriptSQLserver 2012区域云LIS系统源码 医院云LIS系统是一套成熟的实验室信息管理系统,目前已在多家三级级医院应用,并不断更新。云LIS系统是为病人为中心、以业务处理为基础、以提高检验科室管理水平和工作效率为目标…

贪心算法练习day.1

理论基础 贪心算法是一种常见的解决优化问题的方法,其基本思想就是在问题的每个决策阶段,都选择当前看起来最优的选择,即贪心地做出局部的最优决策,以此得到全局的最优解,例如在十张面额不同的钞票,让我们…

润申信息企业标准化管理系统 AddNewsHandler.ashx 任意用户创建漏洞复现

0x01 产品简介 润申信息科技企业标准化管理系统通过给客户提供各种灵活的标准法规信息化管理解决方案,帮助他们实现了高效的标准法规管理,完成个性化标准法规库的信息化建设。 0x02 漏洞概述 润申信息企业标准化管理系统 AddNewsHandler.ashx 接口处存在任意用户创建漏洞,…

Linux安装部署Tomcat

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ Linux安装部署Tomcat //将tomcat压缩包解压到对…

python识别电脑是windows还是linux

代码实现 import osif os.name nt:print(当前操作系统是 Windows) elif os.name posix:print(当前操作系统是 Linux 或 Unix 类型的系统) else:print(未知的操作系统)

kubernetes中的副本控制器rc(replicationcontrollers)和rs(replicasets)

一、rc控制器replicationcontrollers rc控制器就是控制相同pod副本数量 使用rc控制器资源创建pod,设定创建pod资源的数量 1.1 案例 1.1.1、创建资源清单 [rootmaster rc-demo]# cat rc.yaml apiVersion: v1 kind: ReplicationController metadata: name: rc01 …

个人搭建alist网盘的经验记录备忘

1、搭建宝塔LINUX面板,安装Docker 2、添加仓库 3、从镜像拉取xhofe/alist:latest 4、添加容器 5、新建一个网站,别忘记申请个SSL证书,重要的是反向代理 6、新建个mysql数据库 7、修改alist数据库的链接地址,方便自己备份&a…

如何有效地进行汽车制造业文件共享,一文了解

随着数字化转变,企业的业务文件大多通过电子形式在内外部流转。这增加了外发文件数据泄露或被篡改的风险,如何保护外发文件安全已成为企业不容忽视的课题。其中汽车制造业是一个高度依赖文件共享与协作的行业,涉及设计图纸、技术文件、供应链…

Docker命令总结

一.Docker常用命令总结 1.镜像命令管理 指令描述ls列出镜像build构建镜像来自Dockerfilehistory查看历史镜像inspect显示一个或多个镜像的详细信息pull从镜像仓库拉取镜像push推送一个镜像到仓库rm移除一个或多个镜像prune一处未使用的的镜像,没有被标记或被任何容…

【用户投稿】Apache SeaTunnel 2.3.3+Web 1.0.0版本安装部署

项目概要 Apache SeaTunnel 是一个分布式、高性能、易扩展的数据集成平台,用于实时和离线数据处理,支持多种数据源之间的数据迁移和转换。 其中,Apache-seatunnel-web-1.0.0-bin.tar.gz和apache-seatunnel-2.3.3-bin.tar.gz代表了 Apache SeaTunnel Web…