视觉位置识别与多模态导航规划

前言

机器人感知决策是机器人移动的前提，机器人需要对周围环境实现理解，而周围环境通常由静态环境与动态环境构成。机器人在初始状态或者重启时需要确定当前所处的位置，然后根据用户的指令或意图，开展相应移动或抓取操作。通过视觉感知确定机器人所处位置，同时如何根据感知结果确定移动方向是重要的研究方向。视觉位置识别（VPR）主要是从标记的图像数据库中搜索最佳匹配，来粗略估计查询地点图像的位置，可以归结为数据库构建与查询的过程。主要的问题是环境中有部分是动态环境，因此很多算法均是在固定场景进行实验，缺乏泛化性，如何根据环境实现机器人导航也面临着挑战。

方法

视觉位置识别

1、AnyLoc: Towards Universal Visual Place Recognition

AnyLoc旨在位置识别算法的通用性，包括任何地点（无缝地运行在任何环境中，包括空中、地下和水下），任何时间（对场景中的时间变化，如昼夜或季节变化，或对临时物体具有鲁棒性），以及跨任何视角（对视角变化具有鲁棒性，包括完全相反的视角。主要通过聚合从大规模预训练模型（基础模型）提取的每像素特征来实现这一目标，而无需进行任何训练或微调。

主要采用自监督特征（如DINOv2）和无监督聚合方法（如VLAD和GeM），用来提取每个像素特征，相较于直接使用现成模型的每个图像特征，可以获得显著的性能提升。通过评估局部特征对应的鲁棒性来说明这种密集ViT特征在VPR中的适用性。选择数据库图像上的一个点，将其与查询图像中的所有（每个像素）特征进行匹配，并绘制热图来指示这些点对应的可能性。请注意，即使存在语义文本和尺度变化（第一行），感知混淆和视角变化（第二行），以及低照明和相反视角（第三行），这些对应关系仍然是鲁棒的。

另外对聚合的局部特征进行语义属性的表征，揭示潜在空间中的不同领域，这可以进一步用于增强VLAD词汇构建，从而提升性能。从下图可以看出在室外数据中表现出较好的性能，代码已经开源，可以在HF中进行效果测试。

2、SelaVPR：Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition

文章主要考虑预训练模型产生的图像表示易受动态对象影响，并且倾向于忽略一些静态的区分性背景（例如建筑物和植被），因此基础模型没办法直接用于VPR任务，完全微调的话又会产生灾难性遗忘问题。SelaVPR主要通过向冻结的预训练模型添加一些可调节的轻量级适配器，实现全局-局部混合适应，既可以获取用于检索候选地点的全局特征，又可以获取用于重新排序的局部特征。

全局适应主要是通过在每个Transformer块的多头注意力层后添加适配器并与MLP层并行实现的。局部适应通过在整个Transformer主干后添加上卷积层来实现以对特征图进行上采样。此外，论文提出了最近邻局部特征损失，可以与常用的三元组损失结合使用来优化网络。SelaVPR消除了在重排中依赖耗时的空间验证，因此它仅耗费了RANSAC-based两阶段方法的3%检索时间。

视觉导航决策

Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill

大多数方法采用基于建图的方法实现开放词域物品导航，但是由于现有的大模型并不能直接理解地图形式的输入，此类方法往往有选择性的将地图某些区域翻译成文字，进而发挥出大模型的常识理解与推理能力。在这一过程中，从原始 RGB 观测-建图-文字损失大量的细节信息，不利于大模型实现更精准的规划。为了克服这类方法的问题，本文跳出基于建图的框架，提出了一种通用的 RGB 导航技能 PixelNav，此技能以指定像素位置作为导航目标，建立端到端网络学习从当前位置到像素目标对应坐标的移动轨迹。PixelNav 可无缝衔接多模态大模型的能力，实现任意类别物体的导航过程。