MASt3R:从3D的角度来实现图像匹配(更新中)

Abstract

        图像匹配是 3D 视觉中所有性能最佳算法和pipeline的核心组件。 然而,尽管匹配从根本上来说是一个 3D 问题,与相机姿态和场景几何结构有内在联系,但它通常被视为一个 2D 问题。因为匹配的目标是建立 2D 像素字段之间的对应关系,但这是一个具有潜在危险的选择。 在这项工作中,我们换一种视角,使用 DUSt3R(一种基于 Transformers 的最新且强大的 3D 重建框架)将匹配作为 3D 任务

         该方法基于点图回归,在匹配具有极端视点变化的视图方面显示出令人印象深刻的鲁棒性,但精度有限。 我们的目标是提高这种方法的匹配能力,同时保持其稳健性。首先, 我们建议用一个新的神经网络头来增强 DUSt3R 网络,该头输出密集的局部特征,并用额外的匹配损失进行训练。 进一步,我们解决了密集匹配的二次复杂度问题,如果不仔细处理,下游应用程序的速度会变得非常慢。 我们引入了一种快速相互匹配方案,该方案不仅可以将匹配速度提高几个数量级,而且还具有理论保证。大量实验表明,我们的方法在多个匹配任务上显着优于现有技术。 特别是,在极具挑战性的无地图定位数据集上,它的 VCRE AUC 比最好的已发布方法高出 30%(绝对改进)。

1.Introduction-我们要解决什么问题?如何解决?

        能够在同一场景的不同图像之间建立像素之间的对应关系(称为图像匹配),构成了所有 3D 视觉应用的核心组件,spanning mapping [14,61]、local-ization [41,72], navigation [15], photogrammetry摄影测量 [34,64] and autonomous robotics in general一般自主机器人技术 [63,87],例如,最先进的视觉定位方法绝大多数依赖于离线映射阶段的图像匹配,例如 使用 COLMAP [75],以及在线本地化步骤,通常使用 PnP [30]。在本文中,我们专注于这一核心任务,目标是在给定两个图像的情况下生成一个成对对应列表,表示为匹配。 特别是,我们寻求输出高度准确和密集的匹配,这些匹配对视点和照明变化具有鲁棒性,因为这些最终是现实世界应用的限制因素[36]。

        传统方法是基于局部的方法,实际上,全局信息也很关键

        在过去,传统的匹配方法是分三步进行的,首先提取稀疏和可重复的关键点,然后用局部不变的特征来描述它们,最后通过比较关键点在特征空间中的距离来配对离散的关键点集。这条管道有几个优点:关键点检测器在低到中等光照和视点变化下都是精确的,关键点的稀疏性使问题在计算上很容易处理,无论何时在类似条件下查看图像,都能在毫秒内实现非常精确的匹配。这解释了SIFT[52]在COLMAP[75]这样的3D重建管道中的成功和持久性。

        但是,基于关键点的方法通过减少对关键点包问题的匹配,丢弃了对应任务的全局几何上下文 这使得它们在重复模式或低纹理区域的情况下特别容易出错,这实际上对于局部描述符来说是不适定的解决这个问题的一种方法是在配对步骤中引入全局优化策略,通常利用一些学习到的匹配先验知识,SuperGlue 和类似的方法成功实现了 [51,72]。 然而,如果关键点及其描述符尚未编码足够的信息,那么在匹配期间利用全局上下文可能为时已晚。 因此,另一个方向是考虑密集整体匹配,即完全避免关键点,并一次匹配整个图像。 最近随着cross-attention的出现,这成为可能[96]。 这样的方法,如 LoFTR [82],将图像视为一个整体,并且生成的对应集是密集的,并且对于重复模式和低纹理区域更稳健 [43,68,69,82]。

匹配任务的制定本质上是一个 3D 问题,但是现有很多方法仍然没有考虑这一点,所以我们从3D角度来重新考虑这个问题

        尽管如此,即使像 LoFTR [82] 这样表现最好的方法,在无地图定位基准上的 VCRE 精度也相对令人失望,为 34%。 我们认为这是因为到目前为止,几乎所有匹配方法都将匹配视为图像空间中的二维问题。 实际上,匹配任务的制定本质上是一个 3D 问题:对应的像素是观察相同 3D 点的像素。 事实上,2D 像素对应和 3D 空间中的相对相机姿态是同一枚硬币的两个面,因为它们通过对极矩阵直接相关[36]。 目前在 Map-free 基准测试中表现最好的是 DUSt3R [102],这种方法最初是为 3D 重建而不是匹配而设计的,并且匹配只是 3D 重建的副产品,但是这个方法在匹配问题中具有很大潜力。

        在本文中,我们指出,虽然 DUSt3R [102] 确实可以用于匹配,但它相对不精确,尽管对视点变化非常鲁棒。 为了弥补这个缺陷,我们建议附加第二个头来回归密集的局部特征图,并使用 InfoNCE 损失对其进行训练。 由此产生的架构称为 MASt3R(“匹配和立体 3D 重建”),在多个基准测试中均优于 DUSt3R。 为了获得像素精确的匹配,我们提出了一种从粗到细的匹配方案,在此方案中在多个尺度上执行匹配。 每个匹配步骤都涉及从密集特征图中提取相互匹配,这可能与直觉相反,这比计算密集特征图本身要耗时得多。 我们提出的解决方案是一种更快的算法,用于查找相互匹配,速度几乎快两个数量级,同时提高了姿态估计质量。 总而言之,我们提出了三个主要贡献。 首先,我们提出 MASt3R,这是一种基于最近发布的 DUSt3R 框架构建的 3D 感知匹配方法。 它输出局部特征图,可实现高度准确且极其稳健的匹配。 其次,我们提出了一种与快速匹配算法相关的从粗到细的匹配方案,能够处理高分辨率图像。 第三,MASt3R 在几个绝对和相对姿势定位基准上显着优于最先进的技术。

2.Relation work-当前的几类匹配方法

        关键点匹配:分三个不同的阶段进行:关键点检测、局部不变描述和描述符空间中的最近邻搜索。 相比于传统方法如 SIFT [52,71] ,现代方法已经转向基于学习的数据驱动方案来检测关键点 [8,60,97,117],描述它们 [7,33, 37,88] 或 两者同时进行[10,21,53,54,70,98]。 总体而言,基于关键点的方法在许多基准测试中占主导地位[7,35,44,77],强调了它们在需要高精度和速度的任务中的持久价值[19,77]。 然而,一个值得注意的问题是它们减少了与局部问题的匹配,即放弃了其整体性。 因此,SuperGlue 和类似的方法 [51, 72] 建议在最后的配对步骤中执行全局推理,利用更强的先验来指导匹配,同时将检测和描述留在本地。 虽然成功,但它仍然受到关键点的局部性质及其无法对强烈的观点变化保持不变的限制。

        稠密匹配与基于关键点的方法相比,半密集[11,16,43,46,82,85]和密集方法[27,28,29,58,92,93,94,122]为建立图像对应提供了不同的范例 ,考虑所有可能的像素关联。 很容易让人想起光流方法[22,40,42,79,80,86],它们通常采用从粗到细的方案来降低计算复杂性。 总的来说,这些方法旨在从全局角度考虑匹配,但代价是增加计算资源密集匹配已被证明在详细的空间关系和纹理对于理解场景几何至关重要的场景中是有效的但是这些方法仍然将匹配视为二维问题

        相机姿态估计:该技术差异很大,但最成功的策略,在速度、准确性和鲁棒性权衡方面,基本上都是基于像素匹配[73,75,105]。 匹配方法的不断改进促进了更具挑战性的相机姿态估计基准的引入,例如 Aachen Day-Night、InLoc、CO3D 或 Map-free [5, 67,84,118],所有这些都具有强烈的视点和/或照明变化。

3D Grounding matching:利用场景物理属性的先验来提高准确性或鲁棒性在过去已被广泛探索,但大多数先前的工作只是利用极线约束进行对应的半监督学习,而没有任何根本性的改变[9,38,47,101,108,111,114,120 ]。 托夫特等人。 [89]则提出通过使用从现成的单目深度预测器获得的透视变换来校正图像来改进关键点描述符。 最近,姿势 [100] 或射线 [116] 的扩散,尽管严格来说并不匹配方法,但通过将 3D 几何约束纳入其姿势估计公式中,显示出了有希望的性能。 最后,最近的 DUSt3R [102] 探索了从未校准图像的 3D 重建先验困难任务中恢复对应关系的可能性。 尽管没有经过明确的匹配训练,但这种方法产生了有希望的结果,在无地图排行榜上名列前茅[5]。 我们的贡献是通过回归局部特征并显式训练它们进行成对匹配来实现这一想法。

3.Method

        给定两个图像 𝐼1 和 𝐼2,分别由参数未知的两个相机 𝐶1 和 𝐶2 拍摄,我们希望恢复一组像素对应关系 {(𝑖, 𝑗)},其中 𝑖, 𝑗 是像素 𝑖 = (𝑢𝑖, 𝑣𝑖), 𝑗 = (𝑢 𝑗, 𝑣𝑗) ∈ {1, . 。 。 , 𝑊}×{1, . 。 。 , 𝐻}, 𝑊, 𝐻 分别是图像的宽度和高度。 我们的方法如图所示。 2,旨在联合执行 3D 场景重建并匹配给定的两个输入图像。 它基于 Wang 等人最近提出的 DUSt3R 框架 [102]。我们首先在第 3.1 节中回顾,然后在第 3.2 节中提出我们提出的匹配头及其相应的损失。 然后,我们在 3.3 节中介绍了一种专门设计用于处理密集特征图的优化匹配方案,我们在 3.4 节中将其用于从粗到细的匹配。

3.1 DUSt3R

        DUSt3R是输入两个视角的图片,通过auto-encoder框架,利用交叉注意力联通了两个视角的全局信息,最后网络输出对应视角的pointmap以及confidence,pointmap在深度真实值的基础上计算。大家可以查看这篇文章(DUSt3R:Geometric 3D Vision Made Easy)或者我的另一篇文章:

InstantSplat论文阅读-CSDN博客icon-default.png?t=O83Ahttps://blog.csdn.net/m0_74310646/article/details/141145147?spm=1001.2014.3001.5501

其中,有两个关键个loss,一个是pointmap的,另一个是confidence的

3.2 Matching prediction head and loss

        DUSt3R在匹配结果上不够精确,我们分析主要有两个原因:一是回归本质上受到噪声的影响,二是因为 DUSt3R 从未经过明确的匹配训练。因此我们考虑增加两个输出头:最后输出稠密的featuremap,它是一个d通道的H*W图。

        我们将头部实现为与非线性 GELU 激活函数交错的简单 2 层 MLP [39]。 最后,我们将每个局部特征标准化为单位范数。

        匹配目标:我们希望一个图像中的每个局部描述符(应该是类似单个像素或者多个,这样就是一个矩阵)最多与另一个图像中表示场景中相同 3D 点的单个描述符匹配。为此,我们利用了 infoNCE [95] 损失:        \widehat{M}的意思是两个view的pointmap的GT中,映射到同一个3D点的局部描述符,这里我的猜测i要么是单个像素要么是一个局部像素块,i和j是对应的

        请注意,此匹配目标本质上是交叉熵分类损失:与等式中的回归相反。 (6),网络只有在正确的像素而不是附近的像素时才会获得奖励。 这有力地鼓励了网络实现高精度匹配。意思就是说,featuremap是坐标与特征之间的对应关系,而在前面pointmap中同一个3D点对应的像素坐标下,对应的两组特征也要一致,这才能保证s_{\tau }最大而log(\cdot)逼近0,从而loss最小,最后,结合回归和匹配损失得到最终的训练目标:        

3.3. Fast reciprocal matching-快速相互匹配

        对于给定的两个预测特征映射𝐷1,𝐷2∈ℝ𝐻×𝑊×𝑑,我们的目标是提取一组可靠的像素对应,即彼此的相互最近邻:

        请看公式14,意思就是输入视角B的特征图上的像素D_{j}^{B},他会计算在视角A特征图中所有像素与D_{j}^{B}的1范数,找到最小值对应的像素位置,那么公式13的M就很明确了,就是这样的一组像素对。

        遗憾的是,倒数匹配的朴素实现具有𝑂(𝑊2𝐻2)的高计算复杂性,因为必须将一幅图像中的每个像素与另一幅图像中的每个像素进行比较。虽然优化最近邻(NN)搜索是可能的,例如使用K-d树[1],但这种优化在高维特征空间中通常变得非常低效,并且在所有情况下都比MAST3R的推理时间慢几个数量级以输出𝐷1和𝐷2。

        因此,我们提出了一种基于子采样的更快方法。这是一个广义上的贪心算法, 首先,从视角1(I_{1})中采样一组稀疏像素,记作,然后对于这个像素集,利用公式13,14得到在视角2(I_{2})中对应的像素点集V^{0},继续操作,把V^{0}放进去,找到I_{1}中对应的像素点集U^{1},这个迭代过程可以描述为:

        然后,我们以上面的公式15为例来讲解后续过程,通过迭代,我们得到了属于I_{1}的两个像素点集合:U^{t}以及U^{t+1},我们取这两个集合的交(理论上说不一定会有交集,但是大概率是有的,因为这是图片),然后由公式15可知,这个交集必定对应着I_{2}中的一个像素点集,那么这两个像素点集对就是我们需要找的对象,用公式写作

        对于迭代轮数t,我们在上面已经得到了像素点对的集合M_{k}^{t},接下来,再考虑t+1轮数的情况,既然已经有了U_{n}^{t}=U_{n}^{t+1},那么对于U_{n}^{t+1}来说,交集的区域已经不再需要,故我们更新它:,对于像素点集V也是一样的更新方式(第t+1轮去掉和第t轮的交集),这样,给定一个最大的迭代轮数,我们用这个方法几乎可以遍历整个图像像素,得到匹配率最高的像素对:,进而来判断两个图片是否匹配。

        理论上的保证:快速匹配的总体复杂性是𝑂(𝑘𝑊𝐻),其比表示为𝑊𝐻/𝑘≫的朴素方法快1倍,如图1所示。3(右)。值得指出的是,我们的快速匹配算法提取了整个集合M的一个子集,其大小由|M𝑘|≤𝑘限定。我们在补充材料中研究了该算法的收敛保证以及它如何表现出离群值过滤性质,这解释了为什么最终精度实际上高于使用完全对应集M时,见图3。3(右)。

3.4. Coarse-to-fine matching

        由于注意力的二次复杂性,W.r.t.输入图像区域(𝑊×𝐻),MASt3R仅处理最大尺寸的512个像素的图像。更大的图像将需要显著更多的计算能力来训练,而VITS还不能推广到更大的测试时间分辨率[62,65]。因此,需要对高分辨率图像(例如1M像素)进行缩小以进行匹配,然后将得到的对应关系向上缩放回原始图像分辨率。这可能会导致一些性能损失,有时足以导致定位精度或重建质量方面的显著降级。

        从粗到精匹配是一种标准技术,可以保留高分辨率图像与低分辨率算法匹配的优势 [66, 86]。 因此,我们探索 MASt3R 的这个想法。 我们的过程首先对两个图像的缩小版本进行匹配。 我们将通过子采样 𝑘 获得的粗略对应集表示为 M0 𝑘 。 下一个,

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/52260.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32的GPIO使用

一、使用流程 1.使用RCC开启GPIO时钟 2.使用GPIO_Init 函数初始化GPIO 3.使用输出或输入函数控制GPIO口 二、RCC的常用函数 函数内容可通过这两个文件进行查看: RCC常用函数如下: void RCC_AHBPeriphClockCmd(uint32_t RCC_AHBPeriph, FunctionalS…

我与Linux的爱恋:yum和vim以及gcc的使用

​ ​ 🔥个人主页:guoguoqiang. 🔥专栏:Linux的学习 文章目录 ​1.Linux软件包管理器yum2.Linux开发工具3.Linux编译器 vimvim的基本概念vim的基本操作vim正常模式命令集vim末行模式命令集vim操作总结批量化注释批量化去注释简…

2024国赛数学建模A题B题C题D题E题思路资料模型

开始在本帖实时更新2024国赛数学建模赛题思路代码,文章末尾获取! 持续更新参考思路

Qt多语种开发教程

Qt作为跨平台的开发工具,早已应用到各行各业的软件开发中。 今天讲讲,Qt开发的正序怎么做多语言开发。就是说,你设置中文,就中文显示;设置英语就英文显示,设置繁体就繁体显示,设置发育就显示法语…

中国剩余定理和扩展中国剩余定理(模板)

给你一元线性同余方程组&#xff0c;如下&#xff1a; 其中&#xff0c;当 , , ... , 两两互质的话就是中国剩余定理 &#xff0c; 不互质的话就是扩展中国剩余定理。 给出中国剩余定理的计算过程和扩展中国剩余定理的推理过程&#xff1a; #include<bits/stdc.h> us…

让效率飞升的秘密武器

在当今高度竞争和信息密集的工作环境中&#xff0c;开发者的工作效率不仅仅取决于个人的编程能力&#xff0c;还依赖于所选择的编程工具。无论是智能的代码编辑器、强大的版本控制系统&#xff0c;还是自动化脚本和协作工具&#xff0c;它们都扮演着不可或缺的角色。如何正确选…

新品上市丨科学级新款制冷相机sM4040A/sM4040B

sM4040B科学级显微制冷相机 特性 sM4040B搭载了 GSENSE4040BSI 3.2 英寸图像传感器&#xff0c;针对传感器固有的热噪声&#xff0c;专门设计了高效制冷模块&#xff0c;使得相机传感器的工作温度比环境温度低达 35-40 度。针对制冷相机常见的低温结雾现象设计了防结雾机制&a…

Notepad++ 下载安装教程

目录 1.下教程 2.安装教程 1.下教程 Downloads | Notepad (notepad-plus-plus.org) 进入下载地址后选择最新版点击连接 点击链接后&#xff0c;向下滑动&#xff0c;下载适合自己电脑版本的安装包 这里大家没有梯子可能打不开页面&#xff0c;可以直接从本文开头下载。 2.安…

新一代交互模式:LUICUIVUI

随着技术的发展&#xff0c;特别是人工智能和机器学习的进步&#xff0c;交互方式也在不断演变。以下是一些新概念&#xff0c;它们描述了当下和未来可能的交互方式&#xff1a; Conversational UI (CUI)&#xff1a; 以对话为基础的用户界面&#xff0c;用户通过自然语言与系统…

计算机网络(四) —— 简单Tcp网络程序

目录 一&#xff0c;服务器初始化 1.0 部分文件代码 1.1 关于Tcp协议 1.2 创建和绑定套接字 1.3 监听 二&#xff0c;服务器启动 2.1 获取连接 2.2 提供服务 2.3 客户端启动源文件 Main.cc 二&#xff0c;客户端编写 2.1 关于Tcp客户端 2.2 客户端代码 2.3 效果…

网络学习-eNSP配置多交换机VLAN

实验环境 通过华为eNSP软件实现 1.两台S3700交换机 2.四台电脑PC1&#xff1a;192.168.0.1PC2&#xff1a;192.168.0.2PC3&#xff1a;192.168.0.3PC4&#xff1a;192.168.0.4PC11&#xff1a;192.168.0.11PC22&#xff1a;192.168.0.22PC33&#xff1a;192.168.0.33PC44&…

win12R2安装.NET Framework 3.5

一丶安装原因 因此插件的缺失, 有些软件或系统不支持安装. 二丶安装步骤 1丶下载.NET Framework 3.5 点击插件下载, 提取码: 1995, 下载完成之后解压到想要安装的位置上. 2丶打开 服务器管理器 3丶点击: 管理 -> 添加角色和功能 4丶点击下一步到服务器角色, 选择web服…

IOS17.0安装巨魔:TrollRestore巨魔发布

&#x1f47b; TrollRestore 17.0 巨魔发布 15.0 - 16.7 RC&#xff08;20H18&#xff09;和17.0。 官网&#xff1a;https://trollrestore.com/ 下载&#xff1a;https://pan.metanetdisk.com/IOS/%E5%B7%A8%E9%AD%94%E7%8E%A9%E5%AE%B6/TrollRestore.com 使用&#xff1a;ht…

【技巧】Excel检查单元格的值是否在另一列中

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ 用到的excel函数 IF(ISNUMBER(MATCH(H2, I2:I10, 0)), H2, "") 注意改上面的“H2、I2、I10”&#xff01; 函数效果 函数解释 检查单元格 …

Keysight U8031A DC power supply

Keysight U8031A DC power supply 文章目录 Keysight U8031A DC power supply前言电容充电⽰意图一、恒定电压操作二、恒定电流操作三、5v操作四、跟踪模式操作五、存储器操作六、对过电压保护编程七、对过电流保护编程八、锁键操作 前言 U8031A Power Supply 是一款具备前面板…

域取证的日志分析

目录 介绍步骤横向移动行为分析 介绍 1、evtx文件是微软从 Windows NT 6.0(Windows Vista 和 Server 2008) 开始采用的一种全新的日志文件格式。在此之前的格式是 evt 。evtx由Windows事件查看器创建&#xff0c;包含Windows记录的事件列表&#xff0c;以专有的二进制XML格式保…

关于武汉高芯coin417G2红外机芯的二次开发

文章目录 前言一、外观和机芯参数二、SDK的使用1、打开相机2、回调函数中获取全局温度和图像3、关闭相机 前言 最近工作中接触了一款基于武汉高芯科技有限公司开发的红外模组,即coin417g2(测温型)9.1mm镜头.使用此模组,开发了一套红外热成像检测桌面应用程序.下面简单记录下该…

【2024高教社杯全国大学生数学建模竞赛】B题模型建立求解

目录 1问题重述1.1问题背景1.2研究意义1.3具体问题 2总体分析3模型假设4符号说明&#xff08;等四问全部更新完再写&#xff09;5模型的建立与求解5.1问题一模型的建立与求解5.1.1问题的具体分析5.1.2模型的准备 目前B题第一问的详细求解过程以及对应论文部分已经完成&#xff…

RISC-V (九)抢占式多任务

主要的思想&#xff1a;借用定时器中断实现。设置定时器寄存器&#xff0c;系统自动触发定时器中断时会跳到trap handler这个函数里。借用这个函数做上下文的切换&#xff0c;从而实现了抢占式多任务。 定时器中断&#xff1a;跳到trap handler函数&#xff0c;同时系统自动将…

软考基础知识之计算机网络

目录 前言 网络架构与协议 网络互联模型 1、OSI/RM 各层的功能 2、TCP/IP 结构模型 常见的网络协议 1、应用层协议 2、传输层协议 3、网络层协议 IPv6 前言 从古代的驿站、 八百里快马&#xff0c; 到近代的电报、 电话&#xff0c; 人类对于通信的追求从未间断&…