阅读笔记（CVPR2020）Warping Residual Based Image Stitching for Large Parallax

基于变形残差的大视差图像拼接

K. -Y. Lee and J. -Y. Sim, "Warping Residual Based Image Stitching for Large Parallax," 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2020, pp. 8195-8203, doi: 10.1109/CVPR42600.2020.00822.

0. 摘要

图像拼接技术将在不同观看位置处捕获的两个图像对齐到单个较宽图像上。当捕获的3D场景不是平面的并且相机基线大时，两个图像表现出视差，其中场景结构的相对位置与每个视图非常不同。现有的图像拼接方法往往无法对视差较大的图像进行拼接。为此，提出了一种基于变形残差策略的图像拼接算法。我们首先估计多个单应性，并找到它们在两个图像之间的内部特征匹配。然后，我们评估每个特征匹配相对于多个单应性的变形残差。为了消除视差伪影，我们将输入图像划分为超像素，并根据最优单应性自适应地对每个超像素进行变形，该最优单应性通过最小化由变形残差加权的特征匹配误差来计算。实验证明，在视差较大的情况下，该算法能够得到更加精确的拼接结果，在定性和定量上均优于现有的方法。

1. 引言

图像拼接是计算机视觉应用中的一项重要技术，它将从不同观察位置捕获的多幅图像对齐到一个共同的坐标域上，以生成具有更宽视场的图像。最近，已经发布了许多使用图像拼接技术的商业产品，例如360°全景相机和环绕视图监视系统。此外，还提供了图像拼接软件产品来合成多个图像，例如， Adobe Photoshop PhotoshopTM和Autostitch [2]。

大多数传统的图像拼接方法遵循类似的过程[19]。首先从一对输入图像中检测特征点，并且在图像之间找到它们的对应匹配。然后，通过使用检测到的特征匹配来估计参数图像变形模型，其将目标图像变形到参考图像域上。最后，通过确定变形后的目标图像与参考图像重叠区域的像素值，合成拼接后的输出图像。

图像拼接中最关键和最具挑战性的步骤之一是图像变形。单应性是一种简单而传统的图像变形模型，它描述了基于平面场景假设的参数平面变换[9]。然而，当捕获的场景不是平面的并且包括在不同场景深度处的前景对象并且相机基线较大时，我们观察到视差现象，其中对象的相对位置不同于两个图像。在这样的情况下，使用诸如单应性的平面变换模型的拼接结果经常在对象边界附近呈现视差伪影。

为了减轻图像拼接的视差伪影，已经提出了自适应变形算法，其将图像划分为规则的网格单元或像素，并且通过不同的模型的变形分区[7，10，11，15，22，24]。应用能量最小化框架来优化自适应变形，以防止变形图像中的失真[11，15，24]。提出的局部配准技术，其仅对准特定图像区域，同时基于接缝切割方法隐藏其他未对齐区域中的伪影[8，14，23]。然而，对于具有大视差的图像，在一个图像中的一组相邻像素可能不具有在另一个图像中彼此相邻的对应像素，这在通过现有的基于平滑变形的方法[7，11，15，22，24]获得的合成拼接图像中导致严重的视差伪影。已经提出的一种视频拼接方法，该方法基于核线几何[10]来解决大视差问题，然而，由于缺乏视频序列的时间运动信息，该方法不能直接应用于图像拼接。

在本文中，针对大视差图像，我们提出了一种基于变形残差的拼接算法。 由于视差现象通常发生在物体边界附近，因此我们首先将输入图像划分为超像素，并自适应地变形超像素。 我们从两幅图像中检测特征点，并找到它们的对应匹配，然后用它们来估计多个单应性及其关联的内点匹配。我们使用特征匹配为每个超像素找到最优单应性，其中每个特征点的贡献根据变形残差自适应地计算。当通过强调位于具有相似场景深度的区域上的特征点来变形超像素时，针对给定超像素的变形残差减轻了视差伪影。此外，我们使用相邻超像素的单应性来改进每个超像素处的初始估计的单应性，以实现可靠的变形。实验结果表明，所提算法能够精确对齐视差较大的图像，在定性和定量上均优于传统的图像拼接方法。

本文的其余部分组织如下。第二节介绍了图像拼接的相关工作。第三节提出了一种新的变形残差概念。第4节描述了图像变形算法。第5节给出了实验结果。第六节是论文的总结。

2. 相关工作

自适应变形方法。Gao等人提出了一种双单应性方法，该方法根据特征点的位置自适应地混合远平面估计的单应性和地平面估计的单应性[7]。 Lin等人计算了一个空间变化的仿射变换，其中通过最小化成本函数将初始估计的全局变换细化为最佳变换[15]。 Zaragoza等人将输入图像划分为规则网格单元，并通过移动直接线性变换（MDLT）[22]估计每个单元的最佳单应性，该变换在计算对齐误差时将更多权重分配给空间上更接近目标单元的特征点。 Zhang等人采用尺度保持项和线保持项来最小化变形图像中的失真[24]。 Li等人通过使用基于薄板样条[18]和径向基函数[11]的分析变形函数来近似匹配点的单应性引起的投影偏差。 Lee和Sim提出了一种基于对极几何的大视差视频拼接算法[10]。注意，[7]不处理具有两个以上平面结构的场景。其他方法[11，15，22，24]可以变形由多个平面区域组成的背景，然而，它们通常假设具有小视差的连续场景深度，并且通常无法对齐具有大视差的前景对象，这些前景对象具有与背景的突然深度变化。此外，[10]需要前景物体的时间运动信息，这对于图像拼接是不可用的。相反，所提出的方法可以变形的背景和多个前景物体在不同的场景深度之间的两个大视差的图像。

保形变形。虽然两幅图像之间的重叠区域通过使用有效的特征匹配很好地对齐，但非重叠区域通常表现出严重的透视失真。 Chang等人分别将单应性变换应用于重叠区域，并将相似性变换应用于非重叠区域[3]。 Lin等人提出了一种单应性线性化方法，该方法将重叠区域的变形平滑地外推到非重叠区域[13]。 Chen等人估计了每个图像的适当尺度和旋转，并设计了一个基于全局相似性先验的变形估计目标函数[4]。 Li等人提出了一种准单应性变形，通过线性缩放单应性的水平分量来解决[3]的单应性变换和相似性变换之间的线弯曲问题[12]。注意，保形变形通常被设计为减轻两幅图像之间的非重叠区域中的透视失真，而本文的主要目的是对齐具有大视差的两幅图像之间的重叠区域中的共同视觉内容。

基于接缝的方法。Gao等人为单应性定义了一个接缝切割损失，用于测量变形的目标图像和参考图像之间的不连续性[8]。他们使用RANSAC [6]估计了多个单应性，并选择了具有最小接缝切割损失的最佳单应性。 Zhang等人估计了仅对齐某个图像区域的局部单应性，并应用内容保持扭曲（CPW）[16]来进一步细化对齐[23]。 通过接缝切割方法隐藏了错位伪影。 Lin等人通过使用迭代的变形和接缝估计[14]逐渐改善了拼接性能。基于接缝的方法通常仅对准某些局部图像区域以提供视觉上令人满意的图像拼接结果，这在整个图像区域上可能不是几何上精确的。

3. 大视差的变形残差

我们回顾了MDLT [22]的数学框架，它是一种自适应图像变形模型之一。然后，我们引入了一个新的变形残差的概念，在计算变形超像素的对齐误差时，将位于相似场景深度的特征点分配给给定的超像素的高权值。

3.1 移动直接线性变换

设 $X$ 是3D空间中平面 $\pi$ 上的真实世界点，并且设 $x=[x_1,x_2,1]^T,y=[y_1,y_2]^T$ 分别是投影到两个图像 $I,J$ 上的 $X$ 的像素。两个像素之间的关系由平面 $\pi$ 诱导的 $3\times 3$ 单应矩阵 $H$ 描述。

$y\sim Hx,\quad (1)$

其中， $\sim$ 表示按比例的相等。由于 $Hx$ 和 $y$ 在 $J$ 中的两个位置相同，我们有[22]

$0_{3\times 1}=y\times Hx=\begin{pmatrix} 0_{1\times 3} & -x^T &y_2x^T \\ x^T& 0_{1\times 3} &-y_1x^T \\ -y_2x^T & y_1x^T &0_{1\times 3} \end{pmatrix}h,\quad (2)$