《计算机视觉中的多视图几何》笔记（14）

14 Affine Epipolar Geometry

本章主要是在仿射摄像机的情况下重新考虑对极几何，也就是仿射对极几何。

仿射摄像机的优点是它是线性的，所以很多最优化算法可以用线性代数的知识解决。如果是一般的投影摄像机，很多算法就不是线性的了（比如三角化）。

文章目录

14 Affine Epipolar Geometry
- 14.1 Affine epipolar geometry
- 14.2 The affine fundamental matrix
- - 14.2.1 Derivation
- 14.2.2 Properties
- 14.3 Estimating $F_{A}$ from image point correspondences
- - 14.3.1 The linear algorithm
  - 14.3.2 The Gold Standard algorithm
- 14.4 Triangulation
- 14.5 Affine reconstruction
- 14.6 Necker reversal and the bas-relief ambiguity
- 14.7 Computing the motion

14.1 Affine epipolar geometry

仿射摄像机的特点是它的光心在无穷远，所以从三维空间像二维平面投影时，投影射线时互相平行的。在这种情况下，对极几何就可以得到简化。

极线所有极线都是互相平行的，因为不同点向图像投影的射线是平行的。

极点因为所有极线互相平行，那么极点在无穷远处。

14.2 The affine fundamental matrix

仿射基本矩阵 $F_A$ 长这样：

$\left[ \begin{matrix} 0 & 0 & a \\ 0 & 0 & b \\ c & d & e \\ \end{matrix} \right]$
因为 $a ， b ， c ， d ， e$ 都不为0，那么 $F_A$ 的秩就是3，一般情况下， $F$ 秩是2。

14.2.1 Derivation

接下来讲一下 $F_A$ 的推导过程。

从几何角度推导 $F_A$ 的过程

考虑对应点之间的对应关系。因为从图像1到空间平面，再到图像2的所有变换都是基于平面的仿射变换，所以对应点之间的变换也是仿射变换，也就是 $x'=H_A x$
构造极线。极线是通过极点和 $x^{'}$ 构造的。所以 $\times H_A x =F_A x$ ，所以 $F_A=[e']_{\times} H_A$ 。我们现在考虑仿射矩阵的特殊形式，以及当 $e^{'}$ 为无穷大时的偏斜矩阵 $[e']_{\times}$ ，因此最后一个元素为零，具体展开如下：

$F_A =[e']_{\times} H_A \\ = \left[ \begin{matrix} 0 & 0 & * \\ 0 & 0 & * \\ * & * & 0 \\ \end{matrix} \right] \left[ \begin{matrix} * & * & * \\ * & * & * \\ 0 & 0 & 1 \\ \end{matrix} \right] \\ = \left[ \begin{matrix} 0 & 0 & * \\ 0 & 0 & * \\ * & * & * \\ \end{matrix} \right]$

从代数角度推导 $F_A$ 的过程

$F=[e']_{\times}P'P^{+}$ ，把仿射摄像机的矩阵带入即可。

14.2.2 Properties

$F_A$ 有5个非零元素，所以有4个自由度，是这么算的：2个极点，每个贡献一个自由度，2个平面上的极线互相映射，贡献2个自由度。

因为 $F_A e = 0$ ，所以极点表示为 $(- d ， c ， 0)$ ，所以 $e$ 在 $l_{\infty}$ 上。

点 $x$ 对应的极线 $l'=F_A x=(a，b，cx+dy+e)^T$ ，此式表明所有的极线都是平行的，因为 $(a ， b)$ 与 $(x ， y)$ 互相独立

14.3 Estimating $F_{A}$ from image point correspondences

给定若干对对应点，矩阵是 $x^{'T}F_{A}x=0$ 定义的，所以我们可以从对应点中计算 $F_A$ 。

14.3.1 The linear algorithm

因为 $F_A$ 规定了点与点之间的对应关系，所以给出足够过的点，肯定是能把 $F_A$ 计算出来的。比如我们规定 $x_i=(x_i，y_i，1)，x'_i=(x'_i，y'_i，1)$ 。这样一对对应点可以构造一个线性方程：
$ax'_i+by'_i+cx_i+dy_i+e=0$

写成矩阵形式就是 $A f = 0$ ， $A$ 是一个 $\times 5$ 的矩阵，最少需要4对点。 $F_A$ 有4个自由度，剩下的1个变量可由其他4个来表示。

奇异性约束

我们知道一般情况的 $F$ 是奇异矩阵，所以 $F_A$ 也应该是一个奇异性矩阵。而且 $F_A$ 的形式就确定了它的rank不会大于2，所以没有必要将奇异性约束像求普通 $F$ 那样加入求解的过程，换言之，不用考虑这个约束，直接求解就可以了。

几何解释

求解两个图像上的对应点就是在四维空间中去拟合一个平面（ $ax'_i+by'_i+cx_i+dy_i+e=0$ 就是四维空间中的平面）。这样做有两个好处：第一，求 $F$ 就是一个平面拟合过程，容易思考。第二，可以用sampson损失函数，因为它是唯一的一阶近似方法。

14.3.2 The Gold Standard algorithm

在这里插入图片描述

知道了求解 $F$ 的几何解释，我们就用这个几何解释来求解它。求解的过程就是黄金标准算法。我们考虑有噪声的情况，理论点可以表示为 $\hat{x_i}，\hat{x_i}'$ ，实际观测点是 $x_i，x'_i$ ，所谓的黄金标准算法就是优化以下函数：

$\sum_{i} d(x_i，\hat{x_i})^2 + d(x'_i，\hat{x_i}')^2$

其中 $\hat{x_i}，\hat{x_i}'$ 满足 $\hat{x_i}^{'T}F_A \hat{x_i}=0$ ，如果我们考虑几何解释，我们就可以考虑四维空间的一个点 $X_i=(x'_i，y'_i，x_i，y_i)$ ，用这个点去拟合一个平面，其参数为 $(a ， b ， c ， d ， e)$ ，那么就是求点到平面的最小距离。
$d_{\perp} = \frac{ax'_i，by'_i+cx_i+dy_i+e}{\sqrt{a^2+b^2+c^2+d^2}}$

求解cost function函数的过程如下：
先对 $e$ 求导数，令其等于0，可以得到：
$e=-\frac{1}{n} \sum(N^T X_i) = -N^T \bar{X}$

$N = (a ， b ， c ， d)$

$\bar{N}$ 就是所有已知 $X$ 的均值，也就是质心。

把 $e$ 反带回 $d_{\perp}$ 得到：

$d_{\perp} = \frac{1}{||N||^2} \sum_i(N^T \Delta X_i)$

$\Delta X_i = X_i - \bar{X}$

用 $\Delta X_i$ 的行构造一个矩阵，然后直接SVD分解就可以了。
最后一个需要注意的点：黄金标准算法需要多于4对对应点。那么如果我们只知道4对对应点，该怎么办? 下面的算法来解决。

4对对应点求解 $F_A$ 的步骤如下：

用前三对对应点计算一个仿射变换 $H_A$ ，也就是求解 $x'_i=H_A x_i$
用 $H_A$ 计算 $H_A x_4$ ，然后 $(H_A x_4 \times x'_4)$ 得到极线 $l^{'}$
那么极点就是 $e'=(-l'_2，l'_1，0)$
所以对任何一个点 $x$ ，它对应的极线就是 $\times (H_A x) = F_A x$

14.4 Triangulation

现在假设我们知道一对对应点 $\leftrightarrow (x'，y')$ 和仿射基本矩阵 $F_A$ ，因为已知对应点是含噪声的，我们想要确定不含噪声的点 $(\hat{x}，\hat{y}) \leftrightarrow (\hat{x}'，\hat{y}')$ 所以我们得到一个带约束的优化：

$(x-\hat{x})^2 + (y-\hat{y})^2 + (x'-\hat{x}')^2 + (y-\hat{y}')^2$

同时：

$(\hat{x}，\hat{y}，1) F_A (\hat{x}'，\hat{y}'，1) = 0$

那么怎么样求解呢? 除了几何解释的求解法以外，我们还可以用sampson损失函数：

$\begin{pmatrix} \hat{x}' \\ \hat{y}' \\ \hat{x} \\ \hat{y} \\ \end{pmatrix}= \begin{pmatrix} x' \\ y' \\ x \\ y \\ \end{pmatrix}- \frac{ax'+by'+cx+dy+e}{a^2+b^2+c^2+d^2} \begin{pmatrix} a \\ b \\ c \\ d \\ \end{pmatrix}$

14.5 Affine reconstruction

假设我们有多于4对对应点 $x_i \leftrightarrow x'_i$ ，如果摄像机是投影摄像机，那么重建的结果就是投影重建。现在如果摄像机是仿射摄像机，那么重建结果就是仿射重建。本节就来说明这个结果。

我们假设空间中有4个不共面的点 $X_i$ ，我们选择 $X_0$ 作为原点。然后我们构造三个坐标轴，表示为 $\tilde{E_i} = \tilde{X_i} - \tilde{X_0}$ 。所以对于一个空间中的点 $X = (x ， y ， z)$ ，它的坐标就可以表示为：

$\tilde{X} = X_0 + x \tilde{E_1} + y \tilde{E_2} + z \tilde{E_3}$

$\tilde{X_0} = \begin{pmatrix} 0 \\ 0 \\ 0 \\ \end{pmatrix} \tilde{X_1} = \begin{pmatrix} 1 \\ 0 \\ 0 \\ \end{pmatrix} \tilde{X_2} = \begin{pmatrix} 0 \\ 1 \\ 0 \\ \end{pmatrix} \tilde{X_3} = \begin{pmatrix} 0 \\ 0 \\ 1 \\ \end{pmatrix}$

有了这些公式以后，我们来看看仿射摄像机的投影过程长什么样，该过程可以被表达为：
$\tilde{x} = M_{2 \times 3} \tilde{X} + \tilde{t}$

所以说上文的 $\tilde{E_i}$ 可以被表示成 $\tilde{e_i}=M_{2 \times 3} \tilde{E_i}$ ，那么对于空间点 $X = (x ， y ， z)$ ，它在第一幅图像中就可以被表示成：
$\tilde{e_1} + y \tilde{e_2} + z \tilde{e_3}$

对于第二幅图象， $\tilde{e}'=M_{2 \times 3} \tilde{E_i}$ ，那么 $X$ 在第二幅图象中就可以表示成：

$\tilde{e_1}' + y \tilde{e_2}' + z \tilde{e_3}'$

14.6 Necker reversal and the bas-relief ambiguity

本章主要讲述在已标定摄像机的情况下，只用两个图像会产生一系列的歧义.
主要是两种歧义:

Necker reversal
主要原因是物体旋转 $\rho$ 和旋转 $-\rho$ 的镜像，在affine摄像机下会产生同样的投影图像。如果是透视投影，那么每个点都会有不同的深度，所以这种歧义就没有了。
The bas-relief ambiguity
主要原因是摄像机进行一个旋转后，从光心出发的光线依旧相交于同一点。这样导致深度和旋转角度是不确定的，参见P357，fig14.9(b)，看图容易理解一点。