SIFI 极值点拟合的详细推导过程

在获得高斯差分金字塔之后，我们可以根据邻近尺度和邻近像素一共 26 个像素点的灰度值和中心像素点的灰度值比较，如果中心像素点的值是最大或者最小的，则作为极值点保留下来。

但是我们知道像素是网格排布的，也就是说是离散的，如果我们想要获得更精确的极值点，就需要根据目前离散的点进行插值拟合，让数据连续起来，然后得到一个比较精确的极值点。

给我的感觉就是 SIFT 算法经历了一个从连续到离散，然后再回归连续的过程，首先是通过离散的高斯差分来近似表示拉普拉斯梯度，减少计算量，然后又对离散的高斯差分进行子像元级别的插值，获得一个连续的曲面，求真正的极值点。

首先，我们的高斯差分函数是通过通过不同尺度的高斯滤波得到的： $\sigma) = [G(x, y, \sigma_1 ) - G(x, y, \sigma_2 )] * I(x,y)$ 其中， $I (x, y)$ 是像素的灰度值。

然后在尺度 $\sigma$ 下，我们要从离散的高斯差分插值到连续的曲面，需要用到泰勒展开，因为泰勒展开是一种将函数在某一点附近近似为多项式的方法，通过使用一阶和二阶导数来拟合函数。所以可以得到： $\approx D +\frac{ \partial D^T }{\partial X } X + \frac{1}{2}X^T\frac{\partial^2 D}{\partial X^2}X$ 这个公式在别的文章很常见，但是我觉得不够直观，因为是尺度已经确定了是 $\sigma$ 所以高斯差分函数目前是关于位置 $x, y$ 的函数，上面的式子是一个矩阵的形式，因为要求极值，所以要对 $D (X)$ 求导，并让其导数 $\frac{\partial D}{\partial X} = 0$ ： $\frac{\partial D}{\partial X} = 0 + \frac{\partial D^T}{\partial X}+ \frac{1}{2}\left(\frac{\partial^2 D}{\partial X^2}+\left(\frac{\partial^2 D}{\partial X^2}\right)^T \right)X$ 考虑到 $\frac{\partial^2 D}{\partial X^2}$ 是 Hessian 矩阵，展开表达式如下： $\frac{\partial^2 D}{\partial X^2} = \begin{pmatrix} \frac{\partial ^2D}{\partial x^2} & \frac{\partial ^2D}{\partial x\partial y}\\ \frac{\partial ^2D}{\partial x\partial y} & \frac{\partial ^2D}{\partial y^2} \end{pmatrix}$ 可以看出来是对称矩阵，所以 $\frac{\partial^2 D}{\partial X^2} = (\frac{\partial^2 D}{\partial X^2})^T$ ，我们就可以得到求导之后的式子为： $\frac{\partial D}{\partial X} = \frac{\partial D^T}{\partial X}+ \frac{\partial^2 D}{\partial X^2}X$ 让导数 $\frac{\partial D}{\partial X}$ 为零可以得到： $\hat{X} = \frac{\partial D^T}{\partial X} \left (- \frac{\partial^2 D}{\partial X^2} \right )^{-1}$ 这里的 $\hat{X}$ 就是我们要求的极值点偏移值，然后将其代入原式，就可以求得极值点的响应值： $\frac{1}{2} \frac{\partial D^T}{\partial X} \hat{X}$