计算机视觉中存在许多的不适定问题ill-posed problem。先来看什么是适定问题well-posed problem,适定问题必须同时满足三个条件:
- 1. a solution exists 解必须存在
- 2. the solution is unique 解必须唯一
- 3. the solution's behavior changes continuously with the initial conditions. 解能根据初始条件连续变化,不会发生跳变,即解必须稳定
CV中的一些问题经常不满足于条件2和3,,比如图像去噪(ImageDe-nosing),图像恢复(Image Restorsion),图像放大(Image Zooming),图像修补(ImageInpainting),图像去马赛克(image Demosaicing),图像超分辨(Image super-resolution)等。这些问题往往同时属于反问题inverse problem,所以往往需要构建正向过程的模型,而这种逆推的解往往不是唯一的,即有多种可能性,每次只能选择可能性最大的或者说最适合的那一个。
好比是通信中的维纳滤波和信道均衡。
在超分辨率重建中,有两个应用广泛的衰退模型。一个是先使用模糊核卷积,然后以尺度s下采样,然后对信号加一个高斯加性白噪声。模糊滤波卷积核有很多种,比如高斯核,Motion blur和disk blur。如果使用这种模型就意味着我们需要知道卷积核的种类,即便知道了种类也有很多超参数是待定的。另一种是简单地使用三次方插值,比如matlab中的resize函数就是这样。这种模型使得SISR中的CNN方法发展很快,但是因为模型简单,在很多情况下的效果也比较差。至于为什么三次插值的模型对DNN有帮助,需要看一下文献2.
所以,需要做的是改进现有的模型,但是还需要新的模型对DNN也适用。新模型也使用了卷积,下采样,加噪三要素,但是不同的是三者的先后顺序不同。之前的模型是先卷积再下采样,新的模型是先下采样,再卷积。相比于模糊卷积核和加噪,下采样之后的图像仍然可以认为是clean image,所以可以将通常的超分辨重建问题转化为先进行图像去噪和纯粹的超分辨重建,可以利用成熟的去噪方法来估计得到k。
有了退化模型,就可以基于模型和最大后验概率MAP得到能量函数的表达式。能量函数energy function分为两部分,一部分是保真项fidelity(likehood term),一部分是正则项regularization(prior) term。对于判别学习的方法,预测模型对应能量函数;用于训练的HR和LR数据则对应衰退模型,这就解释了为什么基于三次插值衰退模型训练的方法无法在真实数据中依然有较好的表现,因为真实数据的衰退方法更加复杂,且不同。
现在的目标函数是最小化能量函数。首先增加了一个辅助变量z,将原函数变成约束型函数。然后使用HQS方法或者ADMM方法求解。HQS方法又在函数中引入了一个二次惩罚项,惩罚参数越大,使得z越靠近下采样之后的x。求解的过程是一个迭代的过程,分别对z和x求最小化。在假设卷积有圆形边界限制circular boundary condition下,可以在频域得到对z求最小化时的闭式解。
而当对x求最小化时,卷积已经没有了,这时求解对应的衰退模型其实就是下采样+噪声。注意这时对应的模型其实相比于传统的三次下采样模型只是加了一个噪声,所以仍然可以很方便地使用DNN训练。这个衰退模型的参数有两个,一个是采样的尺度参数,一个是噪声的标准差。
总结一下,公式7和8是原问题的两个子问题,公式7可以从频域求解,注意这里包含了模糊卷积核k,减轻了卷积核的变形对结构的影响;公式8则进一步使用更简单的衰退模型和DNN得到没有模糊和噪声的HR图像。可以把公式8对应的求解看作是super-resolver prior,具体地可以使用SRMD网络,因为它本身就包含noise level map,不用额外增加噪声的输入。在这篇文章里,他使用的是基于SRResNet的修改,得到SRResNet+,改变是首先增加了噪声的输入;特征图的数目从64增加到96,;安装文献58的建议去除了BN层。
训练时是对每个尺度因子分别训练一个模型,HR图像从DIV2K数据集中得到,LR是HR经过下采样和加噪的模型得到,噪声图像大小和LR尺寸一样,所有的元素都是sigma,范围从[0,50]
训练时使用Adam优化器,l1损失函数,学习率从e-4开始,每5e+5次迭代学习率减半。batchsize是16,LR的patch尺寸是48x48.
https://arxiv.org/pdf/1903.12529.pdf