SwinIR
简介
论文地址:SwinIR: Image Restoration Using Swin Transformer
代码:SwinIR
本文提出了一个基于swin transformer的图像超分模型swinIR。其中SwinIR分为三部分:浅层特征提取、深层特征提取和高质量图像重建模块。
现阶段问题
vanilla transformer通过注意力捕获了全局依赖,但是它是将图片达成patch进行输入,这样在图像超分领域出现了两个问题。
- 重建图像在每个小块附近存在边界伪影
- 边界像素会丢失信息。
虽然通过patch重叠,能进行缓解,但是也带来额外计算负担。
主要贡献
将Swin Transformer应用于low-level任务中。
网络框架
采用shallow feature进行浅层特征提取后,输入到RTSB(多个swin transformer残差块)进行深层的特征提取,最后使用高质量图像重建模块(卷积和上采样操作)进行图像重建。
浅层特征提取
在浅层特征提取中是采用的几个简单卷积层进行提取,因为卷积层对视觉任务的前期处理,一般对结果以及优化产生好的影响。
见这篇论文:Early Convolutions Help Transformers See Better
深层特征提取
RTSB是采用使用多个STL块并在最后使用一个conv层进行特征聚合(将卷积操作的归纳偏差引入基于 Transformer 的网络),同时还采用了残差结构。
HQ图像重建
采用残差连接将浅层特征和深层特征进行跳跃连接(浅层特征主要包含低频,深层特征侧重于恢复丢失的高频),对于图像超分重建部分,则是采用了PixelShuffle进行实现。
损失
经典和轻量级的图像 SR,我们只使用与之前工作相同的原始 L1 像素损失来展示所提出网络的有效性。对于真实世界的图像SR,我们使用像素损失、GAN损失和感知损失的组合来提高视觉质量。
参考资料:
- 图像恢复 SWinIR : 彻底理解论文和源代码 (注释详尽)_听 风、的博客-CSDN博客