读论文：DiffBIR: Towards Blind Image Restoration with Generative Diffusion Prior

DiffBIR 发表于2023年的ICCV，是一种基于生成扩散先验的盲图像恢复模型。它通过两个阶段的处理来去除图像的退化，并细化图像的细节。DiffBIR 的优势在于提供高质量的图像恢复结果，并且具有灵活的参数设置，可以在保真度和质量之间进行权衡。网络结构图如下所示：

two stage 的网络总体架构
stage one：去除退化的预训练模型
SwinIR 的结构（8个残差Swin Transformer block，每个RSTB包含6个Swin Transformer Layers (STL)）；
处理多种任务：模糊，噪声，压缩伪影和低分辨率（二阶退化采用经典退化模型：模糊-调整大小-噪声过程两次）
3 × 3卷积层进行浅层特征提取；深度特征提取采用多个残差Transformer块（低分辨率空间）。
stage two：利用生成先验进行图像重建
Stable Diffusion 的方法（Stable Diffusion 2.1-base 3，并进行微调）；
扩散和去噪过程在潜在空间中进行（类似LDM）；
LAControlNet ：使用孪生encoder来控制decoder生成图像的保真度。在微调自己的模型过程中，就是微调 LAControlNet 的参数（和 ControlNet 一样的0卷积策略）。

颜色偏移问题
ControlNet使用从头开始训练的附加条件网络来编码条件信息；LAControlNet训练有素的VAE编码器能够将条件图像投影到与潜在变量相同的表示空间中：该策略显著减轻了潜在扩散模型中内部知识与外部条件信息对齐的负担。在实验中，直接使用ControlNet进行图像重建会导致严重的颜色偏移。

stage one 中的数据退化细节
退化模型在某一阶段包括三个操作：模糊、调整大小和噪声。模糊。我们利用各向同性高斯模糊或各向异性高斯模糊具有相同的概率。模糊核的大小遵循7 ~ 21的均匀分布，第一次退化过程的模糊σ均匀采样在0.2 ~ 3之间，第二次退化过程的模糊σ均匀采样在0.2 ~ 1.5之间。调整大小。我们考虑了多种调整算法，包括面积调整、双线性插值和双三次调整。对于第一次降解过程，调整尺寸的比例因子遵循0.15至1.5的均匀分布，对于第二次降解过程，比例因子遵循0.3至1.2的均匀分布。噪音。我们结合了高斯噪声、泊松噪声和JPEG压缩噪声。高斯噪声的尺度在第一次退化过程中均匀采样在1 ~ 30之间，在第二次退化过程中均匀采样在1 ~ 25之间。在第一次和第二次退化过程中，泊松噪声的尺度分别在0.05 ~ 3和0.05 ~ 2.5之间随机采样。JPEG压缩的质量遵循从30到95的均匀分布。此外，我们还结合了盲人脸恢复中所采用的退化设置。具体来说，我们考虑一个大的降采样范围[1,12]，和一个大的模糊核范围，其sigma在[0.1,12]以内。这样可以训练生成模块在大范围内弥补信息丢失。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/667884.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！