本文首发: AIWalker
欢迎关注AIWalker,底层视觉与基础AI技术
https://arxiv.org/abs/2312.14091
https://github.com/Picsart-AI-Research/HD-Painter
基于文本到图像扩散模型的空前成功,文本引导图像修复的最新进展已经可以生成非常逼真和视觉上合理的结果。 然而,当前的文本到图像修复模型仍有很大的改进潜力,特别是在更好地将修复区域与用户提示对齐以及执行高分辨率修复。
在本文中,我们介绍了HD-Painter,这是一种完全无需训练的方法,可以准确地遵循提示并连贯地缩放到高分辨率图像修复。
- 我们设计了智能感知内向注意(PAIntA)层,通过提示信息提高自我注意力分数,并产生更好的文本对齐生成。
- 为了进一步提高提示一致性,我们引入了重新加权注意力分数指导(RASG)机制无缝集成到DDIM的一般形式,以防止分布外的潜在移位的事后采样策略。
- 此外,HD-Painter通过引入为修复定制的专用超分辨率技术,允许扩展到更大的规模,从而能够完成高达2K分辨率的图像中的缺失区域。
我们的实验表明,HD-Painter在质量和数量上都超过了现有的最先进的方法,实现了令人印象深刻的61.4%对51.9%的生成精度提高。
本文方案
所提出方案由两个阶段组成:
- 在分辨率H/4 × W/4上应用文本引导图像修复。为了根据给定的提示τ来完成缺失区域M,我们采用了一个预先训练好的修复扩散模型,比如Stable Insaining,用PAIntA层代替自我注意层,并通过应用我们的RASG机制来执行向后扩散过程。 在得到最终估计的潜在x0之后,将其解码,从而产生修复图像 I l o w c = D ( x 0 ) ∈ R H / 4 × W / 4 I_{low}^c = \mathcal{D}(x_0) \in R^{H/4 \times W/4} Ilowc=D(x0)∈RH/4×W/4.
- 对生成的内容进行特定于修复的×4超分辨率。为了修复原始大小的图像 I ∈ R H × W I ∈ R^{H×W} I∈RH×W,我们StableDiffusion-SR进行超分处理。 我们应用SD的扩散后向过程,从 X T ∼ N ( 0 , 1 ) X_T \sim N(0,1) XT∼N(0,1)开始,并以低分辨率修复图像 I l o w c I^c_{low} Ilowc为条件。 在每一步之后,我们将去噪后的 X 0 p r e d X_0^{pred} X0pred与原始图像的编码 E ( I ) \mathcal{E}(I) E(I)进行混合并得到 X t − 1 X_{t-1} Xt−1. 在通过解码器对隐变量完成解码后,我们进一步采用泊松融合进一步消除伪影。
本文实验
如上表所示,我们的方法在所有三个指标上都优于竞争对手。 特别是,我们在所有竞争对手中提高了超过1.5分的CLIP分数,并达到了61.4%的生成准确度(Acc),而其他最先进的方法为51.9%。 此外,PickScore比较显示我们在整体质量方面也优于竞争对手。