系列文章目录
- 【扩散模型(一)】中介绍了 Stable Diffusion 可以被理解为重建分支(reconstruction branch)和条件分支(condition branch)
- 本文将从该视角快速理解 IP-Adapter 以及相关可控生成研究。
文章目录
- 系列文章目录
- 前言
- 一、IP-Adapter
- 二、InstantID
- 三、MimicBrush
- 总结
前言
上一篇文章提到可以从两个分支来看 Stable Diffusion 1,其中:
- 重建分支(reconstruction)负责从噪声中逐步重建出清晰的图像。
- 条件分支(condition)则引入额外的信息或条件,指导图像的生成过程,使得生成结果符合特定的要求。
从该视角,可以快速地理解基于 SD 的类似可控生成模型,重点都是在修改 condition 分支的部分,通过修改 corss-attention 中的 QKV 来更好地引入控制条件。
一、IP-Adapter
IP-Adapter 2 则可以看为很好地引入了图像 condition 来引导去噪过程,其核心部分是有效地将图像与文字条件信息通过 Decouple Cross-Attention 来注入 U-Net。
二、InstantID
InstantID3 在 IP-Adapter 的基础上(condition1 从一般的 image encoder 换成了针对 face 的 encoder),多训练了一个 U-Net 的一半(即 ControlNet),并在其中加入了人脸的 landmark 来很好地约束 FaceID 信息,提升了生成时的人脸可控性。
三、MimicBrush
MimicBrush 4 类似 InstantID,增加了一个 Reference Un-Net 作为条件分支来引入控制条件,而 MimicBrush 与 IP-Adapter、InstantID 的不同点在于:
- MimicBrush 的重建分支中,是从图像输入(Source Image)来进行重建,即先加噪、再去噪的。
- 而 IP-Adapter、InstantID 的重建分支中,是直接输入 noise 随机噪声,通过 U-Net 对其进行去噪声的。
总结
有了以上多篇论文架构图的例子,应该能很快识别各种基于 IP-Adapter 的可控生成工作啦!🎉
High-Resolution Image Synthesis with Latent Diffusion Models ↩︎
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models ↩︎
InstantID: Zero-shot Identity-Preserving Generation in Seconds ↩︎
Zero-shot Image Editing with Reference Imitation ↩︎