视频链接:扩散模型论文概述(二):Google系列工作_哔哩哔哩_bilibili
本视频讲的是Google在图像生成的工作。
同样,第一张图片是神作,总结的太好了!
在生成式AI的时代,OpenAI和Google不仅在语言模型上相互较劲,在图像生成领域也是如此(加红的是非开源的商业模型/产品)。
GANs在人脸合成领域曾是主流方法。2020年DDPM的提出,扩散模型取代了GAN的霸主地位,成为新的SOTA方法。相比GANs,扩散模型训练更加稳定,且生成的图像更具多样性。
实际上DDPM只是扩散模型中最经典且影响力最广泛的一支。依据杨等人(2023年)的综述,扩散模型可以分为三大类:去噪扩散模型(DDPM)、基于分数的生成模型(SGM)以及随机微分方程(Score SDE)。但不管是哪种类型,它们的核心思想都是相同的,即通过逐步添加噪声扰乱图像然后逐步去噪以生成图像。关于更多的背景和公式推导,下面提供了扩展阅读的材料。
回顾上期提到的OpenAI的ADM模型。在这篇工作中,OpenAI通过额外训练一个分类器,引导模型生成特定类别的样本。
而后,Google在此之上提出了无需分类器引导(Classifier-Free Guidance),取消了扩散模型中对独立分类器的需求。取而代之的是,模型同时在条件分布和非条件分布上进行联合训练。这种方法有效简化了框架并提升了扩展性,同时通过加权引导因子保持对生成图像质量和多样性的控制。
这里展示了通过调整权重w时样本质量和多样性之间的平衡,更高的w值可以生成更加类别一致和真实的图像,但会减少多样性。一个非常好的事情是,w值是用户在推理时可以人为控制的,而不需要重新训练(同Classifier Guidance)。这个CFG技术几乎被后续所有的扩散模型采用。
2022年,Google提出了级联扩散模型,通过将多个扩散模型结合到一个流水线中来生成高分辨率图像。CDM先生成低分辨率图像,然后逐步超分生成高分辨率图像,其在ImageNet上的生成质量达到新的SOTA。
扩散蒸馏是Google提出的一种加速扩散模型采样过程的方法,通过将扩散步骤逐步蒸馏到更少步骤。这种方式显著降低了计算成本,同时保证了样本质量。
这张幻灯片展示了扩散蒸馏在256、4和1个采样步骤上的图像质量。仅一个采样步长,就已经很成功地从随机噪声得到有明确形态的图像。
Imagen继承了CDM的思想,并引入了文本编码器能够生成符合用户需求的高分辨图像,并在人类偏好中胜过同期的DALL-E 2。
Prompt-to-Prompt是一种图像编辑技术,无需训练就能进行合成图像的多种类型的编辑。核心是通过对交叉注意力图的操作,交叉注意力连接了提示词的语义信息和图像中的视觉信息。
这张幻灯片展示了提示词中的特定词如何影响图像的特定区域。
Prompt-to-Prompt技术支持多种类型的近文本编辑,包括单词替换、提示词扩充以及词元重新加权。
不同的注意力注入水平可以实现从微小变化到显著变换的编辑范围。
Null-text Inversion引入了一种利用引导扩散模型编辑真实图像的新方法。它不需要训练,仅从一个空文本开始,逐步优化词嵌入,就能实现高质量的重建效果。
Null-text Inversion可以达到和原生的编码器解码器(VQAE)几乎一致的重建效果。同时,Null-text Inversion结合Prompt-to-Prompt能实现高质量的真实图像的编辑效果。
2024年8月,Google推出最新的文生图模型Imagen 3,具有强大的复杂场景和细精细节的理解能力。