目录
Stable Diffusion
文章的贡献抽象出来就两个
潜空间上做扩散生成
ddpm(Denoising Diffusion Probabilistic Model)学习笔记
算法原理
unet预测噪声
unet推理过程
重参数化技巧
(1)利用前一时刻的 xt-1 得到任意时刻的噪声图片 xt(重参数化技巧)
Stable Diffusion
文章的贡献抽象出来就两个
:1)提出可以在潜空间上用diffusion学特征分布,而不是直接让diffusion 学图像,降低了diffusion模型的难度;2)可以用 cross-attention 方法给模型加条件搞条件生成,在 cross-attention 中,q来源于与上一步,k和v来源于条件编码。
潜空间上做扩散生成
之前的DM(diffusion model)大多是直接对图像做去噪扩散,生成出来的图像细节不太好,如果想生成高清大图又需要非常大的计算量。所以这里作者提出了一种在潜空间上做扩散生成的方式,另外还增加了文本条件生成。这些操作使得模型最终可以生成非常高清的图,而且跟像素级的DMs模型相比大大降低了计算量。
作者的贡献有:
1)与以往纯transformer的结构不同,作者的模型可以更优雅地扩展到更高纬度的数据,因此此工作可以(a)在压缩了的级别上提供更可靠更具体的重建细节,(b)可以更有效地生成百万像素高清图像。
ddpm(Denoising Diffusion Probabilistic Model)学习笔记
算法原理
一文弄懂 Diffusion Model(DDPM)+ 代码实现-CSDN博客
unet预测噪声
无论在前向过程还是反向过程,Unet的职责都是根据当前的样本和时间 t 预测噪声。
- 训练阶段是一步预测出从0到t加的噪声noise
- 推理阶段是根据模型算出该t时刻的噪声,然后用x_t减去该时刻的噪声noise得到x[t-1]
unet推理过程
训练时:给定原图和时间t,加上噪声,然后用unet预测噪声。
推理时,给定随机噪声和时间t,预测噪声,然后减去噪声,然后就是图像