很早之前就新建了一个专栏从0开始弃坑扩散模型
,但发了一篇文章就没有继续这一系列,在这个AIGC的时代,于是我准备重启这个专栏。
整个专栏的学习顺序可以见这篇汇总文章
这是本专栏的第一章
目录
- 引言
- 生成模型的发展历程
引言
扩散模型( Diffusion Models,DM ) 最早是在2015年由斯坦福大学的Jascha Sohl-Dickstein等人提出的,全称是概率扩散模型(diffusion probabilistic model,DPM)。他们是怎么提出的呢?这里就要讲讲在之前的故事了。
生成模型的发展历程
很久以前,在一片广阔的大陆中,数据科学家们长期以来一直在探寻一种方法,希望能让机器不仅能学会理解复杂的数据,还能创造出全新的、前所未见的图像。他们希望通过这样的方式让机器拥有一点点“创造力”。这个愿望听起来很遥远,直到有一天,两个强大的法师——生成对抗网络(GAN)和变分自编码器(VAE)改变了这个世界。
VAE法师利用概率生成模型的力量,通过将图像数据映射到一个隐含的、更低维的空间(称为隐空间)来捕捉数据的本质特征。然后,VAE法师通过隐空间中的点(这并不是前面转换的点,而是在一定分布中随机抽样出来的新点)重构数据,生成新的样本。VAE中,把图像变成向量的网络叫做编码器,把向量转换回图像的网络叫做解码器。模型会在训练时候,不断学习某一类图像的标准正态分布,这样随机出来的分布也能与训练集生成相似的图像。在VAE中,生成图像的质量通常是通过它们与真实图像的相似度来评价的,这就导致了一个问题:虽然VAE生成的图像在像素级别上与原始图像可能非常相似,但它们往往缺乏锐利度和细节,看起来可能模糊不清,不够逼真。此外,VAE的另一个限制在于其假设潜在空间遵循一个简单的、通常是高斯分布的先验,这限制了它能够生成的样本类型,特别是在捕捉更复杂或多模态分布时可能会受到限制。
紧随其后,生成对抗网络(GAN)法师登场了。GAN法师带来了一场真正的革命,他不仅能够生成数据,还精心设计了一个判别器来评价数据的真实性。在他的法术下,生成器和判别器开始了一场激烈的对抗游戏。生成器像艺术家一样创作新的作品,而判别器则像艺术评论家一样对作品进行评判。通过不断的竞争,生成器学会了创造出越来越逼真的数据样本,而判别器则变得越来越擅长于分辨真伪。GAN法师成功地解决了如何评价生成图像的难题,使得生成的图像在质量上得到了显著的提升,它们变得几乎与真实图像无法区分。
在VAE和GAN两位法师展示他们的魔法之后,机器学习的领域已经大为震撼。但是,故事并没有结束。在他们的故事传开之后不久,一个新的法师扩散模型(Diffusion Model)从知识的迷雾中走了出来,带着一种新的魔法——他可以在数据的原始形态和一片纯净无噪的空白状态之间来回穿梭。
扩散模型法师的魔法与VAE法师有着密切的血缘关系,但又带有独特的力量。他的能力不在于对数据进行简单的编码和解码,而是在于逐步地、有策略地引入噪声,将数据模糊化,直至变成纯粹的随机噪声,就像是用一层层的绘画颜料将一个精致的画作覆盖,直到所有的细节都不再可见。
然而,扩散模型法师最引人注目的魔法是他的逆过程。他能够从那一片噪声的汪洋中,逐步地移除噪声,让数据重现其原有面貌。这一过程仿佛是在逆转时间,使混乱渐渐回归秩序。随着每一步噪声的去除,数据的结构开始逐渐显露,最终揭示出清晰的形象。
扩散模型法师的这种能力在处理高维数据时尤为强大,他能够生成具有非常高质量和复杂性的样本,这些样本不仅在视觉上逼真,而且在统计特性上也与真实数据几乎无法区分。这一点,即便是GAN法师也不得不承认。
这样,扩散模型法师不仅加入了VAE和GAN的行列,还将机器学习的艺术提升到了一个新的高度。他证明了即使在这些强大的法师们所创造的宏大叙事之后,还有新的故事等待被讲述,还有新的魔法等待被探索。而这个领域的探索者们仍然在往更深远的未知中迈进,寻找着将理论和实践结合起来的新的方法,以期达到更为完美的创造力。
(说了这么多,实际上这里就看着乐,我也放松一下,只要记得扩散模型只是VAE的变种就好了。)
然而DPM在图像生成质量和采样速度上存在许多不足,并未受到广泛关注。直至2020年,伯克利大学的Jonathan Ho等人提出了去噪扩散概率模型(DDPM)。DDPM改善了DPM的缺点,并在图像合成效果上超越了先前的生成模型,如生GAN、VAE、基于流的模型(Flow-based Models)和基于能量的模型(EBM)。
我们下面所讲的也是DDPM。
DDPM分为正向过程和反向过程两个阶段。如上图所示,正向过程和反向过程对应VAE中的编码和解码。