大模型之二十六-Diffusion model实例浅析

在2022年,midjourney、DALL-E以及Stable Diffusion三个文生图模型引爆了机器生产文生图领域,他们的模型能够在可控条件(标签、文本描述)下生成高分辨率、细节丰富的多样性图像,这在视觉上往往难以与真实图像区分。本文发布的两周前FLUX.1 成了文生图领域的当红辣子鸡,配套视频
请添加图片描述以下是他们几个简单的效果对比图。请添加图片描述
请添加图片描述
请添加图片描述
学术和工业界对他们采用的 Diffusion 模型兴趣迅速增长,导致了大量的研究、改进和创新。这推动了技术的发展和成熟,进一步扩大了它们的应用范围和影响力。

本篇文章通过一个汽车图片生成的无条件Diffusion模型阐述这一原理。

本篇所述的Diffusion模型基于2020年12月的论文《Denoising Diffusion Probabilistic Models》,其是比较基础无条件的Diffusion 模型,简称为DDPM模型。

其生成图片是从一个高斯白噪声图片,一步一步去噪,通常可能要100~1000步以获得高质量、细节丰富的图片,其过程如下。
请添加图片描述

Diffusion生成图的过程

上面gif动图显示的是图像生成过程,下面是一组静态图,首先 X T ′ X'_T XT是一个纯高斯白噪声图片,然后逐步去噪,直到 X 0 ′ X'_0 X0(逼近原始数据集效果的图片),这里的 X 0 ′ X'_0 X0并不是原始训练集里图片。
请添加图片描述
生成的过程是一步步去噪,每一步只去一点点,那么问题来了,如何估计每一步噪声量呢?使用Diffusion模型来估计,所以Diffusion模型输入应该是前一步的带噪图片 X t − 1 X_{t-1} Xt1以及所在步数 t ∈ 1 , . . . T t \in {1,...T} t1,...T,然后模型算出噪声 ϵ θ \epsilon_{\theta} ϵθ,这样就可以得到噪声稍微少一点的图片 X t = X t − 1 − ϵ θ X_t=X_{t-1}-\epsilon_{\theta} Xt=Xt1ϵθ了,迭代去做,直到得到 X 0 ′ X'_0 X0基本和训练集差不多。

这里有一个问题需要解决,就是上面提到的模型算出噪声 ϵ θ \epsilon_{\theta} ϵθ,模型好理解,MLP、CNN、RNN、Transformer、Diffusion等,不论使用哪个模型,如何得到模型的参数集 θ \theta θ(又称权重)呢? θ \theta θ表示的可能有几千万~几十亿的参数量,即几十亿个float值。要同时调节这几十亿个float值以使每一步的 ϵ θ \epsilon_{\theta} ϵθ逼近真实的情况,显然乱试是不可能的。

这样好了,我们先针对不同的 t t t对图片加噪声,然后将带噪声的图片和时间 t t t送入模型,让模型预测我们所加的噪声值,根据模型预测的噪声和实际所加的噪声的差距来调节模型的参数,只要数据量和样本足够多,理论上参数集 θ \theta θ里的参数就可以调整到符合生成逼真图片的要求。权重参数收敛的过程使用的是梯度下降法,梯度下降法在信号处理领域早就使用了。

接下来的问题是,如何生成带噪的图片呢?这个过程在DDPM里称为Diffusion process,这里的 X 0 X_0 X0没有上标,这是因为这个图片是来自数据集里的,是模型训练之前就存在的图片。然后一步步加噪得到 X T X_T XT,这里的 X 1 X_1 X1和Sampling的 X 1 ′ X'_1 X1在时间上是相同的,但是因为噪声是随机的,所以两张图片并不完全相同,但是噪声量的差不多的。

通过这个过程,对每一个图片都可以生成一系列的带噪图片,每一个时间 t ∈ 1 , 2 , ⋯ , T t \in {1,2,\cdots,T} t1,2,,T所加的噪声量由噪声调度器控制(noise schedule),原paper是t越大加的噪声越多,到T的时候 x T \mathbf x_T xT和随机生成的噪声是没有差别的。

但是这里有一个问题,就是在训练模型的时候,并不是按照 X 1 , X 2 , ⋯ , X T X_1,X_2,\cdots,X_T X1,X2,,XT的顺序给模型的, t t t是随机的,所以假如 t = 8 t=8 t=8,要生成 X 8 X_8 X8,我们需要生成 X 1 , X 2 , ⋯ , X 7 X_1, X_2,\cdots,X_7 X1,X2,,X7,显然这样生成训练所需要的带噪图片效率太低了,这会浪费大量的算力。
请添加图片描述
t − 1 t-1 t1时刻加噪得到 t t t时刻带噪图片的计算如下:
q ( x t ∣ x t − 1 ) = N ( x t ; 1 − β t x t − 1 ; β t I ) , ∀ t ∈ 1 , ⋯ , T q(\mathbf x_t|\mathbf x_{t-1}) = N(\mathbf x_t;\sqrt{1-\beta_t}\mathbf x_{t-1}; \beta_t I), \forall t \in {1, \cdots,T} q(xtxt1)=N(xt;1βt xt1;βtI),t1,,T
( X t ∣ X t − 1 ) (X_t|X_{t-1}) XtXt1表示从 t − 1 t-1 t1时刻图片 X t − 1 X_{t-1} Xt1得到t时刻图片 X t X_t Xt,q表示后验概率,即观察到 X t X_t Xt时,输入是 X t − 1 X_{t-1} Xt1的概率, β t \beta_t βt是超参数,事先定义好的,公式1对应的图片表示如下:
请添加图片描述
从时刻0到时刻T的这一加噪过程,称为noise schedule,噪声就是独立同分布的高斯白噪声,只需要均值和方差这两个值就可以确定一个高斯分布(也称正态分布,确实比较简单,还有拉普拉斯、泊松分布、狄拉克分布等等),在Diffusion模型中更简单只使用了方差 β \beta β这一个参数(因为均值是0)。

上面的步骤可以生成任意时刻的带噪图片,但是效率有些低,有没有办法一次性生成任意时刻的图片,而不用迭代呢?这样效率会高很多,根据公式1,即从 x 0 x_0 x0可以生成 x 1 x_1 x1,从 x 1 x_1 x1再生成 x 2 x_2 x2,通过一步步迭代计算 q ( x t ∣ x 0 ) q(x_t|x_0) q(xtx0),看看有没有规律。
请添加图片描述
从上面的图示可以看到,可以从 X 0 X_0 X0一步生成 X 2 X_2 X2,那按照递推公式应该是可以一步生成 X t X_t Xt,这里不再详细推导,感兴趣可以自行推导,这里直接给出公式:

X t = α ‾ t X 0 + 1 − α ‾ t ϵ X_t=\sqrt{\overline \alpha_t}X_0 + \sqrt{1-\overline \alpha_t}\epsilon Xt=αt X0+1αt ϵ
α t \alpha_t αt α ‾ t \overline \alpha_t αt以及 β t \beta_t βt三者之间的关系。

α t = 1 − β t \alpha_t=1-\beta_t αt=1βt

α ‾ t = α 1 α 2 ⋯ α t \overline \alpha_t=\alpha_1 \alpha_2\cdots\alpha_t αt=α1α2αt

前面说了, β t \beta_t βt是noise schedule的参数,通常T选择比较大,如1000,然后就可以确定所有的 β \beta β,然后 α t \alpha_t αt α ‾ t \overline \alpha_t αt也就确定了。

到这里,我们已经了解了Diffusion生成图片的过程,以及训练时,带噪图片是怎么生成的了。接下来结合paper上的公式讲一下算法。

训练和推理

paper给出的两个公式如下,traning使用的Diffusion一次生成带噪图片,Sampling就是应用的时候生成图片。
请添加图片描述

Algorithm 1 训练过程

Training算法过程,

首先这个是一个大的循序,直到模型收敛之后才会停止,收敛的标准就是训练时步骤5~6loss为判断依据。

第二行: x 0 \mathbf x_0 x0是一个干净的图,就是训练集中的图

第三行:从{1,T}中选择一个值,通常T是一个比较大的值,比如1000,为了训练方便,这里选择了300

第四步:首先 N ( 0 , I ) N(0,I) N(0,I)是一个标准正态分布,其均值是0,标准差是1,这一步是计算一个和汽车图大小一样的噪声图片,是对每一个像素(RGB)加随机一个标准正态分布的噪声,这种生成的噪声图被称为独立同分布的,没有考虑像素点之间的关系,但是效果好且简单,所以一直都是用的独立同分布的噪声。

第五步:$\sqrt{\overline \alpha_t} \mathbf x_0 + \sqrt{1-{\overline \alpha_t}}\mathbf {\epsilon} ,该式表示将训练集中的图 ,该式表示将训练集中的图 ,该式表示将训练集中的图\mathbf x_0 ,和图片尺寸大小相等的噪声 ,和图片尺寸大小相等的噪声 ,和图片尺寸大小相等的噪声\mathbf \epsilon 做一个 w e i g h t e d s u m ,这里的 w e i g h t 是事先已经定好的 做一个weighted sum,这里的weight是事先已经定好的 做一个weightedsum,这里的weight是事先已经定好的{\overline {\alpha}_1,\overline {\alpha}_2, \cdots, \overline {\alpha}_T} ,当第三步中的 t 取哪个值,这里的 ,当第三步中的t取哪个值,这里的 ,当第三步中的t取哪个值,这里的\overline {\alpha} 就取哪一个,通常 就取哪一个,通常 就取哪一个,通常\overline {\alpha}_t$取值随着t的增加而减少,即t越大加的噪声就越多,权重相加之后,得到的是带噪图片,

ϵ θ ( α ‾ t x 0 + 1 − α ‾ t ϵ , t ) \mathbf \epsilon_{\theta}(\sqrt{\overline \alpha_t} \mathbf x_0 + \sqrt{1-{\overline \alpha_t}}\mathbf {\epsilon} ,t) ϵθ(αt x0+1αt ϵ,t),这是噪声预测器(就是Diffusion模型),即给定带噪图片和该时刻时间值,预测图片加的噪声是多少,很明显理想情况下模型预测的就是t时刻加的噪声 ϵ \mathbf {\epsilon} ϵ,但是由于模型参数一开始是随机的,所以预测值和真实值之间必然存在差异,所以就用这个差异来做为loss的基准,直到误差足够小,即图中的converged条件满足。

Sampling算法过程:

因为是从纯噪图片里面生成图片,所以每一步都是一个去噪的过程,那噪声是多少呢?这个是Diffusion model做的事,Diffusion model去预测噪声,然后一步步迭代去减掉噪声。
请添加图片描述
1.首先生成一个独立同分布的噪声 x T \mathbf x_T xT

2.2~5这几行是一个T次的循环,循环的目的是逐步去噪声,第三行是再次生成一个独立同分布的噪声 z \mathbf z z,作用后面再讲。

x t \mathbf x_t xt是上一步生产的图,对于第一步就是 x T \mathbf x_T xT ϵ θ ( x t , t ) \mathbf \epsilon_{\theta}(\mathbf x_t, t) ϵθ(xt,t),这步就是调用前面训练得到的Diffusion模型根据上一步产生的图和t预测图片的噪声

背后的数学原理

对于一个训练好的模型(一般用 θ \theta θ)表示其参数集,其得到一张训练集中的图片的概率可以表示成如下公式:
P θ ( x 0 ) = ∫ x 1 : x T P ( x T ) P θ ( x T − 1 ∣ x T ) ⋯ P θ ( x t − 1 ∣ x t ) ⋯ P θ ( x 0 ∣ x 1 ) d x 1 : x T P_{\theta}(x_0)= \int \limits_{x_1:x_T}P(x_T)P_{\theta}(x_{T-1}|x_T)\cdots P_{\theta}(x_{t-1}|x_t)\cdots P_{\theta}(x_{0}|x_1)dx_1:x_T Pθ(x0)=x1:xTP(xT)Pθ(xT1xT)Pθ(xt1xt)Pθ(x0x1)dx1:xT
模型最优的参数应该是使得所有图片的概率最高,这样得到的模型输出的分布最接近原始数据集的分布,这可以表示为:
θ ∗ = arg ⁡ max ⁡ θ ∏ i = 1 m P θ ( x i ) \theta^*=\arg \max \limits_{\theta}\prod_{i=1}^mP_{\theta}(x^i) θ=argθmaxi=1mPθ(xi)= arg ⁡ max ⁡ θ log ⁡ ∏ i = 1 m P θ ( x i ) \arg \max \limits_{\theta}\log\prod_{i=1}^mP_{\theta}(x^i) argθmaxlogi=1mPθ(xi)= a r g max ⁡ θ ∑ i = 1 m log ⁡ P θ ( x i ) arg \max \limits_{\theta}\sum_{i=1}^m \log P_{\theta}(x^i) argθmaxi=1mlogPθ(xi)

q ( x 1 ∣ x 0 ) q(x_1|x_0) q(x1x0)表示在有原图时,得到第一步带噪图片 x 1 x_1 x1的概率,则一直加噪得到带噪 x T x_T xT图的概率可以表示为 q ( x 1 : x T ∣ x 0 ) q(x_1:x_T|x_0) q(x1:xTx0),这也是加噪过程,其表达的式是: q ( x 1 : x T ∣ x 0 ) = q ( x 1 ∣ x 0 ) q ( x 2 ∣ x 1 ) ⋯ q ( x T ∣ x T − 1 ) q(x_1:x_T|x_0)=q(x_1|x_0)q(x_2|x_1)\cdots q(x_T|x_{T-1}) q(x1:xTx0)=q(x1x0)q(x2x1)q(xTxT1)

噪声 σ t z \sigma_t \mathbf z σtz作用

σ t z \sigma_t \mathbf z σtz前面说了sampling的过程实际是去噪声的过程,Diffusion model就是预测噪声用的,为什么这里反而要额外加一个微小的噪声呢?这是因为每一步模型生成的都是概率最高的噪声,经过一步步的迭代强化之后,得到最终会是概率最高的唯一图片,从大语言模型的最后的temp值就是控制生成过程的随机性。对于一句话,如果每一个字的概率都是最高的,反而是不好的,比如这一段的内容,并不是每一个字的概率都是最高的。

模型中的t

positional Embedding
请添加图片描述
请添加图片描述

UNet

Diffusion模型结够采用UNet结构,主要是CNN算子请添加图片描述
[1] DDPM https://arxiv.org/abs/2006.11239

模型细节这里不展开了,在代码实例中再展开。

欢迎大家点赞、关注以便及时收到更新提醒。
对应讲解视频:https://www.bilibili.com/video/BV18pWieTEDP/
代码地址:https://github.com/shichaog/AI_model_explained

接下来看简单的例子,后续在这个简单例子上继续深入,包括

  • 自己的数据集怎么处理
  • 多GPU训练
  • 标签、文本控制图片生成
  • 图片修复
  • 以及开源比较火的Stable Diffusion 1.5/3
  • 模型的部署推理等

下一篇还是先看代码和实例,代码可以完全在CPU上训练,这意味着即使没有GPU,也可以跑代码理清里面的原理,但训练的时间上会比较长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SAP Document Splitting

SAP系统中的文档分割(Document Splitting)是一个用于在财务会计模块中进行更细粒度的财务报表分析的技术。它允许按照不同的标准(如成本中心、利润中心、公司代码等)对会计凭证进行详细记录和报表展示。文档分割的主要目标是提高财…

前沿重器[55] | prompt综述的解释和个人思考

前沿重器 栏目主要给大家分享各种大厂、顶会的论文和分享,从中抽取关键精华的部分和大家分享,和大家一起把握前沿技术。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。(算起来,专项启动已经…

幅频特性曲线分析及使用WPF绘制

文章目录 1、一阶惯性环节的幅频特性曲线分析及绘制2、二阶系统的幅频特性曲线分析及绘制3、一般的系统4、上位机代码实现4.1 一阶惯性系统4.2 二阶系统 5、稳定裕度5.1 幅值裕度5.2 相角裕度 参考 1、一阶惯性环节的幅频特性曲线分析及绘制 这里的a和b可以根据系统的不同修改,…

2000-2023年上市公司财务困境RLPM模型数据(含原始数据+计算结果)

2000-2023年上市公司财务困境RLPM模型数据(含原始数据计算结果) 1、时间:2000-2023年 2、来源:上市公司年报 3、指标:证券代码、证券简称、统计截止日期、是否剔除ST或*ST或PT股、是否剔除上市不满一年、已经退市或…

【binder】【android12】【2.servicemanager启动——全源码分析】

系列文章目录 可跳转到下面链接查看下表所有内容https://blog.csdn.net/handsomethefirst/article/details/138226266?spm1001.2014.3001.5501文章浏览阅读2次。系列文章大全https://blog.csdn.net/handsomethefirst/article/details/138226266?spm1001.2014.3001.5501 目录 …

入门Java编程的知识点—>面向对象(day07)

重点掌握什么是面向对象?重点掌握面向对象封装的意义?重点掌握类的封装,创建对象,访问对象? 面向对象 OO:(Object Oriented)面向对象 面向对象是一种编程思想,遵循面向对象设计原则可以写出高质量代码, …

sheng的学习笔记-AI-生成式方法

AI目录:sheng的学习笔记-AI目录-CSDN博客 需要额外的知识对应连接: EM:sheng的学习笔记-AI-EM算法-CSDN博客 贝叶斯: sheng的学习笔记-AI-贝叶斯(Bayesian)分类-CSDN博客 高斯混合模型:shen…

C#中的WebClient与XPath:实现精准高效的Screen Scraping

在现代互联网中,Screen Scraping(屏幕抓取)已成为从网页中提取信息的重要技术。对于C#开发者来说,WebClient和XPath是实现高效抓取的重要工具。本文将概述如何使用C#中的WebClient类结合XPath技术,实现精准高效的Scree…

流媒体服务器如何让WebRTC支持H.265,同时又能支持Web js硬解码、软解码(MSE硬解、WASM软解)

为了这一整套的解决方案,调研研发整整花费了差不多半年多的时间,需达成的目标: 流媒体服务器端不需要将H.265转码成H.264,就能让Chrome解码播放H.265; 注意:现在很多市面上的软硬件通过转码H.265成H.264的…

融合创新趋势:Web3时代的跨界融合

随着互联网技术的飞速发展,Web3时代的到来正引领着一场深刻的技术与社会变革。Web3,作为下一代互联网技术的代表,不仅仅是一种技术创新,更是一种跨界融合的趋势。通过去中心化、智能合约和区块链技术的应用,Web3正在重…

django学习入门系列番外篇《request》

文章目录 1 Response功能介绍2 HttpResponse2.1 HttpResponse对象介绍content_typeContent-Type是什么?Content-Type的格式 Content-DispositionContent-Disposition的作用Content-Disposition的使用语句 例子 2.2 HttpResponse常用用法 3 JsonResponse3.1 JsonResp…

2054. 骑马修栅栏

代码 #include<bits/stdc.h> using namespace std; int mp[505][505]; queue<int> ans; int du[505]; int n0,m,u,v;void dfs(int i) {for(int j1;j<n;j){if(mp[i][j]>1){mp[i][j]--;mp[j][i]--;dfs(j);}}ans.push(i); } int main() {cin>>m;for(int …

WordPress简约响应式个人博客Kratos主题

Kratos主题基于Bootstrap和Font Awesome的WordPress一个干净&#xff0c;简单且响应迅速的博客主题&#xff0c;Vtrois创建和维护&#xff0c;主题设计简约友好&#xff0c;并且支持响应式&#xff0c;自适应访问&#xff0c;简seo单大方的主页构造&#xff0c;使得博客能在臃肿…

8.20T3 无损加密(线性代数转LGV+状压dp+高维前缀和)

http://cplusoj.com/d/senior/p/NODSX2301C 对于式子&#xff1a; 这个神秘的线性代数形式比较难处理&#xff0c;但我们可以考虑其组合意义。行列式现存的可用组合意义之一就是LGV&#xff08;矩阵式不太可用&#xff09; 先把原先的矩阵转化为一个有向图。现在我们要构造一…

ArcGIS如何将投影坐标系转回为地理坐标系

有时候两个数据&#xff0c;一个为投影坐标系&#xff0c;另一个为地理坐标系时&#xff0c;在GIS软件中位置无法叠加到一起&#xff0c;这需要将两个或多个数据的坐标系统一&#xff0c;可以直接将地理坐标系的数据进行投影&#xff0c;或将投影坐标系转为地理坐标系。下面介绍…

自养号测评技术:如何挑选适合的IP环境方案

市面上的IP服务及常见问题 当前市场上常见的IP服务包括911、Luminati、Google Fi、TM流量卡、Socks专线等。这些服务在为用户提供网络代理或VPN服务时&#xff0c;常会遇到以下主要问题&#xff1a; 1. 高负载与重复率高&#xff1a;由于使用人数众多&#xff0c;导致网络拥堵…

移动端爬虫学习记录

免责声明 本文旨在探讨移动端爬虫技术的应用和挑战&#xff0c;仅供教育和研究用途。请确保在合法合规的框架内使用爬虫技术&#xff0c;遵循相关法律法规和网站的使用条款。作者不对因使用本文内容而产生的任何法律或安全问题承担责任。 1、初识移动端爬虫 学习移动端爬虫的原…

docker映射了端口,宿主机不生效

1、问题产生原因 docker run -d --name my-redis -p 6379:6379 -v /usr/redis.conf:/usr/local/etc/redis/redis.conf team-redis:3.2 redis-server /usr/local/etc/redis/redis.conf 这容器跑起来了&#xff0c;端口6379没用。搞的我一直怀疑哪里出错了&#xff0c;查看配置…

Kakfa的核心概念-Replica副本(kafka创建topic并指定分区和副本的两种方式)

Kakfa的核心概念-Replica副本&#xff08;kafka创建topic并指定分区和副本的两种方式&#xff09; 1、kafka命令行脚本创建topic并指定分区和副本2、springboot集成kafka创建topic并指定分区和副本2.1、springboot集成kafka2.1.1、springboot集成kafka创建topic并指定5个分区和…

VScode 连接远程服务器

1、 2、 3、免密登录 1、本地生成密钥 ssh-keygen2、生成的密钥默认在 C:\Users\***\.ssh\ 中3、将私钥 C:\Users\***\.ssh\id_rsa 添加到上面的配置文件中的 IdentityFile 项内4、将公钥 C:\Users\***\.ssh\id_rsa\id_rsa.pub 拷贝到远程 ~/.ssh/authorized_keys 中 4、远程…