扩散模型详细推导过程—

扩散模型的训练与采样算法

训练目标的推导

需要使得去噪过程所产生的 $\boldsymbol{x}^{(i)}$ 的总体出现概率最大，先不考虑第几个样本，省略上标，即最大化 $p(\boldsymbol{x}|\theta_{1:T})$ ，也等价于最大化 $\log \left[p(\boldsymbol{x}|\theta_{1:T})\right]$ 。直接最大化该式是无从下手的，考虑寻找该式的一个置信下界ELBO：

$\begin{align}\log \left[p(\boldsymbol{x}|\theta_{1:T})\right]&=\log\left[p(\boldsymbol{x}, \boldsymbol{z}_{1:T}|\theta_{1:T})d\boldsymbol{z}_{1:T}\right]\\&=\log\left[\int q(\boldsymbol{z}_{1:T}|\boldsymbol{x})\frac{p(\boldsymbol{x}, \boldsymbol{z}_{1:T}|\theta_{1:T})}{q(\boldsymbol{z}_{1:T}|\boldsymbol{x})}d\boldsymbol{z}_{1:T}\right]\\ &\ge \int q(\boldsymbol{z}_{1:T}|\boldsymbol{x})\log\left[\frac{p(\boldsymbol{z}_0, \boldsymbol{z}_{1:T}|\theta_{1:T})}{q(\boldsymbol{z}_{1:T}|\boldsymbol{x})}\right]d\boldsymbol{z}_{1:T}\end{align}$

而其中，

$\begin{align}\log\left[\frac{p(\boldsymbol{x},\boldsymbol{z}_{1: T}|\theta_{1: T})}{q(\boldsymbol{z}_{1: T}|\boldsymbol{x})}\right]& \begin{aligned}=\log\left\lfloor\frac{p(\boldsymbol{x}|\boldsymbol{z}_1,\theta_1)\prod_{t=2}^Tp(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\theta_t)\cdot p(\boldsymbol{z}_T)}{q(\boldsymbol{z}_1|\boldsymbol{x})\prod_{t=2}^Tq(\boldsymbol{z}_t|\boldsymbol{z}_{t-1})}\right\rfloor\end{aligned} \\&\begin{aligned}=\log\left[\frac{p(\boldsymbol{x}|\boldsymbol{z}_1,\theta_1)}{q(\boldsymbol{z}_1|\boldsymbol{x})}\right]+\log\left[\frac{\prod_{t=2}^Tp(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\theta_t)}{\prod_{t=2}^Tq(\boldsymbol{z}_t|\boldsymbol{z}_{t-1})}\right]+\log\Bigl[p(\boldsymbol{z}_T)\Bigr]\end{aligned}\end{align}$

由于扩散过程的马尔科夫链性质

$\begin{equation}q(\boldsymbol{z}_t|\boldsymbol{z}_{t-1})=q(\boldsymbol{z}_t|\boldsymbol{z}_{t-1},\boldsymbol{x})=\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})q(\boldsymbol{z}_t|\boldsymbol{x})}{q(\boldsymbol{z}_{t-1}|\boldsymbol{x})}\end{equation}$

所以该展开式可以继续简化为：

$\begin{align}\log\left[\frac{p(\boldsymbol{x},\boldsymbol{z}_{1:T}|\theta_{1:T})}{q(\boldsymbol{z}_{1:T}|\boldsymbol{x})}\right]&=\log\left[\frac{p(\boldsymbol{x}|\boldsymbol{z}_1,\theta_1)}{q(\boldsymbol{z}_1|\boldsymbol{x})}\right]+\log\left[\frac{\prod_{t=2}^Tp(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\theta_t)\cdot q(\boldsymbol{z}_{0}|\boldsymbol{x})}{\prod_{t=2}^Tp(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\boldsymbol{x})\cdot q(\boldsymbol{z}_T|\boldsymbol{x})}\right]+\log\Bigl[p(\boldsymbol{z}_T)\Bigr]\\&=\log\left[p(\boldsymbol{x}|\boldsymbol{z}_1,\theta_1)\right]+\log\left[\frac{\prod_{t=2}^Tp(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\theta_t)}{\prod_{t=2}^Tp(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\boldsymbol{x})}\right]+\log\left[\frac{p(\boldsymbol{z}_T)}{q(\boldsymbol{z}_T|\boldsymbol{x})}\right]\\&\approx\log\left[p(\boldsymbol{x}|\boldsymbol{z}_1,\theta_1)\right]+\sum_{t=2}^T\log\left[\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\theta_t)}{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\boldsymbol{x})}\right]\end{align}$

第二行到第三行中， $p(\boldsymbol{z}_T)$ 为标准的高斯分布，而 $q(\boldsymbol{z}_T|\boldsymbol{x})$ 近似为标准的高斯分布，故 $\log\left[\frac{p(\boldsymbol{z}_T)}{q(\boldsymbol{z}_T|\boldsymbol{x})}\right]\approx\log 1=0$ 。

至此，可以完整地写出

$\begin{align}\log \left[p(\boldsymbol{x}|\theta_{1:T})\right] &\ge \log\left[\int q(\boldsymbol{z}_{1:T}|\boldsymbol{x})\frac{p(\boldsymbol{x}, \boldsymbol{z}_{1:T}|\theta_{1:T})}{q(\boldsymbol{z}_{1:T}|\boldsymbol{x})}d\boldsymbol{z}_{1:T}\right]\\ &\approx\int q(\boldsymbol{z}_{1:T}|\boldsymbol{x})\left(\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]+\sum_{t=2}^{T}\log\left[\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_{t})}{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})}\right]\right)d\boldsymbol{z}_{1:T}\\&=\int q(\boldsymbol{z}_{1:T}|\boldsymbol{x})\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]d\boldsymbol{z}_{1:T}+\int q(\boldsymbol{z}_{1:T}|\boldsymbol{x})\sum_{t=2}^{T}\log\left[\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_{t})}{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})}\right]d\boldsymbol{z}_{1:T}\\&=\int q(\boldsymbol{z}_{1}|\boldsymbol{x})\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]d\boldsymbol{z}_{1}+\sum_{t=2}^{T}\int q(\boldsymbol{z}_{1:T}|\boldsymbol{x})\log\left[\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_{t})}{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})}\right]d\boldsymbol{z}_{1:T}\\ &= E_{q(\boldsymbol{z}_{1}|\boldsymbol{z}_{0})}\left[\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]\right]+\sum_{t=2}^{T}\iint q(\boldsymbol{z}_{t-1},\boldsymbol{z}_{t}|\boldsymbol{x})\log\left[\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_{t})}{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})}\right]d\boldsymbol{z}_{t-1}d\boldsymbol{z}_{t}\\ &= E_{q(\boldsymbol{z}_{1}|\boldsymbol{z}_{0})}\left[\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]\right]+\sum_{t=2}^{T}\iint q(\boldsymbol{z}_{t}|\boldsymbol{x})p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})\log\left[\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_{t})}{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})}\right]d\boldsymbol{z}_{t-1}d\boldsymbol{z}_{t}\\ &= E_{q(\boldsymbol{z}_{1}|\boldsymbol{z}_{0})}\left[\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]\right]+\sum_{t=2}^{T}\int q(\boldsymbol{z}_{t}|\boldsymbol{x})\left(\int p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})\log\left[\frac{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_{t})}{p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})}\right]d\boldsymbol{z}_{t-1}\right)d\boldsymbol{z}_{t}\\ &= E_{q(\boldsymbol{z}_{1}|\boldsymbol{z}_{0})}\left[\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]\right]-\sum_{t=2}^{T}\int q(\boldsymbol{z}_{t}|\boldsymbol{x})\cdot D_{KL}\left[p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\boldsymbol{x})||p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t, \theta_t)\right]d\boldsymbol{z}_{t}\\&= E_{q(\boldsymbol{z}_{1}|\boldsymbol{z}_{0})}\left[\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]\right]-\sum_{t=2}^{T}E_{q(\boldsymbol{z}_{t}|\boldsymbol{x})}\left[ D_{KL}\left[p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\boldsymbol{x})||p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t, \theta_t)\right]\right]\\ &= E_{q(\boldsymbol{z}_1|\boldsymbol{x})}\left[\log\left[N(f_1(\boldsymbol{z}_1,\theta_1),\sigma_1^2\boldsymbol{I})\right]\right] \\ &- \sum_{t=2}^{T}E_{q(\boldsymbol{z}_{t}|\boldsymbol{x})}\left[\frac{1}{2\sigma_t^2}\left\|\frac{(1-\alpha_{t-1})}{1-\alpha_t}\sqrt{1-\beta_t}\boldsymbol{z}_t+\frac{\sqrt{\alpha_{t-1}}\beta_t}{1-\alpha_t}\boldsymbol{x}-f_t[\boldsymbol{z}_t,\theta_t]\right\|^2+C\right]\\ &\approx \log\left[N(f_1(\boldsymbol{z}_1^*,\theta_1),\sigma_1^2\boldsymbol{I})\right]-\sum_{t=2}^{T}\frac{1}{2\sigma_t^2}\left\|\frac{(1-\alpha_{t-1})}{1-\alpha_t}\sqrt{1-\beta_t}\boldsymbol{z}_t^*+\frac{\sqrt{\alpha_{t-1}}\beta_t}{1-\alpha_t}\boldsymbol{x}-f_t[\boldsymbol{z}_t^*,\theta_t]\right\|^2-C\end{align}$

其中，

$\begin{equation}\log\left[p(\boldsymbol{x}|\boldsymbol{z}_{1},\theta_{1})\right]=\log\left[N(f_1(\boldsymbol{z}_1,\theta_1),\sigma_1^2\boldsymbol{I})\right]\end{equation}$

$\begin{equation}D_{KL}\left[p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\boldsymbol{x})||p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t, \theta_t)\right]=\frac{1}{2\sigma_t^2}\left\|\frac{(1-\alpha_{t-1})}{1-\alpha_t}\sqrt{1-\beta_t}\boldsymbol{z}_t+\frac{\sqrt{\alpha_{t-1}}\beta_t}{1-\alpha_t}\boldsymbol{x}-f_t[\boldsymbol{z}_t,\theta_t]\right\|^2+C\end{equation}$

两个均值已使用蒙特卡洛方法近似， $\boldsymbol{z}_1^*$ 和 $\boldsymbol{z}_t^*$ 是分别从 $q(\boldsymbol{z}_1|\boldsymbol{x})$ 和 $q(\boldsymbol{z}_t|\boldsymbol{x})$ 中采样出来的某个样本，实际优化时常数 $C$ 不用考虑。

最终的目标是 $\max\prod_{i=1}^np(\boldsymbol{x}^{(i)}|\theta_{1:T})$ ，等价于 $\max\sum_{i=1}^n\log \left[p(\boldsymbol{x}^{(i)}|\theta_{1:T})\right]$ ，其中 $n$ 为训练样本的总数。

$\begin{align}\bar{\theta}_{1:T}&=\arg\min-\sum_{i=1}^n\log \left[p(\boldsymbol{x}^{(i)}|\theta_{1:T})\right]\\ &= \arg\min\\ &-\sum_{i=1}^n\left[\underbrace{\log\left[N(f_t(\boldsymbol{z}_1^{(i)},\theta_1),\sigma_1^2\boldsymbol{I})\right]}_{①重建损失}-\sum_{t=2}^{T}\frac{1}{2\sigma_t^2}\left\|\underbrace{\frac{(1-\alpha_{t-1})}{1-\alpha_t}\sqrt{1-\beta_t}\boldsymbol{z}_t^{(i)}+\frac{\sqrt{\alpha_{t-1}}\beta_t}{1-\alpha_t}\boldsymbol{x}^{(i)}}_{②p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})的均值}-\underbrace{f_t[\boldsymbol{z}_t^{(i)},\theta_t]}_{③神经网络估计的均值}\right\|^2\right] \end{align}$

①重建损失：实际上是近似已知 $\boldsymbol{z}_1$ 的情况下 $\boldsymbol{x}$ 的概率密度函数。

② $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})$ 的均值。

③神经网络估计的均值。

该目标函数实际上是在做两件事：一是使得最终 $\boldsymbol{x}$ 的出现概率最大；二是使得解码过程中神经网络估计的均值尽可能逼近 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})$ 的均值。

由于 $\boldsymbol{z}_t=\sqrt{\alpha_t}\boldsymbol{x}+\sqrt{1-\alpha_t}\boldsymbol{\epsilon}_t, t=1,2,\cdots,T$ ，将 $\boldsymbol{x}$ 替换为 $\boldsymbol{z}_t$ 的表达式：

$\begin{equation}\boldsymbol{x}=\frac{1}{\sqrt{\alpha_t}}\boldsymbol{z}_t-\frac{\sqrt{1-\alpha_t}}{\sqrt{\alpha_t}}\boldsymbol{\epsilon}_t\end{equation}$

将该表达式代入目标函数，并利用 $\frac{\sqrt{\alpha_{t-1}}}{\sqrt{\alpha_t}}=\frac{1}{\sqrt{1-\beta_t}}$ ，可继续简化为

$-\sum_{i=1}^n\left[\underbrace{\log\left[N(f_t(\boldsymbol{z}_1^{(i)},\theta_1),\sigma_1^2\boldsymbol{I})\right]}_{①重建损失}-\sum_{t=2}^{T}\frac{1}{2\sigma_t^2}\left\|\underbrace{\frac{1}{\sqrt{1-\beta_t}}\boldsymbol{z}_t^{(i)}-\frac{\beta_t}{\sqrt{(1-\beta_t)(1-\alpha_t)}}\boldsymbol{\epsilon}_t^{(i)}}_{②p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{z}_{0})的均值}-\underbrace{f_t[\boldsymbol{z}_t^{(i)},\theta_t]}_{③神经网络预测的均值}\right\|^2\right]$

其中③由 $\boldsymbol{z}_t$ 和 $g_t[\boldsymbol{z}_t,\theta_t]$ 计算得到：

$\begin{equation}f_t[\boldsymbol{z}_t,\theta_t]=\frac{1}{\sqrt{1-\beta_t}}\boldsymbol{z}_t-\frac{\beta_t}{\sqrt{(1-\beta_t)(1-\alpha_t)}}g_t[\boldsymbol{z}_t,\theta_t]\end{equation}$

其中 $g_t$ 是用于估计噪声 $\boldsymbol{\epsilon}_t$ 的神经网络，而 $\boldsymbol{z}_t$ 在采样阶段是已知的。参数为了方便统一仍记为 $\theta_t$ 。将该表达式代入，目标函数变为：

$\begin{align}\bar{\theta}_{1:T}=\arg\min-\sum_{i=1}^n\left[\underbrace{\log\left[N(f_1(\boldsymbol{z}_1^{(i)},\theta_1),\sigma_1^2\boldsymbol{I})\right]}_{①重建损失}-\sum_{t=2}^{T}\frac{\beta_t^2}{2\sigma_t^2(1-\beta_t)(1-\alpha_t)}\left\|\underbrace{g_t[\boldsymbol{z}_t^{(i)},\theta_t]}_{②神经网络预测的噪声}-\underbrace{\boldsymbol{\epsilon}_t^{(i)}}_{③对样本\boldsymbol{x}^{(i)}在第t步添加的噪声}\right\|^2\right]\end{align}$

对于上式中①，由多元高斯分布的定义可以算出， $\Sigma=\sigma_1^2I$ ， $|\Sigma|^{1/2}$ 为一个常数， $\Sigma^{-1}=\frac{1}{\sigma_1^2}\boldsymbol{I}$ ，故可以写为：

$\begin{align}N(f_1(\boldsymbol{z}_1^{(i)},\theta_1),\sigma_1^2\boldsymbol{I})=-\log\left[(2\pi)^{n/2}|\Sigma|^{1/2}\right]-\frac{1}{2\sigma_1^2}\left\|\boldsymbol{x}^{(i)}-f_1(\boldsymbol{z}_1^{(i)},\theta_1)\right\|^2\end{align}$

而由（47）（48），可知

$\begin{align}\frac{1}{2\sigma_1^2}\left\|\boldsymbol{x}^{(i)}-f_1(\boldsymbol{z}_1^{(i)},\theta_1)\right\|^2&=\frac{1}{2\sigma_1^2}\left\|\frac{1}{\sqrt{\alpha_1}}\boldsymbol{z}_1^{(i)}-\frac{\sqrt{1-\alpha_1}}{\sqrt{\alpha_1}}\boldsymbol{\epsilon}_1^{(i)}- \frac{1}{\sqrt{1-\beta_1}}\boldsymbol{z}_1^{(i)}+\frac{\beta_1}{\sqrt{(1-\beta_1)(1-\alpha_1)}}g_1[\boldsymbol{z}_1^{(i)},\theta_1]\right\|^2\\&=\frac{\beta_1^2}{2\sigma_1^2(1-\beta_1)(1-\alpha_1)}\left\|g_1[\boldsymbol{z}_1^{(i)},\theta_1]-\boldsymbol{\epsilon}_1^{(i)}\right\|^2\end{align}$

至此，目标可以进一步简化为

$\begin{equation}\bar{\theta}_{1:T}=\arg\min \sum_{i=1}^{n}\sum_{t=1}^{T}\frac{\beta_t^2}{2\sigma_t^2(1-\beta_t)(1-\alpha_t)}\left\|g_t[\boldsymbol{z}_t^{(i)},\theta_t]-\boldsymbol{\epsilon}_t^{(i)}\right\|^2 \end{equation}$

其中 $-\log\left[(2\pi)^{n/2}|\Sigma|^{1/2}\right]$ 为一个常数，已从目标中省去。另外，在实际的实验中发现，优化目标的系数并不重要，可以在训练中设置为1以简化目标。

训练

根据编码器和训练目标，可以得到训练算法如下：

对所有的观测数据 $\boldsymbol{x}^{(i)}$ ， $\boldsymbol{z}_{0}^{(i)}=\boldsymbol{x}^{(i)}, i=1,\cdots,n$ ，loss=0，循环执行：

——循环 $t=1,2,\cdots,T$ ，执行：

————计算 $\boldsymbol{z}_t^{(i)}$ ： $\boldsymbol{z}_t^{(i)}=\sqrt{\alpha_t}\boldsymbol{x}^{(i)}+\sqrt{1-\alpha_t}\boldsymbol{\epsilon}_t^{(i)}$ 。其中 $\boldsymbol{\epsilon}^{(i)}\sim N(\boldsymbol{0},\boldsymbol{I})$ 。

————训练 $g_t[\boldsymbol{z}_t^{(i)},\theta_t]$ ，并累积损失loss+= $\frac{\beta_t^2}{2\sigma_t^2(1-\beta_t)(1-\alpha_t)}\left\|g_t[\boldsymbol{z}_t^{(i)},\theta_t]-\boldsymbol{\epsilon}_t^{(i)}\right\|^2$

执行反向传播和梯度下降，更新 $\theta_t$ 。

采样

根据解码器，可以得到采样算法：

从 $N(\boldsymbol{0},\boldsymbol{I})$ 采样出 $\boldsymbol{z}_T$

循环 $t=T-1,T-2,\cdots,1$ ，执行：

——将 $\boldsymbol{z}_t$ 输入神经网络 $g_t$ ，获取 $g_t[\boldsymbol{z}_t,\theta_t]$

——估计 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_t)$ 的均值 $\boldsymbol{\mu}$ ： $\boldsymbol{\mu}=\frac{1}{\sqrt{1-\beta_t}}\boldsymbol{z}_t-\frac{\beta_t}{\sqrt{(1-\beta_t)(1-\alpha_t)}}g_t[\boldsymbol{z}_t,\theta_t]$

——如果 $t > 1$ ：

————从 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t}^*,\theta_t)$ 中采样出 $\boldsymbol{z}_{t-1}$ ： $\boldsymbol{z}_{t-1}=\boldsymbol{\mu}+\sigma_t\boldsymbol{\epsilon}$ ，其中 $\boldsymbol{\epsilon}\sim N(\boldsymbol{0},\boldsymbol{I})$