扩散模型详细推导过程—

符号表

符号	含义
$\boldsymbol{x}^{(i)}=\boldsymbol{z}_0^{(i)}$	第 $i$ 个训练数据，其为长度为 $d$ 的向量
$\boldsymbol{z}_t^{(i)}$	第 $i$ 个训练数据在第 $t$ 时刻的加噪版本
$\boldsymbol{\epsilon}_t^{(i)}$	第 $i$ 个训练数据在第 $t$ 时刻所添加的高斯噪声
$\beta_t$	噪声计划（noise schedule），范围为[0,1]
$\alpha_t$	$\alpha_t=\prod_{s=1}^t (1-\beta_s)$
$N(\boldsymbol{\mu},\sigma^2\boldsymbol{I})$	均值为 $\boldsymbol{\mu}$ ，标准差为 $\sigma$ 的高斯分布
$q\left(·\right)$	正向过程的转移核
$p (\cdot)$	反向过程的转移核
$p\left(·\|\theta\right)$	受参数 $\theta$ 影响，用于拟合反向过程的真实概率密度函数
$f_t$	反向过程中 $t$ 时刻对应的神经网络
$g_t$	反向过程中 $t$ 时刻对应的神经网络
$\theta_t$	神经网络 $f_t$ 或 $g_t$ 的参数
$\theta_{1:T}$	$\theta_1,\theta_2,\cdots,\theta_T$
$d\boldsymbol{z}_{1:T}$	$d\boldsymbol{z}_1d\boldsymbol{z}_2\cdots d\boldsymbol{z}_T$
注：	如没有上标 $^{(i)}$ ，则表明在此语境下不特别指明对应某个样本

扩散模型的扩散过程（编码器）

扩散模型的编码器所做的工作如下:

设有原数据 $\boldsymbol{x}$ ，经过如下的逐步编码（添加噪声）过程可以得到一个符合标准高斯分布的噪声

$\begin{equation}\boldsymbol{z}_t=\sqrt{1-\beta_t}\boldsymbol{z}_{t-1}+\sqrt{\beta_t}\boldsymbol{\epsilon}_t, t=1,2,\cdots,T\end{equation}$

其中 $\boldsymbol{z}_0=\boldsymbol{x}$ ， $\boldsymbol{\epsilon}_1, \boldsymbol{\epsilon}_2,\cdots,\boldsymbol{\epsilon}_t\sim N(\boldsymbol{0}, \boldsymbol{I})$ ， $\beta_1,\beta_2,\cdots,\beta_t\in [0,1]$ 为噪声计划（noise schedule），一般逐级递增。当 $T\rightarrow \infty$ ， $\boldsymbol{z}_T$ 将服从高斯分布，该推导在下面会涉及。

由于每一步的扩散结果 $\boldsymbol{z}_t$ 仅依赖于上一个扩散结果 $\boldsymbol{z}_{t-1}$ ，也即只要已知 $\boldsymbol{z}_{t-1}$ （不需要再知道 $\boldsymbol{z}_{1},\boldsymbol{z}_{2},\cdots,\boldsymbol{z}_{t-2}$ ），再经过计算便可以得到 $\boldsymbol{z}_{t}$ 。该扩散特点符合马尔科夫链的性质，即每一时刻的状态仅依赖于上一时刻的状态，而与之前的状态无关。

现在用一个马尔科夫链表达该扩散过程。在 $\boldsymbol{z}_{t-1}$ 是已知的情况下， $\boldsymbol{z}_t$ 的均值

$\begin{align}E[\boldsymbol{z}_t]&=E[\sqrt{1-\beta_t}\boldsymbol{z}_{t-1}]+E[\sqrt{\beta_t}\boldsymbol{\epsilon}_t]\\&=\sqrt{1-\beta_t}\boldsymbol{z}_{t-1}+\boldsymbol{0}\\&=\sqrt{1-\beta_t}\boldsymbol{z}_{t-1}\end{align}$

$\boldsymbol{z}_t$ 的方差

$\begin{align}Cov[\boldsymbol{z}_t]&=Cov[\sqrt{1-\beta_t}\boldsymbol{z}_{t-1}]+Cov[\sqrt{\beta_t}\boldsymbol{\epsilon}_t]\\ &= \boldsymbol{0}+(\sqrt{\beta_t})^2\boldsymbol{I}\\ &= \beta_t\boldsymbol{I}\end{align}$

以上推导源自于：① $\boldsymbol{z}_{t-1}$ 是已知的，它不是分布，而是常量② $\boldsymbol{\epsilon}_t$ 是标准的高斯分布③若 $\boldsymbol{x}\sim N(\boldsymbol{m}_{x},\boldsymbol{\Sigma}_{x})$ ， $\boldsymbol{y}\sim N(\boldsymbol{m}_y,\boldsymbol{\Sigma}_y)$ ，则 $\boldsymbol{Ax}+\boldsymbol{By}+\boldsymbol{c}\sim N(\boldsymbol{Am}_x+\boldsymbol{Bm}_y+\boldsymbol{c},\boldsymbol{A\Sigma_{x}A}^T+\boldsymbol{B\Sigma_{y}B}^T)$

根据前面的分析，在已知 $\boldsymbol{z}_{t-1}$ 的情况下， $\boldsymbol{z}_t$ 的概率分布，即转移核的表达式如下：

$\begin{equation}q(\boldsymbol{z}_t|\boldsymbol{z}_{t-1})=N(\sqrt{1-\beta_t}\boldsymbol{z}_{t-1},\beta_t\boldsymbol{I})=\frac{1}{(2\pi)^{\frac{d}{2}}\sqrt{\beta_t}}\exp{\left(-\frac{(\boldsymbol{z}_{t}-\sqrt{1-\beta_t}\boldsymbol{z}_{t-1})^2}{2\beta_t}\right)}\end{equation}$

该表达式使用了多元高斯分布的定义，即若随机变量 $X=\begin{bmatrix}X_1\cdots X_n\end{bmatrix}^T$ 服从均值为 $\boldsymbol{\mu}\in\mathbb{R}^n$ ，协方差为 $\boldsymbol{\Sigma}\in\mathbb{S}_{++}^n$ 的多元高斯分布，则其概率密度函数为：
$\begin{aligned}\frac{1}{(2\pi)^{n/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\left(-\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\boldsymbol{\Sigma}^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\right).\end{aligned}$

因此，在已知 $\boldsymbol{x}$ 的情况下，将通过 $q(\boldsymbol{z}_1|\boldsymbol{x})$ 采样得到 $\boldsymbol{z}_1$ ；则 $\boldsymbol{z}_1$ 变为已知，再通过 $q(\boldsymbol{z}_2|\boldsymbol{z}_1)$ 采样得到 $\boldsymbol{z}_2$ ，类似地递推，最后得到 $\boldsymbol{x}_T$ 。当 $T$ 非常大的时候，该过程十分耗时，但可以将 $\boldsymbol{z}_t$ 中的 $\boldsymbol{z}_{t-1}$ 逐层次替换为 $\boldsymbol{x}$ 的表达式，得到
$\begin{aligned} \boldsymbol{z}_{t}& =\sqrt{1-\beta_t}\boldsymbol{z}_{t-1}+\sqrt{\beta_t}\boldsymbol{\epsilon}_{t} \\ &=\sqrt{1-\beta_t}\left(\sqrt{1-\beta_{t-1}}\boldsymbol{z}_{t-2}+\sqrt{\beta_{t-1}}\boldsymbol{\epsilon}_{t-1}\right)+\sqrt{\beta_t}\boldsymbol{\epsilon}_{t} \\ &=\sqrt{(1-\beta_t)(1-\beta_{t-1})}\boldsymbol{z}_{t-2}+\sqrt{1-\beta_t-(1-\beta_t)(1-\beta_{t-1})}\boldsymbol{\epsilon}_{t-1}+\sqrt{\beta_t}\boldsymbol{\epsilon}_{t} \end{aligned}$
再根据高斯分布的混合公式，将 $\boldsymbol{\epsilon_{t-1}}$ 和 $\boldsymbol{\epsilon}_{t}$ 的项混合为 $\boldsymbol{\epsilon}$ 的分布，得到
$\begin{align*} \boldsymbol{z}_{t}&=\sqrt{(1-\beta_t)(1-\beta_{t-1})}\boldsymbol{z}_{t-2}+\sqrt{\sqrt{(1-\beta_t)-(1-\beta_t)(1-\beta_{t-1})}^2+\sqrt{\beta_t}^2}\boldsymbol{\epsilon} \\ &=\sqrt{(1-\beta_t)(1-\beta_{t-1})}\boldsymbol{z}_{t-2}+\sqrt{1-\beta_t-(1-\beta_t)(1-\beta_{t-1})+\beta_t}\boldsymbol{\epsilon} \\ &=\sqrt{(1-\beta_t)(1-\beta_{t-1})}\boldsymbol{z}_{t-2}+\sqrt{1-(1-\beta_t)(1-\beta_{t-1})}\boldsymbol{\epsilon} \\ &=\ldots \\ &=\sqrt{\prod_{i=1}^t(1-\beta_i)}\boldsymbol{x}+\sqrt{1-\prod_{i=1}^t(1-\beta_i)}\boldsymbol{\epsilon} \\ &=\sqrt{\alpha_t}\boldsymbol{x}+\sqrt{1-\alpha_t}\boldsymbol{\epsilon},t=1,2,\cdots,T \end{align*}$
为了区分不同时刻所对应的噪声，对 $\boldsymbol{\epsilon}$ 添加下标 $t$ ，可得
$\begin{equation}\boldsymbol{z}_t=\sqrt{\alpha_t}\boldsymbol{x}+\sqrt{1-\alpha_t}\boldsymbol{\epsilon}_t, t=1,2,\cdots,T\end{equation}$

其中， $\alpha_t=\prod_{s=1}^t (1-\beta_s)$ ， $\boldsymbol{\epsilon}\sim N(\boldsymbol{0}, \boldsymbol{I})$ 。

所以，一旦已知 $\boldsymbol{x}$ ，便可以得到 $\boldsymbol{z}_t$ 的分布，故：

$\begin{equation}q(\boldsymbol{z}_t|\boldsymbol{x})=N(\sqrt{\alpha_t}\boldsymbol{\boldsymbol{x}},(1-\alpha_t)\boldsymbol{I})=\frac{1}{(2\pi)^{\frac{d}{2}}\sqrt{(1-\alpha_t)}}\exp{\left(-\frac{(\boldsymbol{z}_{t}-\sqrt{\alpha_t}\boldsymbol{x})^2}{1-\alpha_t}\right)}\end{equation}$

因此， $\boldsymbol{z}_t$ 可以通过先从标准的高斯分布中采样 $\boldsymbol{\epsilon}$ ，然后和 $\boldsymbol{z}_0$ 进行混合得到。另外可以观察到，因为 $\beta_t$ 在 $t$ 很大的时候近似为 $1$ ，那么 $\alpha_t$ 在 $t$ 很大的时候近似等于0，此时 $q(\boldsymbol{z}_t|\boldsymbol{x})$ 近似为一个标准的高斯分布。

扩散模型的去噪过程（解码器）

扩散模型的解码器是为了反转编码过程。如果知道逆向转移核 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t})$ ，那么就可以先从 $p(\boldsymbol{z}_T)=N(\boldsymbol{0},\boldsymbol{I})$ 采样出 $\boldsymbol{z}_T$ ，再通过 $p(\boldsymbol{z}_{T-1}|\boldsymbol{z}_{T})$ 采样出 $\boldsymbol{z}_{T-1}$ ，依次类推，直到采样出 $\boldsymbol{z}_{0}$ ，即 $\boldsymbol{x}$ 。

贝叶斯公式给出了根据 $q(\boldsymbol{z}_{t}|\boldsymbol{z}_{t-1})$ 求出 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t})$ 的方法，即

$\begin{equation}p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t})=\frac{q(\boldsymbol{z}_{t}|\boldsymbol{z}_{t-1})q(\boldsymbol{z}_{t-1})}{q(\boldsymbol{z}_t)}\end{equation}$

观察该式可知，由于 $q(\boldsymbol{z}_{t-1})/q(\boldsymbol{z}_{t})$ 是未知的，所以求不出任何结果，而且实际上该逆向转移核不一定是高斯分布。

但是，如果给定额外条件 $\boldsymbol{x}$ ，由（15），可以得到

$\begin{equation}p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})=\frac{q(\boldsymbol{z}_{t}|\boldsymbol{z}_{t-1},\boldsymbol{x})q(\boldsymbol{z}_{t-1}|\boldsymbol{x})}{q(\boldsymbol{z}_t|\boldsymbol{x})}\end{equation}$

根据马尔科夫链的性质 $q(\boldsymbol{z}_{t}|\boldsymbol{z}_{t-1},\boldsymbol{x})=q(\boldsymbol{z}_{t}|\boldsymbol{z}_{t-1})$ ，结合公式（8）和（10），经过很复杂的一段化简（省略过程）得到：

$\begin{aligned} p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})& =\quad\frac{q(\boldsymbol{z}_t|\boldsymbol{z}_{t-1})q(\boldsymbol{z}_{t-1}|\boldsymbol{x})}{q(\boldsymbol{z}_t|\boldsymbol{x})} \\ &\propto\quad q(\boldsymbol{z}_t|\boldsymbol{z}_{t-1})q(\boldsymbol{z}_{t-1}|\boldsymbol{x}) \\ &=\quad N_{\boldsymbol{z}_t}\left(\sqrt{1-\beta_t}\cdot\boldsymbol{z}_{t-1},\beta_t\boldsymbol{I}\right)N_{\boldsymbol{z}_{t-1}}\left(\sqrt{\alpha_{t-1}}\cdot\boldsymbol{x},(1-\alpha_{t-1})\boldsymbol{I}\right) \\\end{aligned}$

根据高斯随机变量的变量替换定理，即

$N_{\boldsymbol{v}}\left[\boldsymbol{A}\boldsymbol{w},\boldsymbol{B}\right]\propto N_{\boldsymbol{w}}\left[\left(\boldsymbol{A}^T\boldsymbol{B}^{-1}\boldsymbol{A}\right)^{-1}\boldsymbol{A}^T\boldsymbol{B}^{-1}\boldsymbol{v},\left(\boldsymbol{A}^T\boldsymbol{B}^{-1}\boldsymbol{A}\right)^{-1}\right]$
可得，
$\quad N_{\boldsymbol{z}_t}\left(\sqrt{1-\beta_t}\cdot\boldsymbol{z}_{t-1},\beta_t\boldsymbol{I}\right)N_{\boldsymbol{z}_{t-1}}\left(\sqrt{\alpha_{t-1}}\cdot\boldsymbol{x},(1-\alpha_{t-1})\boldsymbol{I}\right)\propto N_{\boldsymbol{z}_{t-1}}\left(\frac{1}{\sqrt{1-\beta_t}}\boldsymbol{z}_t,\frac{\beta_t}{1-\beta_t}\boldsymbol{I}\right)N_{\boldsymbol{z}_{t-1}}\left(\sqrt{\alpha_{t-1}}\cdot\boldsymbol{x},(1-\alpha_{t-1})\boldsymbol{I}\right)$

再根据

$\begin{aligned}N_{\boldsymbol{w}}[\boldsymbol{a},\boldsymbol{A}]\cdot N_{\boldsymbol{w}}[\boldsymbol{b},\boldsymbol{B}]\propto N_{\boldsymbol{w}}&\left[\left(\boldsymbol{A}^{-1}+\boldsymbol{B}^{-1}\right)^{-1}(\boldsymbol{A}^{-1}\boldsymbol{a}+\boldsymbol{B}^{-1}\boldsymbol{b}),\left(\boldsymbol{A}^{-1}+\boldsymbol{B}^{-1}\right)^{-1}\right]\end{aligned}$

最终得到

$p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_t,\boldsymbol{x})=N_{\boldsymbol{z}_{t-1}}\left[\frac{(1-\alpha_{t-1})}{1-\alpha_t}\sqrt{1-\beta_t}\boldsymbol{z}_t+\frac{\sqrt{\alpha_{t-1}}\beta_t}{1-\alpha_t}\boldsymbol{x},\frac{\beta_t(1-\alpha_{t-1})}{1-\alpha_t}\boldsymbol{I}\right]$

由此可知 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})$ 是一个高斯分布。

因此，尽管 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t})$ 不是高斯分布，但给定条件 $\boldsymbol{x}$ 后得到的 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})$ 是高斯分布。另外，如果 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})$ 的均值和方差被确定，那么进一步可以写出从中采样的公式，得到 $\boldsymbol{z}_{t-1}$ 。因此，可以考虑用神经网络来近似 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})$ （在后续训练目标的推导中可以看出网络的目标实际上是近似 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\boldsymbol{x})$ ），记作 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_t)$ 。为了简化该分布，将其方差设为固定值，神经网络仅仅估计其均值。

$\begin{equation}p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_t)=N(f_t(\boldsymbol{z}_t,\theta_t),\sigma_t^2\boldsymbol{I})\end{equation}$

其中 $f_t$ 为神经网络，其接受输入 $\boldsymbol{z}_t$ 并输出一个估计的均值， $\theta_t$ 为该网络的参数， $\sigma_t$ 为人为设定的标准差。

如果能训练出使得原数据 $\boldsymbol{z}_0$ 总体出现概率最大的神经网络 $f_t(\boldsymbol{z}_t,\theta_t)$ ，进而得到 $p(\boldsymbol{z}_{t-1}|\boldsymbol{z}_{t},\theta_t)$ ，那么就可以先从 $N(\boldsymbol{0},\boldsymbol{I})$ 采样出 $\boldsymbol{z}_T$ ，再通过 $p(\boldsymbol{z}_{T-1}|\boldsymbol{z}_{T},\theta_t)$ 采样出 $\boldsymbol{z}_{T-1}$ ，依次类推，直到采样出 $\boldsymbol{x}$ ，即 $\boldsymbol{z}_{0}$ 。