DDPM公式推导（二）

2 Background

扩散模型【53】是一种以 $p_\theta\left(\mathbf{x}_0\right):=\int p_\theta\left(\mathbf{x}_{0: T}\right) d \mathbf{x}_{1: T}$ 形式的潜在变量模型，其中 $\mathbf{x}_1, \ldots, \mathbf{x}_T$ 是与数据 $\mathbf{x}_0 \sim q\left(\mathbf{x}_0\right)$ 同维度的潜变量。联合分布 $p_\theta\left(\mathbf{x}_{0: T}\right)$ 被称为反向过程，其定义为从 $p\left(\mathbf{x}_T\right)=\mathcal{N}\left(\mathbf{x}_T ; \mathbf{0}, \mathbf{I}\right)$ 开始的学习高斯过渡的马尔科夫链：

$p_\theta\left(\mathbf{x}_{0: T}\right):=p\left(\mathbf{x}_T\right) \prod_{t=1}^T p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right), \quad p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right):=\mathcal{N}\left(\mathbf{x}_{t-1} ; \boldsymbol{\mu}_\theta\left(\mathbf{x}_t, t\right), \mathbf{\Sigma}_\theta\left(\mathbf{x}_t, t\right)\right) \quad(1)$

将扩散模型与其他类型的潜在变量模型区别开来的是，近似后验 $q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)$ （被称为前向过程或扩散过程）固定为一个马尔科夫链，该链根据方差调度 $\beta_1, \ldots, \beta_T$ 逐渐向数据添加高斯噪声：

$q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right):=\prod_{t=1}^T q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right), \quad q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right):=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{1-\beta_t} \mathbf{x}_{t-1}, \beta_t \mathbf{I}\right)\quad(2)$

训练过程主要是通过优化变分下界（也称作证据下界，或ELBO）的负对数似然性来完成的：

$\mathbb{E}\left[-\log p_\theta\left(\mathbf{x}_0\right)\right] \leq \mathbb{E}_q\left[-\log \frac{p_\theta\left(\mathbf{x}_{0: T}\right)}{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}\right]=\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t \geq 1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)}\right]=: L \quad(3)$

可以通过重参数化【33】学习前向过程的方差 $\beta_t$ ，或者将其视为恒定的超参数，并通过选择高斯条件下的 $p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)$ ，确保反向过程的表达力，因为当 $\beta_t$ 很小的时候，这两个过程具有相同的函数形式【53】。前向过程的一个显著特性是，它允许在任意时间步长 $t$ 以封闭形式采样 $\mathbf{x}_t$ ：使用符号 $\alpha_t:=1-\beta_t$ 和 $\bar{\alpha}_t:=\prod_{s=1}^t \alpha_s$ ，我们有：

$q\left(\mathbf{x}_t \mid \mathbf{x}_0\right)=\mathcal{N}\left(\mathbf{x}_t ; \sqrt{\bar{\alpha}_t} \mathbf{x}_0,\left(1-\bar{\alpha}_t\right) \mathbf{I}\right)\quad(4)$

因此，我们可以通过使用随机梯度下降优化 $L$ 的随机项进行高效训练。进一步的改进来自于通过将 $L$ （3）重写为以下格式来降低方差：
$\mathbb{E}_q[\underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)}_{L_T}+\sum_{t>1} \underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)}_{L_{t-1}} \underbrace{-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}_{L_0}]\quad(5)$
（详情请参见附录A。这些项的标签用于第3节。）公式（5）使用KL散度直接将 $p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)$ 与条件于 $\mathbf{x}_0$ 时可以处理的前向过程后验进行比较：
$\begin{aligned} q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) & =\mathcal{N}\left(\mathbf{x}_{t-1} ; \tilde{\boldsymbol{\mu}}_t\left(\mathbf{x}_t, \mathbf{x}_0\right), \tilde{\beta}_t \mathbf{I}\right) \quad(6)\\ \text { where } \quad \tilde{\boldsymbol{\mu}}_t\left(\mathbf{x}_t, \mathbf{x}_0\right) & : \frac{\sqrt{\bar{\alpha}_{t-1}} \beta_t}{1-\bar{\alpha}_t} \mathbf{x}_0+\frac{\sqrt{\alpha_t}\left(1-\bar{\alpha}_{t-1}\right)}{1-\bar{\alpha}_t} \mathbf{x}_t \quad \text { and } \quad \tilde{\beta}_t:=\frac{1-\bar{\alpha}_{t-1}}{1-\bar{\alpha}_t} \beta_t \quad(7) \end{aligned}$
因此，公式（5）中的所有KL散度都是高斯间的比较，所以它们可以以Rao-Blackwellized的方式通过封闭形式的表达式计算，而不是使用高方差的蒙特卡洛估计。

上篇文章DDPM公式推导（一）已经推导了式(2)和式(4)，下面我们来推导式(3)
设概率模型的分布为 $p(\mathbf{x} ; \theta)$ ，其中 $\theta$ 为分布 $p$ 的参数， $\mathbf{x}$ 代表观察到的随机变量，在这里就是图像，准确的说 $\mathbf{x}$ 是包含 $D$ 个像素的高维张量，其每个分量都代表一个像素，因此 $\mathbf{x}$ 是多元随机变量。为了区别于其他分布，模型的分布表示为 $p_\theta(\mathbf{x})$ 。
补充知识–最大似然估计
在深度学习中，估计模型参数的一种常用方法是最大似然估计。似然 (likelihood) 这个词是从贝叶斯公式中而来。如果有给定观测随机变量 $X$ 和假设 $Y$ ，则根据贝叶斯公式有:
$\mid X)=\frac{P(X \mid Y) P(Y)}{P(X)}$
其中等式左侧 $\mid X)$ 是给定数据 $X$ 的情况下假设 $Y$ 成立的概率，称为后验概率，右侧分子中 $P (Y)$ 称为假设的先验概率，而 $\mid Y)$ 在假设 $Y$ 下 $X$ 出现的概率，称为似然。而分母 $P (X)$ 称为数据或证据，主要作用是归一化后验概率，使概率积分为 1 ，一般用 $\alpha$ 代替，因此可以简写如下:
$\mid X)=\alpha P(X \mid Y) P(Y)$
如果所有可能的假设 $Y$ 都有等概率的可能性，则 $P (Y)$ 为常数，因此要使后验 $\mid X)$ 最大，需要似然 $\mid Y)$ 最大，这就是最大似然估计。
$p_\theta(\mathbf{x})$ 定义为似然，模型参数 $\theta$ 本身也是随机变量，可以被视为一种假设，显然 $\theta$ 是未知的， $\mathbf{x}$ 是观察到的随机变量，是已知的，那么就有给定已知的 $\mathbf{x}$ 下假设 $\theta$ 的后验概率 $p(\theta \mid \mathbf{x})$ 。设真实分布的参数为 $\Theta$ ，则显然有 $p(\Theta \mid \mathbf{x})=1$ (在给定 $\mathbf{x}$ 下真实分布的参数 $\Theta$ 必然存在)，因此 $p(\theta \mid x) \leq p(\Theta \mid x)=1$ ，进而得到这样的推论：后验概率 $p(\theta \mid \mathbf{x})$ 越大，就越接近真实分布，因此目标就是最大化 $p(\theta \mid \mathbf{x})$ 。用贝叶斯公式表示 $p(\theta \mid \mathbf{x})$ 就有:
$p(\theta \mid \mathbf{x})=\alpha p(\mathbf{x} \mid \theta) p(\theta)$
由于 $p(\mathbf{x} \mid \theta)$ 是给定 $\theta$ 下生成 $\mathbf{x}$ 的条件概率分布，而这与 $p_\theta(\mathbf{x})$ 原始定义 $p(\mathbf{x} ; \theta)$ 的意义相同，因此两者是等价的。因此，最大化似然就是最大化 $p_\theta(\mathbf{x})$ 。
由于对数有很好的数学性质，可以将乘除法变为加减法，降低求导的复杂度，减小计算量，同时还可以防止计算机在数值计算时的溢出，并且不会影响估计的结果。通常使用对数似然来进行估计，即 $\log p_\theta(\mathbf{x})$ ，DDPM 的训练目标是使对数似然最大的模型参数 $\theta$ ，可以表示为：
$\theta=\underset{\theta}{\arg \max } \log p_\theta(\mathbf{x})$
将 $\mathbf{x}_0$ 代入扩散模型可以表示为:
$p_\theta\left(\mathbf{x}_0\right):=\int p_\theta\left(\mathbf{x}_{0: T}\right) d \mathbf{x}_{1: T}$
取log，得：
$\log p_\theta\left(\mathbf{x}_0\right)=\log \int p_\theta\left(\mathbf{x}_0, \mathbf{x}_{1: T}\right) d \mathbf{x}_{1: T}$
但是这种高维积分难以处理，因此引入变分推断来解决这个问题
知识补充-变分推断
Variational Inference（变分推断）用一个已知的、易于处理和采样 (tractable) 的分布（例如高斯分布或指数分布) 去近似一个未知复杂的难以处理的分布。在数学上变分推断常用 KL-Divergence ( $\mathrm{KL}$ 散度，符号 $\mathcal{D}_{K L}$ ) 来近似，KL散度表示两个分布的相似度，值域是标量，值越小两个分布越接近，并且 KL 散度有个性质是 $\mathcal{D}_{K L} \geq 0$ (通过 Jensen 不等式证明)。KL 散度公式如下:
$\begin{aligned} \mathcal{D}_{K L}(q(x) \| p(x)) & =\int q(x) \log \frac{q(x)}{p(x)} d x \\ & =\int \log \frac{q(x)}{p(x)} q(x)d x\\ & =\mathbb{E}_q\left[\log \frac{q(x)}{p(x)}\right] \end{aligned}$
积分改写为期望, 下标 $q$ 表示 $\sim q(x)$
因此，通过变分推断使模型分布 $p_\theta\left(\mathbf{x}_0\right)$ 尽可能接近真实分布 $q\left(\mathbf{x}_0\right)$ ，最小化两个分布的 KL 散度，因此 DDPM 的训练目标就从最大化对数似然切换到最小化 KL 散度，如下:
$\theta=\underset{\theta}{\arg \min } \mathcal{D}_{K L}\left(q\left(\mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_0\right)\right)$
但是现在真实分布 $q\left(\mathbf{x}_0\right)$ 是未知的，因此人为定义了前向过程 $q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)$ ，而前向过程的目的是构建一个从数据 $\mathbf{x}_0$ 到噪声 $\mathbf{x}_T$ 的路径，使得数据逐步被加噪直至完全变成高斯噪声。通过这个过程，我们可以从任意时刻 $t$ 的噪声状态 $\mathbf{x}_t$ 推导出其在初始数据 $\mathbf{x}_0$ 上的后验分布 $q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)$ 。然后，我们训练一个模型 $p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)$ 来近似这个后验分布。因此前向过程相当于一个中间桥梁，让我们可以让 $p_\theta\left(\mathbf{x}_0\right)$ 去接近 $q\left(\mathbf{x}_0\right)$ 。
后验分布是已知的，代入即可
$\theta=\underset{\theta}{\arg \min } \mathcal{D}_{K L}\left(q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)\right)$
这样就有：
$\begin{array}{rlrl} \mathcal{D}_{K L}(q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right) )& =\mathbb{E}_q\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}{p_\theta\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}\right] & \\ & =\mathbb{E}_q\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right) p_{\theta}(\mathbf{x}_0)}{p_\theta(\mathbf{x}_{0: T})}\right] & & \\ & =\mathbb{E}_q\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}{p_\theta(\mathbf{x}_{0: T})}+\log p_{\theta}(\mathbf{x}_0)\right] & \\ & =\mathbb{E}_q\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}{p_\theta(\mathbf{x}_{0: T})}\right]+\mathbb{E}_q[\log p_{\theta}(\mathbf{x}_0)] & \ \end{array}$
期望下标 $q$ 表示 $\mathbf{x}_{1: T} \sim q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)$ 。
将等式两边重新整理有:
$\begin{aligned} & \mathbb{E}_q[\log p_{\theta}(\mathbf{x}_0)]=\mathcal{D}_{K L}(q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right) )-\mathbb{E}_q\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}{p_\theta(\mathbf{x}_{0: T})}\right] \\ & \mathbb{E}_q[\log p_{\theta}(\mathbf{x}_0)] \geq-\mathbb{E}_q\left[\log \frac{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}{p_\theta(\mathbf{x}_{0: T})}\right] \\ & \mathbb{E}_q[\log p_{\theta}(\mathbf{x}_0)] \geq \mathbb{E}_q\left[\log \frac{p_\theta(\mathbf{x}_{0: T})}{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}\right] \\ & \mathbb{E}_q[-\log p_{\theta}(\mathbf{x}_0)] \leq \mathbb{E}_q\left[-\log \frac{p_\theta(\mathbf{x}_{0: T})}{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}\right]\\ \end{aligned}$
将式(1)式(2)代入得：
$\begin{aligned} \mathbb{E}_q\left[-\log p_\theta\left(\mathbf{x}_0\right)\right] & \leq \mathbb{E}_q\left[-\log \frac{p\left(\mathbf{x}_T\right) \prod_{t=1}^T p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{\prod_{t=1}^T q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)}\right] \\ &= \mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right) - \log \prod_{t=1}^T \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t \geq 1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)}\right] \end{aligned}$
在不等式右侧，把负号提出，在数学上被称为变分下界 (VLB) (或称证据下界 ELBO)，由于两边取负，不等式符号反转，因此在这里就成为变分上界，统称变分界。
就这样，我们推出了式(3)，从而得出结论：最大化对数似然等价于最小化变分上界。即：
$\theta=\underset{\theta}{\arg \min } L$
在式(3)中，我们需要考虑从初始状态 $\mathbf{x}_0$ 到最终状态 $\mathbf{x}_T$ 的所有时间步 $t$ ，并对所有时间步的所有中间状态进行联合期望计算。这种联合期望会包含所有时间步的误差，导致较高的方差。
因此需要降低方差：
$\begin{aligned} L & =\mathbb{E}_q\left[-\log \frac{p_\theta\left(\mathbf{x}_{0: T}\right)}{q\left(\mathbf{x}_{1: T} \mid \mathbf{x}_0\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t \geq 1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_t \mid \mathbf{x}_{t-1}\right)}-\log \frac{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}{q\left(\mathbf{x}_1 \mid \mathbf{x}_0\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_{t} \mid \mathbf{x}_{t-1}, \mathbf{x}_0\right)} -\log \frac{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}{q\left(\mathbf{x}_1 \mid \mathbf{x}_0\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t \right)q\left(\mathbf{x}_{t-1}, \mathbf{x}_0\right)}{q\left(\mathbf{x}_{t} ,\mathbf{x}_{t-1}, \mathbf{x}_0\right)} -\log \frac{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}{q\left(\mathbf{x}_1 \mid \mathbf{x}_0\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t \right)q\left(\mathbf{x}_{t-1}, \mathbf{x}_0\right)}{q\left(\mathbf{x}_{t-1} , \mid \mathbf{x}_{t}, \mathbf{x}_0\right)q\left(\mathbf{x}_t,\mathbf{x}_0\right)} -\log \frac{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}{q\left(\mathbf{x}_1 \mid \mathbf{x}_0\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t \right)q\left(\mathbf{x}_{t-1}, \mid \mathbf{x}_0\right)q\left(\mathbf{x}_0\right)}{q\left(\mathbf{x}_{t-1} , \mid \mathbf{x}_{t}, \mathbf{x}_0\right)q\left(\mathbf{x}_t, \mid \mathbf{x}_0\right)q\left(\mathbf{x}_0\right)} -\log \frac{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}{q\left(\mathbf{x}_1 \mid \mathbf{x}_0\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)} \cdot \frac{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_0\right)}{q\left(\mathbf{x}_t \mid \mathbf{x}_0\right)}-\log \frac{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}{q\left(\mathbf{x}_1 \mid \mathbf{x}_0\right)}\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)} -\sum_{t>1} \log q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_0\right)+\sum_{t>1} \log q\left(\mathbf{x}_t \mid \mathbf{x}_0\right)+\log q\left(\mathbf{x}_1 \mid \mathbf{x}_0\right)-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)} -\sum_{t>1} \log q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_0\right)+\sum_{t \geq 1} \log q\left(\mathbf{x}_t \mid \mathbf{x}_0\right)-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right] \\ & =\mathbb{E}_q\left[-\log p\left(\mathbf{x}_T\right)-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)} +\log q\left(\mathbf{x}_T \mid \mathbf{x}_0\right)-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right] \\ & =\mathbb{E}_q\left[-\log \frac{p\left(\mathbf{x}_T\right)}{q\left(\mathbf{x}_T \mid \mathbf{x}_0\right)}-\sum_{t>1} \log \frac{p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)}{q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)}-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right]\\ &=\mathbb{E}_q\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)+\sum_{t>1} D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right] \end{aligned}$
现在可以得到 $L$ :
$L=\mathbb{E}_q\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)+\sum_{t>1} D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right]$
就这样，推出了式(5),式(5)将式(3)分解为多个时间步的KL散度项，每个项只对应特定时间步的损失。

$L_T$ : 这个项衡量的是从真实数据到最终噪声状态的KL散度，即最后一步的误差。
$L_{t-1}$ : 每个这样的项衡量的是从一个中间状态 $\mathbf{x}_t$ 到前一个状态 $\mathbf{x}_{t-1}$ 的KL散度。具体来说, 它衡量的是模型生成的分布 $p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)$ 与真实的后验分布 $q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)$ 之间的差异。
$L_0$ : 这个项衡量的是从初始数据 $\mathbf{x}_0$ 到第一个中间状态 $\mathbf{x}_1$ 的对数概率。

继续化简：
$\begin{aligned} L&=\mathbb{E}_q\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)+\sum_{t>1} D_{\mathrm{KL}}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)-\log p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right]\\ &=\mathbb{E}_q\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)+\sum_{t>1} \mathcal{D}_{K L}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)-\log \frac{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}{q\left(\mathbf{x}_0 \mid \mathbf{x}_1, \mathbf{x}_0\right)} \cdot q\left(\mathbf{x}_0 \mid \mathbf{x}_1, \mathbf{x}_0\right)\right]\\ &=\mathbb{E}_q\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)+\sum_{t>1} \mathcal{D}_{K L}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)+\log \frac{q\left(\mathbf{x}_0 \mid \mathbf{x}_1, \mathbf{x}_0\right)}{p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)}-\log q\left(\mathbf{x}_0 \mid \mathbf{x}_1, \mathbf{x}_0\right)\right]\\ &=\mathbb{E}_q\left[D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)+\sum_{t>1} \mathcal{D}_{K L}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)+\mathcal{D}_{K L}\left(q\left(\mathbf{x}_0 \mid \mathbf{x}_1, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_0 \mid \mathbf{x}_1\right)\right)-\log q\left(\mathbf{x}_0 \mid \mathbf{x}_1, \mathbf{x}_0\right)\right]\\ &=\mathbb{E}_q\left[\underbrace{D_{\mathrm{KL}}\left(q\left(\mathbf{x}_T \mid \mathbf{x}_0\right) \| p\left(\mathbf{x}_T\right)\right)}_{\text {与 } \theta \text { 无关项 }}+\sum_{t \geq 1} \underbrace{\mathcal{D}_{K L}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)}_{L_t}-\underbrace{\log q\left(\mathbf{x}_0 \mid \mathbf{x}_1, \mathbf{x}_0\right)}_{\text {与 } \theta \text { 无关项 }}\right]\\ \end{aligned}$
与参数 $\theta$ 无关梯度为0，因此不作为训练目标。这样 $L_{t-1}$ 与 $L_0$ 合并为 $L_t$ 就有:
$L_t=\mathbb{E}_q\left[\mathcal{D}_{K L}\left(q\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right) \| p_\theta\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t\right)\right)\right]$
最终模型目标就是最小化 $L_t$ ，即:
$\theta=\underset{\theta}{\arg \min } L_t$