18、TimeDiff论文笔记

TimeDiff

**1. 背景与动机**
**2. 扩散模型基础**
**3. TimeDiff 模型**
- - - **3.1 前向扩散过程**
    - **3.2 后向去噪过程**
4、TimeDiff（架构）
- 原理
- 训练
- 推理
- 其他关键点解释
DDPM（相关数学）
- 1、正态分布
- 2、条件概率
- - - 1. **与多个条件相关**（依赖所有前置条件）
    - 2. **仅与上一个条件相关**（马尔可夫性质）
- 2、联合概率分布和马尔可夫
- - 一、联合概率分布（Joint Probability Distribution）
  - - 1. **离散随机变量的联合概率分布**
    - 2. **连续随机变量的联合概率分布**
  - 二、马尔可夫性质与马尔可夫链的公式表示
  - - 1. **马尔可夫性质（Markov Property）**
    - 2. **马尔可夫链（Markov Chain）的联合概率分布**
  - 三、联合概率分布与马尔可夫的联系
- 2、 $\mathcal{N}(x_k; \sqrt{1 - \beta_k} x_{k-1}, \beta_k I)$ 中为啥加**变量 $x_k$ **
- - 一、正态分布的符号约定：区分变量与参数
  - - 1. **符号结构**
    - 2. **示例对比**
  - 二、条件概率中的必要性：明确变量依赖关系
  - - 1. **条件概率的本质**
    - 2. **避免符号混淆**
- 3、 $q(x_k | x_{k-1}) = \mathcal{N}\left(x_k; \sqrt{1 - \beta_k} x_{k-1}, \beta_k I\right)$ 解释
- - 一、条件概率 $q(x_k | x_{k-1})$ 的含义
  - - 1. **条件概率的定义**
    - 2. **条件概率的作用**
  - 二、 $\mathcal{N}(\cdot; \mu, \Sigma)$ 中“；”的含义
  - - 1. **正态分布的符号约定**
    - 2. **均值项 $\sqrt{1 - \beta_k} x_{k-1}$ **
    - 3. **协方差矩阵 $\beta_k I$ **
  - 三、公式与扩散模型的联系（结合文档内容）
  - - 1. **前向扩散过程的数学推导**
    - 2. **训练目标的基础**
  - 四、举例说明
DDPM和 Conditional DDPM（原理）
- - 2.1. Diffusion Models 原理详解
  - - 核心思想
    - 前向扩散过程（Forward Diffusion）
    - 反向去噪过程（Reverse Denoising）
    - 反向去噪过程（Backward Denoising Process）
    - - 1. **条件概率分布**
      - 2. **训练目标：最小化 KL 散度**
      - 两种训练策略：噪声预测 vs 数据预测
      - 1. **噪声预测（Noise Prediction，如 DDPM）**
      - 2. **数据预测（Data Prediction）**
    - 示例说明
  - 2.2条件扩散模型（Conditional Diffusion Models）
  - 2.3. Conditional DDPMs for Time Series Prediction （时间序条件扩散模型）
  - - - 0、核心思想
      - 1. **条件分布建模**
      - 2. **核心挑战**
    - 现有时间序列扩散模型分析
    - - 1. **TimeGrad（自回归模型，Rasul et al., 2021）**
      - 2. **CSDI（非自回归模型，Tashiro et al., 2021）**
      - 3. **SSSD（CSDI 改进版，Alcaraz & Strodthoff, 2022）**
      - 4. **与 NLP 模型的对比**
    - 四、核心问题总结

4.17
论文：https://arxiv.org/abs/2306.05043
Non-autoregressive Conditional Diffusion Models for Time Series Prediction

1. 背景与动机

时间序列预测在经济学、交通、能源等领域有广泛应用。近年来，去噪扩散模型（denoising diffusion models）在图像、音频和文本生成领域取得了显著突破，但如何将这种强大的建模能力应用于时间序列预测仍是一个开放问题。

时间序列数据通常具有复杂的动态特性、非线性模式和长期依赖关系，这使得预测（尤其是长预测范围）变得非常具有挑战性。现有的时间序列扩散模型主要分为两类：

自回归模型（如 TimeGrad）：逐时间步生成未来预测，但因误差累积和推理速度慢而受限。
非自回归模型（如 CSDI 和 SSSD）：通过条件化去噪网络的中间层引入归纳偏置，但其长期预测性能仍不如其他时间序列预测模型（如 Fedformer 和 NBeats）。
现有模型的不足
- 自回归模型（如 TimeGrad）：逐时刻生成，误差累积且推理慢。
- 非自回归模型（如 CSDI、SSSD）：借用图像/文本条件策略，未针对时间序列设计，长程预测性能弱，存在边界不和谐问题。

论文提出 TimeDiff，一种非自回归条件扩散模型，通过引入两种新颖的条件机制（future mixup 和 autoregressive initialization）来提高时间序列预测的性能。

2. 扩散模型基础

扩散模型由前向扩散过程和后向去噪过程组成。前向扩散过程通过逐渐添加噪声，前向扩散过程将输入 $x^{0}$ 转换为 K 扩散步骤中的高斯白噪声矢量 $x^{K}$ ，最终变成 $x_{1:H}^K \sim \mathcal{N}(0, I)$ 纯噪声。后向去噪过程向后降噪过程是马尔可夫过程，给定纯噪声 $x_{1:H}^K \sim \mathcal{N}(0, I)$ 还原到 $x_{1:H}^0 \in \mathbb{R}^{d \times H}$ 。

扩散模型由前向扩散过程和后向去噪过程组成：

前向扩散过程：通过逐步添加噪声，将输入数据 $x_0$ 转换为高斯噪声 $x_K$ 。
后向去噪过程：通过神经网络学习逐步去除噪声，恢复原始数据。

条件扩散模型通过条件输入 $c$ 指导去噪过程，适用于时间序列预测任务。

3. TimeDiff 模型

TimeDiff 的核心在于两种条件机制：

Future Mixup：
- 在训练阶段，将过去的观测信息 $F(x_{-L+1:0})$ 和未来的真值 $x_{1:H}$ 混合，形成条件信号 $z_{\text{mix}}$ 。
- 在推理阶段，仅使用过去的观测信息 $F(x_{-L+1:0})$ 。
- 这种机制类似于教师强迫（teacher forcing），但在非自回归条件下工作。
Autoregressive Initialization：
- 使用线性自回归模型 $M_{\text{AR}}$ 对未来的粗略估计 $z_{\text{AR}}$ 进行初始化。
- 该模型捕获时间序列的基本模式（如短期趋势），避免边界不和谐问题。

这两种机制的输出沿通道维度拼接，形成最终的条件信号 $\text{concat}([z_{\text{mix}}, z_{\text{AR}}])$ 。

3.1 前向扩散过程

TimeDiff 的前向扩散过程与标准扩散模型一致，通过逐步添加噪声将未来的真值 $x_{1:H}$ 转换为噪声向量。

3.2 后向去噪过程

去噪网络结合扩散步长嵌入 $p_k$ 和条件信号 $c$ ，通过多层卷积网络生成去噪后的样本。

4、TimeDiff（架构）

（请先了解DDPM原理：链接）
在这里插入图片描述图 1.建议的 TimeDiff 的图示。 $x^{0}_{L+1: 0}$ 包含过去的观测值， $x_{1: H}^{0}$ 包含未来的真实输出。

原理

给定 历史观测 $x_{-L+1:0}^0 \in \mathbb{R}^{d \times L}$ （包含 $d$ 个变量，长度为 $L$ 的历史窗口），预测 未来值 $x_{1:H}^0 \in \mathbb{R}^{d \times H}$ （长度为 $H$ 的预测窗口）。核心是建模条件分布 $p_\theta(x_{1:H}^0 | x_{-L+1:0}^0)$ ，其中：

前向扩散过程：向预测值 $x_{1:H}^0 \in \mathbb{R}^{d \times H}$ (训练集中真实值已知)中不断加噪 $x_{1:H}^k \in \mathbb{R}^{d \times H}$ （k步扩散），最终变成 $x_{1:H}^K \sim \mathcal{N}(0, I)$ 纯噪声。
后向去噪过程：历史观测 $x_{-L+1:0}^0 \in \mathbb{R}^{d \times L}$ 经过F获得条件c， $p_\theta(x_{1:H}^{k-1} | x_{1:H}^k, c)$ 反向去噪分布，在第 $k$ 次去噪步骤中， $x_{1:H}^k$ 被去噪为 $x_{1:H}^{k-1}$ 。给定纯噪声 $x_{1:H}^K \sim \mathcal{N}(0, I)$ 还原到 $x_{1:H}^0 \in \mathbb{R}^{d \times H}$ 。

模型架构

前向扩散：与 DDPM 一致，通过逐步加噪生成含噪样本 $x^k = \sqrt{\bar{\alpha}_k}x^0 + \sqrt{1-\bar{\alpha}_k}\epsilon$ 。
去噪网络：
- 输入：含噪样本 $x^k$ 、扩散步长嵌入 $p^k$ 、条件信号 $\text{concat}(z_{\text{mix}}, z_{\text{ar}})$ 。
- 结构：卷积编码器提取特征，解码器融合条件信号，直接预测数据 $x_\theta$ 而非噪声，提升对非线性噪声的鲁棒性。

训练

训练流程如算法 1 所示。对于每个 $x_{1:H}^0$ ，我们首先随机采样一批扩散步骤 $k$ ，然后最小化公式 (10) 的条件变体：
$\min_\theta \mathcal{L}(\theta) = \min_\theta \mathbb{E}_{x_{1:H}^0, \epsilon \sim \mathcal{N}(0, I), k} \mathcal{L}_k(\theta),$
其中
$\mathcal{L}_k(\theta) = \left\| x_{1:H}^0 - x_\theta \left( x_{1:H}^k, k \mid c \right) \right\|^2. \quad (19)$

推理

在推理阶段（算法 2），我们首先生成一个大小为 $\times H$ 的噪声向量 $x_{1:H}^K \sim \mathcal{N}(0, I)$ 。通过重复运行去噪步骤 (18) 直至 $k = 1$ （当 $k = 1$ 时 $\epsilon$ 设为 0），最终得到时间序列 $\hat{x}_{1:H}^0$ 作为最终预测。

其他关键点解释

位置编码 $p^k$
位置编码融入：去噪网络如图 1 中红色部分所示。对 $x_{1:H}^k \in \mathbb{R}^{d \times H}$ 进行去噪时，首先将扩散步长嵌入 $p^k$ 与扩散输入 $x_{1:H}^k$ 的嵌入 $z_1^k \in \mathbb{R}^{d' \times H}$ 结合，其中 $z_1^k$ 由包含多个卷积层的输入投影模块生成。
⊙哈达玛积（Hadamard product）：矩阵按位相乘，
- 示例：
  若
  $\mathbf{A} = \begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{bmatrix}, \quad \mathbf{B} = \begin{bmatrix} b_{11} & b_{12} \\ b_{21} & b_{22} \end{bmatrix},$
  则
  $\mathbf{A} \odot \mathbf{B} = \begin{bmatrix} a_{11}b_{11} & a_{12}b_{12} \\ a_{21}b_{21} & a_{22}b_{22} \end{bmatrix}.$

DDPM（相关数学）

1、正态分布

https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/829892
正态分布（Normal distribution），又称为常态分布或高斯分布，通常记作X~N（μ ,σ2）。其中， μ是正态分布的数学期望（均值）， σ2是正态分布的方差。μ = 0,σ = 1的正态分布被称为标准正态分布 [1]。

在这里插入图片描述

2、条件概率

https://baike.baidu.com/item/%E6%9D%A1%E4%BB%B6%E6%A6%82%E7%8E%87/4475278

条件概率
条件概率是指事件A在事件B发生的条件下发生的概率。条件概率表示为：P（A|B），读作“A在B发生的条件下发生的概率”。若只有两个事件A，B，那么，。
联合概率
表示两个事件共同发生的概率。A与B的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。 [2]
边缘概率
是某个事件发生的概率，而与其它事件无关。边缘概率是这样得到的：在联合概率中，把最终结果中不需要的那些事件合并成其事件的全概率而消失（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率）。这称为边缘化（marginalization）。A的边缘概率表示为P(A)，B的边缘概率表示为P(B)。

条件概率，多条件Xn，与多个条件相关和只与上一个条件相关：
当事件序列 $X_1, X_2, \dots, X_n$ 的条件概率依赖关系不同时，联合概率的计算方式也会不同。

1. 与多个条件相关（依赖所有前置条件）

• 定义：每个事件 $X_i$ 的条件概率依赖于之前所有事件 $X_1, X_2, \dots, X_{i-1}$ 的发生。
• 链式法则：
联合概率可分解为一系列条件概率的乘积，公式为：
$P(X_1, X_2, \dots, X_n) = P(X_1) \cdot P(X_2|X_1) \cdot P(X_3|X_1,X_2) \cdot \dots \cdot P(X_n|X_1,\dots,X_{n-1})$

概率计算：在这种情况下，计算事件 A 发生的概率 P(A|B,C,D) 可以用联合概率除以边缘概率的方法，即 P(A|B,C,D) = P(A,B,C,D)/P(B,C,D)，其中 P(B,C,D) > 0。联合概率 P(A,B,C,D) 表示事件 A、B、C、D 同时发生的概率，边缘概率 P(B,C,D) 表示事件 B、C、D 同时发生的概率。

2. 仅与上一个条件相关（马尔可夫性质）

• 定义：每个事件 $X_i$ 的条件概率仅依赖于前一个事件 $X_{i-1}$ ，即 $P(X_i|X_1,\dots,X_{i-1}) = P(X_i|X_{i-1})$ 。
• 简化形式：
联合概率可简化为：
$P(X_1, X_2, \dots, X_n) = P(X_1) \cdot P(X_2|X_1) \cdot P(X_3|X_2) \cdot \dots \cdot P(X_n|X_{n-1})$
这种形式常见于时序模型（如马尔可夫链），例如网页 6 提到的股票价格预测中，当前价格可能仅依赖前一时段的价格。

概率计算：在这种情况下，条件概率可以简化为 P(A|B)，而不必考虑更前面的条件。例如，在一个二阶马尔可夫链中，事件 A 发生的概率只与前两个事件有关，即 P(A|B,C)，但与更早的事件无关。不过，对于一阶马尔可夫链，就只考虑前一个事件，即 P(A|B)。

2、联合概率分布和马尔可夫

以下是联合概率分布与马尔可夫性质/马尔可夫链的具体公式表示：

一、联合概率分布（Joint Probability Distribution）

1. 离散随机变量的联合概率分布

设 $X_1, X_2, \dots, X_n$ 为离散随机变量，其联合概率质量函数（Joint PMF）为：
$P(X_1 = x_1, X_2 = x_2, \dots, X_n = x_n)$

边缘概率分布：单个变量的概率分布，通过对其他变量求和得到，例如：
$P(X_1 = x_1) = \sum_{x_2} \sum_{x_3} \cdots \sum_{x_n} P(X_1 = x_1, X_2 = x_2, \dots, X_n = x_n)$
条件概率分布：给定 $X_2, \dots, X_n$ 时 $X_1$ 的条件概率：
$P(X_1 = x_1 \mid X_2 = x_2, \dots, X_n = x_n) = \frac{P(X_1 = x_1, X_2 = x_2, \dots, X_n = x_n)}{P(X_2 = x_2, \dots, X_n = x_n)}$
链式法则（Chain Rule）：联合概率可分解为条件概率的乘积：
$P(X_1, X_2, \dots, X_n) = P(X_1) \cdot P(X_2 \mid X_1) \cdot P(X_3 \mid X_1, X_2) \cdot \cdots \cdot P(X_n \mid X_1, X_2, \dots, X_{n-1})$

2. 连续随机变量的联合概率分布

设 $X_1, X_2, \dots, X_n$ 为连续随机变量，其联合概率密度函数（Joint PDF）为 $f(x_1, x_2, \dots, x_n)$ ，

边缘概率密度：
$f_{X_1}(x_1) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f(x_1, x_2, \dots, x_n) \, dx_2 \cdots dx_n$
条件概率密度：
$f_{X_1 \mid X_2, \dots, X_n}(x_1 \mid x_2, \dots, x_n) = \frac{f(x_1, x_2, \dots, x_n)}{f_{X_2, \dots, X_n}(x_2, \dots, x_n)}$

二、马尔可夫性质与马尔可夫链的公式表示

1. 马尔可夫性质（Markov Property）

对于随机过程 $\{X_t\}_{t=0,1,2,\dots}$ ，若在任意时刻 $n$ ，未来状态 $X_{n+1}$ 仅依赖于当前状态 $X_n$ ，与历史状态 $X_0, X_1, \dots, X_{n-1}$ 无关，则称该过程具有一阶马尔可夫性质，数学表达式为：
$P(X_{n+1} = x_{n+1} \mid X_0 = x_0, X_1 = x_1, \dots, X_n = x_n) = P(X_{n+1} = x_{n+1} \mid X_n = x_n)$
一般地，若过程满足 $k$ 阶马尔可夫性质，则未来状态仅依赖于前 $k$ 个历史状态（如 $k = 1$ 为一阶，最常见）。

2. 马尔可夫链（Markov Chain）的联合概率分布

设马尔可夫链的状态空间为 $\mathcal{S}$ ，初始分布为 $\pi(x_0) = P(X_0 = x_0)$ ，转移概率矩阵为 $P(X_{t+1} = j \mid X_t = i) = p_{i,j}$ （时间齐次情况下转移概率与时间 $t$ 无关）。

有限时间步的联合概率：对于状态序列 $x_0, x_1, \dots, x_n$ ，其联合概率可利用马尔可夫性质分解为：
$P(X_0 = x_0, X_1 = x_1, \dots, X_n = x_n) = \pi(x_0) \cdot \prod_{k=0}^{n-1} P(X_{k+1} = x_{k+1} \mid X_k = x_k)$
若时间齐次，则转移概率 $P(X_{k+1} = j \mid X_k = i) = p_{i,j}$ ，联合概率简化为：
$P(X_0 = x_0, X_1 = x_1, \dots, X_n = x_n) = \pi(x_0) \cdot \prod_{k=0}^{n-1} p_{x_k, x_{k+1}}$
n 步转移概率：从状态 $i$ 经过 $n$ 步转移到状态 $j$ 的概率 $P^{(n)}_{i,j}$ ，可通过 Chapman-Kolmogorov 方程计算：
$P^{(n+m)}_{i,j} = \sum_{k \in \mathcal{S}} P^{(n)}_{i,k} \cdot P^{(m)}_{k,j}$

三、联合概率分布与马尔可夫的联系

在马尔可夫链中，联合概率分布的链式法则因马尔可夫性质而简化：

一般链式法则： $P(X_0, X_1, \dots, X_n) = P(X_0) \cdot P(X_1 \mid X_0) \cdot P(X_2 \mid X_0, X_1) \cdot \cdots \cdot P(X_n \mid X_0, \dots, X_{n-1})$
马尔可夫链链式法则： $P(X_0, X_1, \dots, X_n) = P(X_0) \cdot \prod_{k=0}^{n-1} P(X_{k+1} \mid X_k)$ （仅依赖前一状态）

2、 $\mathcal{N}(x_k; \sqrt{1 - \beta_k} x_{k-1}, \beta_k I)$ 中为啥加变量 $x_k$

$\mathcal{N}(\cdot; \mu, \Sigma)$ 中“；”的含义：

正态分布的符号约定
$\mathcal{N}(x_k; \sqrt{1 - \beta_k} x_{k-1}, \beta_k I)$ 表示 多元正态分布，其中：

分号“；” 用于分隔 随机变量 和 分布参数（均值和协方差）。
- 左侧 $x_k$ 是随机变量（待生成的样本）。
- 右侧 $\sqrt{1 - \beta_k} x_{k-1}$ 是 均值向量 $\mu$ ， $\beta_k I$ 是 协方差矩阵 $\Sigma$ 。

一、正态分布的符号约定：区分变量与参数

1. 符号结构

一般形式：
- 无条件分布： $\mathcal{N}(\mu, \Sigma)$ ，其中 $\mu$ 是均值， $\Sigma$ 是协方差矩阵（无明确变量时，默认变量为任意随机变量）。
- 条件分布或带变量的分布： $\mathcal{N}(x; \mu, \Sigma)$ ，其中 分号“；”左侧的 $x$ 是 随机变量，右侧是 分布参数（均值和协方差）。
作用：明确指出“哪个变量 服从以 $\mu$ 为均值、 $\Sigma$ 为协方差的正态分布”，避免歧义。

2. 示例对比

若写为 $\mathcal{N}(\sqrt{1 - \beta_k} x_{k-1}, \beta_k I)$ ，可能被误解为“均值是 $x_k$ ，协方差是其他参数”，而实际均值是 $\sqrt{1 - \beta_k} x_{k-1}$ 。
加入变量 $x_k$ 后，清晰表达为“变量 $x_k$ 服从均值为 $\sqrt{1 - \beta_k} x_{k-1}$ 、协方差为 $\beta_k I$ 的正态分布”。

二、条件概率中的必要性：明确变量依赖关系

1. 条件概率的本质

公式 $q(x_k | x_{k-1}) = \mathcal{N}(x_k; \sqrt{1 - \beta_k} x_{k-1}, \beta_k I)$ 描述的是 在给定 $x_{k-1}$ 的条件下，变量 $x_k$ 的分布。

左侧 $q(x_k | x_{k-1})$ ：条件概率密度函数，变量是 $x_k$ ，条件是 $x_{k-1}$ 。
右侧 $\mathcal{N}(x_k; \dots)$ ：显式指出随机变量是 $x_k$ ，其分布参数（均值、协方差）依赖于 $x_{k-1}$ 和 $\beta_k$ 。

2. 避免符号混淆

在条件概率中，若省略变量 $x_k$ ，可能导致以下歧义：

误认为参数 $\sqrt{1 - \beta_k} x_{k-1}$ 是另一个随机变量。
无法区分“分布关于 $x_k$ ”还是“分布关于 $x_{k-1}$ ”。
加入 $x_k$ 后，明确了分布的主体是 当前步变量 $x_k$ ，而 $x_{k-1}$ 是条件输入（已知值，非随机变量）。

3、 $q(x_k | x_{k-1}) = \mathcal{N}\left(x_k; \sqrt{1 - \beta_k} x_{k-1}, \beta_k I\right)$ 解释

一、条件概率 $q(x_k | x_{k-1})$ 的含义

1. 条件概率的定义

$q(x_k | x_{k-1})$ 表示 在已知第 $k - 1$ 步样本 $x_{k-1}$ 的条件下，第 $k$ 步样本 $x_k$ 的概率分布。

这是 马尔可夫过程 的核心特征：当前状态仅依赖于前一步状态，与更早的状态无关，即 $q(x_k | x_{k-1}, x_{k-2}, \dots, x_0) = q(x_k | x_{k-1})$ （文档段落）。
在扩散模型的 前向扩散过程 中，它描述了从 $x_{k-1}$ 到 $x_k$ 的噪声添加过程，是逐步将初始数据 $x_0$ 转换为高斯白噪声 $x_K$ 的基础（文档段落）。

2. 条件概率的作用

前向扩散的核心机制：每一步通过该条件概率添加噪声，实现“信号衰减 + 噪声累加”。例如：
$x_k = \sqrt{1 - \beta_k} x_{k-1} + \sqrt{\beta_k} \epsilon$
$\beta_k$ 是噪声的方差（随步骤 $k$ 递增，如从 $10^{-4}$ 到 $10^{-1}$ ，文档段落）。
$\sqrt{1 - \beta_k}$ 是缩放因子，其中 $\beta_k \in [0, 1]$ 是第 $k$ 步的 噪声方差参数（文档段落）。
噪声 $\epsilon \sim \mathcal{N}(0, I)$
若 $x_{k-1}$ 是干净样本（接近初始数据），则 $x_k$ 是 $x_{k-1}$ 缩放后叠加噪声的结果（文档段落）。
随着 $k$ 增大，噪声占比逐渐增加，最终 $x_K$ 接近纯高斯噪声（ $\mathcal{N}(0, I)$ ）。

二、 $\mathcal{N}(\cdot; \mu, \Sigma)$ 中“；”的含义

1. 正态分布的符号约定

$\mathcal{N}(x_k; \sqrt{1 - \beta_k} x_{k-1}, \beta_k I)$ 表示 多元正态分布，其中：

分号“；” 用于分隔 随机变量 和 分布参数（均值和协方差）。
- 左侧 $x_k$ 是随机变量（待生成的样本）。
- 右侧 $\sqrt{1 - \beta_k} x_{k-1}$ 是 均值向量 $\mu$ ， $\beta_k I$ 是 协方差矩阵 $\Sigma$ 。
这是数学上的标准符号约定，不同于逗号“,”（通常用于分隔同一类参数，如 $\mathcal{N}(\mu, \Sigma)$ ）。

2. 均值项 $\sqrt{1 - \beta_k} x_{k-1}$

物理意义：对前一步样本 $x_{k-1}$ 进行缩放，保留“信号”部分。
- $\sqrt{1 - \beta_k}$ 是缩放因子，其中 $\beta_k \in [0, 1]$ 是第 $k$ 步的 噪声方差参数（文档段落）。
- 若 $\beta_k = 0$ ，则均值为 $x_{k-1}$ （不添加噪声）；若 $\beta_k = 1$ ，则均值为 0（完全丢弃信号，仅保留噪声）。

3. 协方差矩阵 $\beta_k I$

物理意义：定义当前步添加的 独立高斯噪声。
- $\beta_k$ 是噪声的方差（随步骤 $k$ 递增，如从 $10^{-4}$ 到 $10^{-1}$ ，文档段落）。
- $I$ 是单位矩阵，表示噪声在各维度上 独立同分布（适用于多元时间序列，每个变量的噪声互不相关）。
噪声生成方式：噪声 $\epsilon \sim \mathcal{N}(0, I)$ ，当前步样本可表示为：
$x_k = \sqrt{1 - \beta_k} x_{k-1} + \sqrt{\beta_k} \epsilon$
即“信号部分” + “噪声部分”，其中噪声的标准差为 $\sqrt{\beta_k}$ （文档段落公式推导）。

三、公式与扩散模型的联系（结合文档内容）

1. 前向扩散过程的数学推导

文档段落指出，通过递推可证明 $x_k$ 与初始数据 $x_0$ 的关系为：
$x_k = \sqrt{\bar{\alpha}_k} x_0 + \sqrt{1 - \bar{\alpha}_k} \epsilon, \quad \bar{\alpha}_k = \prod_{s=1}^k (1 - \beta_s)$

这一结果正是基于条件概率 $q(x_k | x_{k-1})$ 的逐步应用，其中 $\sqrt{\bar{\alpha}_k}$ 是累计信号保留系数，对应多次缩放后的均值项。

2. 训练目标的基础

扩散模型的反向去噪过程（文档段落）依赖前向过程的高斯假设，通过神经网络估计均值 $\mu_\theta(x_k, k)$ 和方差 $\sigma_k^2$ ，实现从噪声恢复原始数据。

条件概率 $q(x_k | x_{k-1})$ 的均值和协方差为反向过程提供了明确的优化目标（如最小化 KL 散度，文档段落）。

四、举例说明

假设初始数据 $x^0 = [1.0, 0.5]$ （二维向量），扩散步长 $\beta_1 = 0.1$ ：

计算均值：
$\sqrt{1-\beta_1} \cdot x^0 = \sqrt{0.9} \cdot [1.0, 0.5] \approx [0.9487, 0.4743]$
协方差矩阵：
$\beta_1 I = 0.1 \cdot \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$
采样 $x^1$ ：
从 $\mathcal{N}([0.9487, 0.4743], 0.1I)$ 中随机采样，例如：
$x^1 \approx [0.9487 + \epsilon_1, 0.4743 + \epsilon_2]$
其中 $\epsilon_1, \epsilon_2 \sim \mathcal{N}(0, 0.1)$ 。

扩散过程的作用
通过逐步增大 $\beta_k$ ，前向过程将数据 $x^0$ 逐渐变为纯噪声：
• 初始步（ $k = 0$ ）： $x^0$ 是原始数据。
• 中间步（ $k = 1, 2, ..., K - 1$ ）：数据逐渐模糊化。
• 最终步（ $k = K$ ）： $x^K$ 近似为标准高斯噪声 $\mathcal{N}(0, I)$ 。

DDPM和 Conditional DDPM（原理）

扩散模型由前向扩散过程和后向去噪过程组成：

前向扩散过程：通过逐步添加噪声，将输入数据 $x_0$ 转换为高斯噪声 $x_K$ 。
后向去噪过程：通过神经网络学习逐步去除噪声，恢复原始数据。

条件扩散模型通过条件输入 $c$ 指导去噪过程，适用于时间序列预测任务。

2.1. Diffusion Models 原理详解

核心思想

扩散模型通过两个过程学习数据分布：

前向扩散过程：逐步对数据添加噪声，最终将数据转化为纯噪声。
反向去噪过程：训练神经网络从噪声中逐步恢复原始数据。

前向扩散过程（Forward Diffusion）

数学定义：
给定原始数据 $x^0$ ，通过 $K$ 步逐步添加高斯噪声。第 $k$ 步的噪声强度由方差计划 $\beta_k$ 控制：
$q(x^k | x^{k-1}) = \mathcal{N}\left(x^k; \sqrt{1-\beta_k} x^{k-1}, \beta_k I\right)$
重参数化技巧：
可直接从 $x^0$ 计算任意第 $k$ 步的噪声数据：
$x^k = \sqrt{\bar{\alpha}_k} x^0 + \sqrt{1-\bar{\alpha}_k} \epsilon \quad \text{其中} \quad \epsilon \sim \mathcal{N}(0, I)$
其中：
• $\alpha_k = 1 - \beta_k$
• $\bar{\alpha}_k = \prod_{s=1}^k \alpha_s$

直观解释：
随着 $k$ 增大， $\sqrt{\bar{\alpha}_k} \to 0$ ，数据逐渐被噪声淹没。例如，若 $\beta_k$ 线性增加，第 500 步时数据几乎变为纯噪声。

公式推导过程：

单步扩散公式
在第 $k$ 步，噪声方差为 $\beta_k \in [0,1]$ ，扩散过程为：
$q(x^{k} | x^{k-1}) = \mathcal{N}\left(x^{k}; \sqrt{1-\beta_k} x^{k-1}, \beta_k I\right)$
其中， $\sqrt{1-\beta_k}$ 是保留因子， $\beta_k I$ 是添加的高斯噪声。
累积扩散公式
通过递归展开，可直接从 $x^0$ 生成 $x^k$ ：
$q(x^k | x^0) = \mathcal{N}\left(x^k; \sqrt{\bar{\alpha}_k} x^0, (1-\bar{\alpha}_k) I\right)$
其中 $\alpha_k = 1-\beta_k$ ， $\bar{\alpha}_k = \prod_{s=1}^k \alpha_s$ 。通过重参数化技巧，采样可表示为：
$x^k = \sqrt{\bar{\alpha}_k} x^0 + \sqrt{1-\bar{\alpha}_k} \epsilon, \quad \epsilon \sim \mathcal{N}(0,I)$

反向去噪过程（Reverse Denoising）

目标：学习一个神经网络 $\mu_\theta$ ，从 $x^k$ 预测 $x^{k-1}$ 的均值：
$p_\theta(x^{k-1} | x^k) = \mathcal{N}\left(x^{k-1}; \mu_\theta(x^k, k), \sigma_k^2 I\right)$
两种训练目标：

预测噪声（Noise Prediction）：
模型预测添加到数据中的噪声 $\epsilon$ ：
$\mu_\epsilon(\epsilon_\theta) = \frac{1}{\sqrt{\alpha_k}} x^k - \frac{1-\alpha_k}{\sqrt{1-\bar{\alpha}_k} \sqrt{\alpha_k}} \epsilon_\theta(x^k, k)$
损失函数：
$\mathcal{L}_\epsilon = \mathbb{E}_{k, x^0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(x^k, k) \|^2 \right]$
预测数据（Data Prediction）：
模型直接预测原始数据 $x^0$ ：
$\mu_x(x_\theta) = \frac{\sqrt{\alpha_k}(1-\bar{\alpha}_{k-1})}{1-\bar{\alpha}_k} x^k + \frac{\sqrt{\bar{\alpha}_{k-1}} \beta_k}{1-\bar{\alpha}_k} x_\theta(x^k, k)$
损失函数：
$\mathcal{L}_x = \mathbb{E}_{k, x^0, \epsilon} \left[ \| x^0 - x_\theta(x^k, k) \|^2 \right]$
关键区别：
• 预测噪声适合处理简单噪声模式（如图像），而时间序列常含复杂噪声，直接预测数据可能更有效。

反向去噪过程（Backward Denoising Process）

目标：从噪声 $x_k$ 恢复初始数据 $x_{k-1}$ ，通过神经网络学习去噪分布 $p_\theta(x_{k-1} | x_k)$ 。

1. 条件概率分布

$p_\theta(x_{k-1} | x_k) = \mathcal{N}\left(x_{k-1}; \mu_\theta(x_k, k), \Sigma_\theta(x_k, k)\right)$

均值： $\mu_\theta(x_k, k)$ ，由神经网络参数 $\theta$ 建模，依赖当前噪声样本 $x_k$ 和扩散步长 $k$ 。
协方差： $\Sigma_\theta(x_k, k)$ ，实际中常固定为 $\sigma_k^2 I$ （简化训练，文档段落）。

2. 训练目标：最小化 KL 散度

原始目标：
$\mathcal{L}_k = D_{\text{KL}}\left(q(x_{k-1} | x_k) \parallel p_\theta(x_{k-1} | x_k)\right)$
衡量真实后验分布 $q$ 与模型分布 $p_\theta$ 的差异（文档段落）。
简化目标（基于前向过程可逆性）：
利用前向过程的对称性，引入近似后验 $q(x_{k-1} | x_k, x_0)$ ，导出均方误差（MSE）损失（文档段落）：
$\mathcal{L}_k = \frac{1}{2\sigma_k^2} \left\| \tilde{\mu}_k(x_k, x_0, k) - \mu_\theta(x_k, k) \right\|^2$
其中 $\tilde{\mu}_k$ 是基于前向过程的解析均值（公式 5-6）。

两种训练策略：噪声预测 vs 数据预测

扩散模型的核心差异在于 如何定义均值函数 $\mu_\theta$ ，对应两种主流训练策略（文档段落）：

1. 噪声预测（Noise Prediction，如 DDPM）

模型：训练神经网络 $\epsilon_\theta(x_k, k)$ 预测前向过程中添加的噪声 $\epsilon$ 。
均值计算：
$\mu_\epsilon(\epsilon_\theta) = \frac{1}{\sqrt{\alpha_k}} x_k - \frac{1 - \alpha_k}{\sqrt{1 - \bar{\alpha}_k} \sqrt{\alpha_k}} \epsilon_\theta(x_k, k)$
损失函数：
$\mathcal{L}_\epsilon = \mathbb{E}\left[ \left\| \epsilon - \epsilon_\theta(x_k, k) \right\|^2 \right]$
直接最小化预测噪声与真实噪声的差异，训练更稳定，生成质量更高（Ho et al., 2020，文档段落）。

2. 数据预测（Data Prediction）

模型：训练神经网络 $x_\theta(x_k, k)$ 直接预测初始数据 $x_0$ 。
均值计算：
$\mu_x(x_\theta) = \frac{\sqrt{\alpha_k}(1 - \bar{\alpha}_{k-1})}{1 - \bar{\alpha}_k} x_k + \frac{\sqrt{\bar{\alpha}_{k-1}} \beta_k}{1 - \bar{\alpha}_k} x_\theta(x_k, k)$
损失函数：
$\mathcal{L}_x = \mathbb{E}\left[ \left\| x_0 - x_\theta(x_k, k) \right\|^2 \right]$
直接优化数据重建误差，适用于噪声复杂或数据结构明确的场景（文档段落）。

示例说明

场景：预测未来 24 小时温度序列（ $x^0 \in \mathbb{R}^{24}$ ）。

前向过程：
初始温度序列 $x^0 = [25, 26, 24, ...]$ ，通过 100 步扩散逐渐变为噪声 $x^{100} \sim \mathcal{N}(0, I)$ 。
反向过程：
若使用噪声预测模型，第 50 步的输入 $x^{50}$ 是带噪声的温度序列，模型预测当前步的噪声 $\epsilon_\theta$ ，通过公式计算 $x^{49}$ 。
扩散过程
假设初始数据 $x^0 = [1.0, 0.5]$ （二维向量），扩散步长 $\beta_1 = 0.1$ ：
1. 计算均值：
  $\sqrt{1-\beta_1} \cdot x^0 = \sqrt{0.9} \cdot [1.0, 0.5] \approx [0.9487, 0.4743]$
2. 协方差矩阵：
  $\beta_1 I = 0.1 \cdot \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}$
3. 采样 $x^1$ ：
  从 $\mathcal{N}([0.9487, 0.4743], 0.1I)$ 中随机采样，例如：
  $x^1 \approx [0.9487 + \epsilon_1, 0.4743 + \epsilon_2]$
  其中 $\epsilon_1, \epsilon_2 \sim \mathcal{N}(0, 0.1)$ 。
扩散过程的作用
通过逐步增大 $\beta_k$ ，前向过程将数据 $x^0$ 逐渐变为纯噪声：
• 初始步（ $k = 0$ ）： $x^0$ 是原始数据。
• 中间步（ $k = 1, 2, ..., K - 1$ ）：数据逐渐模糊化。
• 最终步（ $k = K$ ）： $x^K$ 近似为标准高斯噪声 $\mathcal{N}(0, I)$ 。

2.2条件扩散模型（Conditional Diffusion Models）

条件扩散模型（Conditional Diffusion Models）当存在额外条件输入 $c$ （如时间序列中的历史观测）时，将其注入反向过程（文档段落）：
$p_\theta(x_{k-1} | x_k, c) = \mathcal{N}\left(x_{k-1}; \mu_\theta(x_k, k|c), \sigma_k^2 I\right)$

条件均值： $\mu_\theta(x_k, k|c)$ ，同时依赖噪声样本 $x_k$ 、扩散步长 $k$ 和条件 $c$ 。
应用：在时间序列预测中， $c$ 可为历史数据编码，引导模型生成与历史相关的未来序列（如 TimeDiff 的核心创新，见文档 3.2 节）。

核心公式总结表

过程	公式	物理意义
前向扩散（分步）	$x_k = \sqrt{1 - \beta_k} x_{k-1} + \sqrt{\beta_k} \epsilon$	每一步缩放前序样本并添加噪声，逐步破坏数据结构。
前向扩散（直接）	$x_k = \sqrt{\bar{\alpha}_k} x_0 + \sqrt{1 - \bar{\alpha}_k} \epsilon$	直接从初始数据生成任意步噪声样本，避免分步计算（重参数化技巧）。
反向去噪分布	$p_\theta(x_{k-1}	x_k) = \mathcal{N}(\mu_\theta, \sigma_k^2 I)$
噪声预测损失	$\mathcal{L}_\epsilon = \mathbb{E}\left\| \epsilon - \epsilon_\theta \right\|^2$	最小化预测噪声与真实噪声的差异，训练稳定，生成质量高（DDPM 采用）。
数据预测损失	$\mathcal{L}_x = \mathbb{E}\left\| x_0 - x_\theta \right\|^2$	直接优化初始数据重建误差，适用于结构化数据（如时间序列）。

2.3. Conditional DDPMs for Time Series Prediction （时间序条件扩散模型）

0、核心思想

前向扩散过程：向预测值 $x_{1:H}^0 \in \mathbb{R}^{d \times H}$ (训练集中真实值已知)中不断加噪 $x_{1:H}^k \in \mathbb{R}^{d \times H}$ （k步扩散）
后向去噪过程：历史观测 $x_{-L+1:0}^0 \in \mathbb{R}^{d \times L}$ 经过F获得条件c， $p_\theta(x_{1:H}^{k-1} | x_{1:H}^k, c)$ 反向去噪分布，在第 $k$ 次去噪步骤中， $x_{1:H}^k$ 被去噪为 $x_{1:H}^{k-1}$ 。

联合分布：（文中没说明其作用）
给定条件 $c = F(x_{-L+1:0}^0)$ （历史观测编码），联合分布 $p_\theta (x_{1:H}^{0:K} | c)$ 描述了 未来序列在扩散过程中所有中间状态（从初始数据 $x_{1:H}^0$ 到最终噪声 $x_{1:H}^K$ ）的联合概率分布。其分解为两部分（遵循马尔可夫链性质）：
$p_\theta (x_{1:H}^{0:K} | c) = \underbrace{p_\theta (x_{1:H}^K)}_{\text{初始噪声分布}} \times \underbrace{\prod_{k=1}^K p_\theta (x_{1:H}^{k-1} | x_{1:H}^k, c)}_{\text{反向去噪步骤的条件分布乘积}}$

下标 $1 : H$ ：未来序列的时间范围（预测窗口，长度为 $H$ ）；
上标 $0 : K$ ：扩散过程的步骤（ $0$ 为初始真实数据， $K$ 为最终噪声）。

1. 条件分布建模

联合分布：
$p_\theta(x_{1:H}^{0:K} | c) = p_\theta(x_{1:H}^K) \prod_{k=1}^K p_\theta(x_{1:H}^{k-1} | x_{1:H}^k, c)$
$x_{1:H}^K \sim \mathcal{N}(0, I)$ ：初始噪声（第 $K$ 步扩散后的样本，完全随机）；
- $c = F(x_{-L+1:0}^0)$ ：历史观测通过条件网络 $F$ （如卷积网络）编码的条件信号；
- $p_\theta(x_{1:H}^{k-1} | x_{1:H}^k, c)$ ：反向去噪分布，均值由神经网络 $\mu_\theta(x_{1:H}^k, k|c)$ 建模，方差固定为 $\sigma_k^2 I$ 。

2. 核心挑战

如何设计高效的 去噪网络 $\mu_\theta$ （从噪声中恢复信号）和 条件网络 $F$ （提取历史观测的有效特征），尤其是在长程预测（ $H$ 较大）和多变量（ $d$ 较大）场景下。

现有时间序列扩散模型分析

1. TimeGrad（自回归模型，Rasul et al., 2021）

核心思路：逐时刻生成未来值（自回归解码），每个时刻 $t$ 的扩散过程独立建模。
- 联合分布：
  $p_\theta(x_{1:H}^{0:K} | c) = \prod_{t=1}^H p_\theta(x_t^{0:K} | c = F(x_{-L+1:t-1}^0))$
  $p_{\theta}(x_{1: H}^{0: K})$ , where $x_{1: H}^{0: K}={x_{1: H}^{0}} \cup {x_{1: H}^{k}}_{k=1, ..., K}$
  $\begin{aligned} p_{\theta} & \left(x_{1: H}^{0: K} | c=\mathcal{F}\left(x_{-L+1: 0}^{0}\right)\right) \\ & =\prod_{t=1}^{H} p_{\theta}\left(x_{t}^{0: K} | c=\mathcal{F}\left(x_{-L+1: t-1}^{0}\right)\right) \\ & =\prod_{t=1}^{H} p_{\theta}\left(x_{t}^{K}\right) \prod_{k=1}^{K} p_{\theta}\left(x_{t}^{k-1} | x_{t}^{k}, c=\mathcal{F}\left(x_{-L+1: t-1}^{0}\right)\right) . \end{aligned}$

其中 $F$ 是循环神经网络（RNN），用隐藏状态 $h_t$ 作为条件 $c$ 。

训练目标：类似噪声预测损失（文档公式 8），预测每个时刻 $t$ 的噪声 $\epsilon$ 。
优缺点：
- ✅ 适用于短期预测，利用 RNN 捕捉时序依赖；
- ❌ 自回归解码导致 误差累积（前一时刻的错误影响后续）和 推理速度慢（需逐个生成时刻），长程预测性能差。

2. CSDI（非自回归模型，Tashiro et al., 2021）

核心思路：对整个时间序列（历史 + 未来）加噪并去噪，通过 掩码机制 区分观测和未观测部分（类似图像修复）。
- 输入与掩码：
  - 输入： $x_{-L+1:H}^0$ （历史 + 未来真实值）和二进制掩码 $m$ （ $m_{i,t}=0$ 表示观测到的位置， $1$ 表示待预测的未来位置）；
  - 训练时，模型接收 观测部分 $x_{\text{observed}}^k = (1-m) \odot x_{-L+1:H}^k$ 和 待预测部分 $x_{\text{target}}^k = m \odot x_{-L+1:H}^k$ 。
- 损失函数：预测待预测部分的噪声，条件 $F(x_{\text{observed}}^k)$ 。
优缺点：
- ✅ 非自回归解码，一次性生成所有未来值，避免误差累积；
- ❌ ① 去噪网络基于 Transformer，复杂度随变量数 $d$ 和序列长度 $L + H$ 呈 二次增长（ $O((d(L+H))^2)$ ），处理长多元序列时内存溢出；② 掩码导致 边界不和谐（预测段与历史段的连接处趋势不连续，类似图像修复的边界模糊问题）。

3. SSSD（CSDI 改进版，Alcaraz & Strodthoff, 2022）

改进点：用 结构化状态空间模型 替代 Transformer，降低复杂度至线性（ $O (d (L + H))$ ），解决内存问题。
局限：仍依赖掩码条件策略，未解决边界不和谐问题，长程预测精度受限。

4. 与 NLP 模型的对比

NLP 中的非自回归扩散模型（如 DiffuSeq）处理规则序列（文本），而时间序列具有 不规则性、高非线性、强噪声，需更针对性的时序依赖建模（如捕捉短期趋势、周期性），现有 NLP 方法无法直接套用。

四、核心问题总结

模型	解码方式	条件策略	优势	缺陷
TimeGrad	自回归	RNN 隐藏状态	短期预测有效	误差累积、推理慢（长程差）
CSDI	非自回归	掩码（类似图像修复）	并行生成未来值	高复杂度（Transformer）、边界不和谐
SSSD	非自回归	状态空间模型	低复杂度	边界不和谐问题仍存在