响应式网站新闻部分怎么做/十大营销案例分析

二、变分自编码器 VAE

1、自编码器 AE

（1）自编码器的基本结构与目标

1.1 编码器-解码器结构

1.2 目标函数：重构误差最小化

（2）自编码器与 PCA 的对比

2.1 PCA 与线性降维

2.2 非线性映射的优势

（3）自编码器在降维与表示学习中的意义

2、变分自编码器 VAE

（1）生成式模型与变分自编码器概述

（2）模型结构

2.1 编码器（Inference Network）

2.2 解码器（Generative Network）

（3）VAE 的解码器的核心思想

3.1 回忆高斯混合模型

3.2 高斯混合模型的扩展-VAE解码器

（4）参数的训练

4.1 最大化似然函数

4.2 变分推断

4.3 下界的推导

4.4 优化目标

4.5 KL散度的最小化

（5）VAE 相对于 AE 的优势

5.1 对噪声的建模

（6）重参数化技巧

（7）编码器部分的目标：近似后验

（8）VAE 总结

8.1 VAE整体流程概览

8.2 编码器部分的详细步骤

8.3 解码器部分的详细步骤

8.4 训练与推断阶段的对比

（9）VAE的局限性

9.1 生成图像“模糊”或“平均化”问题

9.2 可能出现“记住”训练样本的倾向

9.3 后验分布表达能力不足

9.4 高维数据与高保真生成的挑战

9.5 与 GAN 等其他生成模型的对比

9.6 训练目标平衡与超参数敏感性

9.7 总结

二、变分自编码器 VAE

1、自编码器 AE

核心思想：可以看成PCA的神经元网络化。

（1）自编码器的基本结构与目标

1.1 编码器-解码器结构

图中，可以看到自编码器的典型结构：

输入层：原始输入 $\mathbf{x}$ （例如一张图像或一段向量）。
编码器（Encoder）：一系列神经网络层，将高维的 $\mathbf{x}$ 压缩到低维的隐藏表示 $\mathbf{z}$ （也称潜在表示，latent representation）。
解码器（Decoder）：与编码器结构相对称或相似的网络，将低维的 $\mathbf{z}$ 还原回与输入同维度的 $\mathbf{x}'$ （即重构的结果）。
输出层：得到的重构 $\mathbf{x}'$ 。

整个过程可用下式概括：

$\mathbf{z} = f_{\text{enc}}(\mathbf{x}), \quad \mathbf{x}' = f_{\text{dec}}(\mathbf{z})$

1.2 目标函数：重构误差最小化

自编码器的目标函数：

$J(g, f) = \sum_i \|\mathbf{x}_i - \mathbf{x}_i'\|^2 + \lambda R(f)$

其中：

$\mathbf{x}_i - \mathbf{x}_i'\|^2$ 表示第 $i$ 个样本的重构误差（常见的是均方误差）。
$\lambda R(f)$ 是正则化项，用于约束网络的复杂度（例如权值衰减、稀疏性正则等）。

自编码器通过最小化重构误差来学习到一个对输入数据具有“良好”表示的隐藏向量 $\mathbf{z}$ ，使得在压缩后仍能较好地重构出原输入。

（2）自编码器与 PCA 的对比

2.1 PCA 与线性降维

对比了 PCA（主成分分析） 与自编码器在降维上的效果：

PCA：将原始数据通过线性映射（即正交变换）投影到方差最大的几个主成分上，实现降维。
自编码器：使用非线性神经网络进行编码和解码，能学习到更灵活、更丰富的表示。

从图中可以看到，在手写数字（如 0,1,2,3,4,9）上进行降维后，自编码器可以重构出更逼近原图的数字；而 PCA 由于其本质是线性映射，重构往往缺乏非线性特征的捕捉能力，因此在复杂数据上可能效果有限。

2.2 非线性映射的优势

自编码器通过多层感知机或卷积网络等方式实现编码-解码，可以学习到数据的非线性结构。对 MNIST 这种手写数字数据来说，每个数字都有不同的笔迹、线条弧度和书写风格，使用非线性模型更能捕捉到这种多样性，因此重构更好，潜在空间的分布也更有区分度。

（3）自编码器在降维与表示学习中的意义

通用性
图片中的示例主要是手写数字，但自编码器对其他高维数据（如图像、文本、推荐系统的用户-物品矩阵等）也适用。只要能定义合适的网络结构和损失函数，就可以把任何高维输入映射到较低维度的潜在空间进行分析和重构。
非线性表示学习
自编码器的编码器部分可以视为一个特征提取器，它能够在隐藏层中学习到对数据分布更有表达力的特征。这些特征在后续分类、聚类或检索等任务中往往表现优于简单的线性降维方法。
可视化
当将自编码器的中间层（特别是瓶颈层）的维度设为 2D 或 3D 时，就可以直接用来可视化数据在低维空间的分布，便于理解数据内部的结构和模式。
与正则化的结合
在第一张图的公式中可以看到正则化项 $\lambda R(f)$ 。常见的扩展包括：
- 稀疏自编码器（Sparse AE）：鼓励隐藏单元大部分为零激活；
- 去噪自编码器（Denoising AE）：对输入添加噪声再重构；
- 变分自编码器（VAE）：在潜在空间上引入概率分布假设；
  这些方法都能让模型学到更具泛化能力或更具解释性的表示。

2、变分自编码器 VAE

（1）生成式模型与变分自编码器概述

生成式模型的目标是学习数据的分布，从而能够生成与真实数据相似的新样本。变分自编码器（Variational Autoencoder, VAE）是其中一种重要的生成模型，它将传统自编码器的框架与概率模型和变分推断方法相结合，不仅能够重构输入数据，还能从隐变量空间中生成新的数据。与对抗生成网络（GAN）相比，VAE具有明确的概率解释和连续平滑的潜在空间，使其在一些需要不确定性估计或潜在特征表达的任务中表现突出。

（2）模型结构

2.1 编码器（Inference Network）

结构分析：在VAE中，编码器的输出是一个分布 $q(z|x)$ ， $c_1,c_2,c_3\cdot \cdot \cdot$ 为在一个分布 $q(z|x)=N(\mu (x),\sigma (x))$ 中采样得到的值。相比于AE，VAE编码器不再是一个神经元网络直接从输入映射到 z ，而是产生一个分布（即一个 $\mu$ ，一个 $\sigma$ ，而且这个 $\sigma$ 还有一定的随机性），再从这个分布中采样得到 z 。
功能：将输入数据 $x$ 映射到潜在空间，并构造近似后验分布 $q(z|x)$ 。
输出：通常输出隐变量分布的参数（例如均值 $\mu(x)$ 和方差 $\sigma^2(x)$ ），假设 $q(z|x)$ 为高斯分布。
意义：通过对输入数据进行编码，提取数据中的潜在特征，同时为后续的重构提供必要的隐变量信息。
编码器示意图如下：

2.2 解码器（Generative Network）

功能：根据从隐变量分布中采样得到的 $z$ 重构输入数据，建模条件分布 $p(x|z)$ 。
生成：利用解码器网络，可以从连续的潜在空间中采样，生成新的数据样本。
意义：实现数据的重构和生成，是VAE作为生成式模型的核心部分。

（3）VAE 的解码器的核心思想

3.1 回忆高斯混合模型

图片中显示了一个数据分布 $p(x)$ ，由多个高斯分布（曲线）混合而成。
数学表达式： $p(x) = \sum_z p(x|z)p(z)$ , 其中 $z$ 通常是一个离散的混合分量（整数索引）， $p(z)$ 为混合系数（满足多项分布），而 $p(x|z)$ 为第 $z$ 个高斯分布 $\mathcal{N}(\mu_z, \sigma _z)$ 。
直观来说，这个模型假设数据 $x$ 可能来自若干个不同的“子分布”（每个子分布是一个高斯），并用这些高斯分布的线性加权求和来近似整体分布。
局限性：当数据分布过于复杂时，仅依靠少量高斯分量可能难以逼近；若增加分量数，模型复杂度也随之增加。

3.2 高斯混合模型的扩展-VAE解码器

图片中显示了一个数据分布 $p(x)$ ，由无数个高斯分布（曲线）混合而成。计算 $p(x)$ 的过程就是解码的过程
数学表达式： $p(x) = \int p(x|z)p(z)dz$ , 其中隐变量 $z$ 并非离散，而是可以在连续空间中取值。， $p(z)$ 为混合系数（先验一般取标准正态分布 $z \sim \mathcal{N}(0,I)$ ，即初始值），而 $p(x|z)$ 为第 $z$ 个高斯分布 $\mathcal{N}(\mu_z,\sigma _z)$ （参数通过神经网络学）。
随着 $z$ 在连续空间中移动，解码器会生成一系列可能的 $x$ ，从而可以近似很多形状复杂的分布。
$p(z)$ 即是编码器中的 $q(z|x)$ 的先验，它是联系编码器与解码器的桥梁。
解码器示意图如下：

VAE整体结构图：

采样 $\rightarrow$

其中 $\mu (z)$ 和 $\sigma (z)$ 是输出分布（最大后验分布）的参数。 $\mu (z)$ 可视为重构的 $\hat{x}$ （最大似然值）。

（4）参数的训练

4.1 最大化似然函数

VAE的目标是最大化观测数据 $x$ 的似然 $p(x)$ ，即：

$p(x) = \int p(x|z) p(z) dz$

其中， $p(x|z)$ 是解码器生成 $x$ 的条件概率， $p(z)$ 是隐变量 $z$ 的先验分布（通常是标准正态分布 $\mathcal{N}(0, I)$ ）。然后，VAE的目标就是通过最大化 $p(x)$ 来学习一个好的生成模型。为了实现这一目标，我们通常优化其对数似然：

$l = \sum_x \ln(p(x))$

4.2 变分推断

直接最大化 $p(x)$ 是不可行的，因为计算 $\int p(x|z) p(z) dz$ 非常复杂。为了简化这个过程，VAE引入了变分推断。首先，我们引入一个变分分布 $q(z|x)$ ，它近似于后验分布 $p(z|x)$ 。因此，我们将对数似然的目标函数重写为：

$\ln p(x) = \int q(z|x) \ln p(x) dz$

这种重写是通过变分下界（Variational Lower Bound）实现的，它允许我们在无法直接计算后验分布的情况下，进行优化。

4.3 下界的推导

$\ln(p(x)) = \int q(z|x) \ln(p(x|z)) dz$

$= \int q(z|x) \left( \ln \frac{p(x,z)}{p(z|x)} \right) dz= \int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)}\frac{q(z|x)}{p(z|x)} \right) dz$

$= \int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)} \right) dz + \int q(z|x) \left( \ln \frac{q(z|x)}{p(z|x)} \right) dz$

$= \int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)} \right) dz +\text{KL}(q(z|x)||p(z|x))$

而 $q(z|x)$ 本来就是 $p(z|x)$ 的近似，所以 $\text{KL}(q(z|x)||p(z|x)) \geq 0$ 且很接近于 0 .

所以得到 $\ln(p(x))$ 的下界 $\int q(z|x) \left( \ln \frac{p(x,z)}{q(z|x)} \right) dz$ ，记为 $\mathcal{L}_b$

4.4 优化目标

$\ln (p(x)) \approx \mathcal{L}_b$

$= \int q(z|x) \ln \frac{p(x, z)}{q(z|x)} dz$

$= \int q(z|x) \left( \ln p(x|z) + \ln p(z) - \ln q(z|x) \right) dz$

其可以拆成两部分：

重构项：
$\int q(z|x) \ln p(x|z) dz$
这是VAE模型中解码器的主要任务，它负责通过隐变量 $z$ 重构数据 $x$ 。
KL散度项：
$- \int q(z|x) \ln \frac{q(z|x)}{p(z)} dz$
这是VAE中的正则化项，确保编码器的近似后验 $q(z|x)$ 不偏离先验分布 $p(z)$ 过多。

为了优化VAE，我们最大化这个下界：

$\mathcal{L}_b = \mathbb{E}_{q(z|x)} [ \ln p(x|z) ] - D_{KL}(q(z|x) || p(z))$

其中：

第一个项 $\mathbb{E}_{q(z|x)} [ \ln p(x|z) ]$ 是重构误差，衡量通过解码器从隐变量 $z$ 重构原始数据 $x$ 的好坏。
第二个项 $D_{KL}(q(z|x) || p(z))$ 是KL散度，确保编码器输出的分布 $q(z|x)$ 与先验分布 $p(z)$ 之间的差异尽可能小。
我们希望第一项尽可能大，第二项前是减号，所以应尽可能小，第二项尽可能小就想要 $q(z|x)$ 尽可能接近标准正态分布，就意味着 z 没有任何辨识度，这样的话第一项就小了。而如果第一项大的话，预测就准确，此时 $q(z|x)$ 就不会太随机，第二项就不可能小了，所以这两部分的loss其实是相互拮抗的，要整体来看。

4.5 KL散度的最小化

KL散度是VAE优化的关键部分。它衡量了编码器输出的近似后验 $q(z|x)$ 与标准正态分布 $p(z) = \mathcal{N}(0, I)$ 之间的差异。为了最小化KL散度，编码器通过神经网络（如图中的NN'）输出隐变量 $z$ 的均值 $\mu'(x)$ 和标准差 $\sigma'(x)$ ，并学习一个合适的分布。

公式为：

$KL(q(z|x) || p(z)) = \frac{1}{2} \sum_{j=1}^{M} \left( \mu_j'^2 + \sigma_j'^2 - \log \sigma_j'^2 - 1 \right)$

这是一个标准的KL散度的闭式解，它会对每个维度的隐变量进行计算。