能量函数和能量基模型介绍

能量函数在物理学中通常描述系统的潜在能量，而在统计物理和机器学习中，特别是在能量基模型（Energy-Based Models，EBMs）中，它用来描述系统状态的概率。

在机器学习的上下文中，能量函数是一个映射，它将系统的状态（例如，数据样本）映射到一个实数值，该实数值代表该状态的能量。通常，低能量对应于更可能（或更优）的状态，而高能量对应于不太可能（或更差）的状态。

能量基模型的目标是学习一个能量函数，这个函数能很好地表示数据的概率分布。这种模型设计是受到物理中玻尔兹曼分布的启发：在给定温度下，系统的状态遵循与它们的能量成指数负相关的概率分布。换句话说，系统更倾向于处于低能量状态。

在统计物理中的玻尔兹曼分布被用作模拟数据分布的概率模型：

$\frac{e^{-E(x)/kT}}{Z}$

其中：

在机器学习中，能量函数可以用各种方式定义，例如通过神经网络，该网络的参数可以通过学习来调整，以便模型能够复现训练数据的分布。学习的过程通常涉及梯度下降类型的优化算法，以及可能的采样步骤，如通过马尔可夫链蒙特卡罗（MCMC）或Langevin动力学等方法。

能量基模型的一些实例包括受限玻尔兹曼机（Restricted Boltzmann Machines, RBMs）、深度信念网络（Deep Belief Networks, DBNs）和最近的一些变种，如对抗生成网络中的判别器也可以被视为一种能量基模型。

能量基模型

能量基模型（EBMs）是一类机器学习模型，它们使用一个称为“能量”的标量函数来表示一个配置（例如，一组变量的状态）的概率。在EBMs中，较低的能量值与较高的概率相关联，意味着模型倾向于生成或解释低能量的配置。能量函数可以采用多种形式，包括线性模型、神经网络或其他任何能够输出单一实值的模型。

在这些模型中，数据点 $x$ 的概率与其能量 $E (x)$ 成反比，通常通过一个指数关系表示：

$\frac{e^{-E(x)}}{Z}$

其中 $P (x)$ 是数据点 $x$ 的概率， $E (x)$ 是其能量，而 $Z$ 是正规化常数（也称为配分函数），确保所有可能配置的概率之和为 1。 $Z$ 的计算通常涉及对所有可能配置的能量求和或积分，这在高维空间中是计算上非常昂贵的。

EBMs的关键特点和应用包括：

灵活性：能量函数可以是任意形式，只要它可以为每一个可能的数据点分配一个实数值。这使得EBMs可以用于广泛的数据类型和任务。
无监督学习：EBMs天生适用于无监督学习任务，如概率建模、密度估计和采样。通过学习数据分布的能量函数，EBMs能够生成新的数据点，这些数据点类似于训练集中的样本。
监督学习：EBMs也可以用于监督学习，通过将输入 $x$ 和标签 $y$ 键入联合能量函数 $E (x, y)$ ，模型可以学会区分高概率（低能量）和低概率（高能量）的输入/标签对。
结构化预测：在结构化输出空间中，EBMs可以通过为每个可能的输出配置分配能量来执行结构化预测任务。
采样和推断：通过MCMC方法或Langevin动力学等采样技术，可以从训练好的EBM中抽取新的样本或进行推断。