面对配分函数 - 噪扰对比估计（NCE）篇

序言

配分函数（也叫归一化因子）在概率分布和统计模型的计算中扮演着至关重要的角色。然而，在许多实际应用中，特别是自然语言处理和图像处理领域，配分函数的计算往往异常复杂且难以直接实现。为了解决这一难题，噪音对比估计（ $\text{Noise Contrastive Estimation，NCE}$ ）应运而生。NCE是一种巧妙的统计模型估计方法，它能够在无法直接计算配分函数的情况下，估算出概率分布的参数。

噪扰对比估计（NCE）

具有难求解的配分函数的大多数模型估计都没有估计配分函数。 $\text{SML}$ 和 $\text{CD}$ 只估计对数配分函数的梯度，而不是估计配分函数本身。得分匹配和伪似然避免了和配分函数相关的计算。
噪扰对比估计（ $\text{noise-contrastive estimation， NCE}$ ） ( $\text{Gutmann and Hyvarinen, 2010}$ ) 采取了一种不同的策略。在这种方法中，模型估计的概率分布被明确表示为：
$\log p_{\text{model}}(\textbf{x})=\log\tilde{p}_{\text{model}}(\textbf{x};\boldsymbol{\theta})+c$ $\quad\textbf{---\footnotesize{公式1}}$
其中 $c$ 是 $\log Z(\boldsymbol{\theta})$ 的近似。不仅仅估计 $\boldsymbol{\theta}$ ，噪扰对比估计过程将 $c$ 视为另一参数，使用相同的算法同时估计 $\boldsymbol{\theta}$ 和 $c$ 。因此，所得到的 $\log p_{\text{model}}(\textbf{x})$ 可能不完全对应有效的概率分布，但随着 $c$ 估计的改进，它将变得越来越接近 $有效值^{注1}$ 。
这种方法不可能使用最大似然作为估计的标准。最大似然标准可以设置 $c$ 为任意大的值，而不是设置 $c$ 以创建一个有效的概率分布。
$\text{NCE}$ 将估计 $p(\textbf{x})$ 的无监督学习问题转化为学习一个概率二元分类器，其中一个类别对应模型生成的数据。该监督学习问题中的最大似然学习定义了原始问题的渐近一致估计。
具体来说，我们引入第二个分布， 噪扰分布 ( $\text{noise distribution}$ ) $p_{\text{noise}}(\textbf{x})$ 。噪扰分布应该易于估计和从中取样。我们现在可以构造一个联合 $\textbf{x}$ 和新二元变量 $y$ 的模型。在新的联合模型中，我们指定：
$p_{\text{joint}}(y=1)=\displaystyle\frac{1}{2}$ $\quad\textbf{---\footnotesize{公式2}}$
$p_{\text{joint}}(\textbf{x}\mid y=1)=p_{\text{model}}(\textbf{x})$ $\quad\textbf{---\footnotesize{公式3}}$
和
$p_{\text{joint}}(\textbf{x}\mid y=0)=p_{\text{noise}}(\textbf{x})$ $\quad\textbf{---\footnotesize{公式4}}$
换言之， $y$ 是一个决定我们从模型还是从噪扰分布中生成 $\textbf{x}$ 的开关变量。
我们可以在训练数据上构造一个类似的联合模型。
- 在这种情况下，开关变量决定是从数据还是从噪扰分布中抽取 $\textbf{x}$ 。
- 形式地， $p_{\text{train}}(y = 1) =\displaystyle\frac{1}{2}$ ， $p_{\text{train}}(\textbf{x} \mid y = 1) =p_{\text{data}}(\textbf{x})$ ，和 $p_{\text{train}}(\textbf{x} \mid y = 0) = p_{\text{noise}}(\textbf{x})$ 。

注1: $\text{NCE}$ 也适用于具有易于处理的，不需要引入额外参数 $c$ 的配分函数的问题。它已经是最令人感兴趣的，估计具有复杂配分函数模型的方法。

现在我们可以应用标准的最大似然学习拟合 $p_{\text{joint}}$ 到 $p_{\text{train}}$ 的监督学习问题：
$\boldsymbol{\theta},c=\argmax\limits_{\boldsymbol{\theta},c} \mathbb{E}_{\textbf{x},\text{y}\sim\ p_{\text{train}}} \log p_{\text{joint}}(y\mid\textbf{x})$ $\quad\textbf{---\footnotesize{公式5}}$
分布 $p_{\text{joint}}$ 本质上是将逻辑回归模型应用于模型和噪扰分布之间的对数概率之差：
$\begin{cases} \begin{aligned} p_{\text{joint}}(y=1\mid\textbf{x})&=\frac{p_{\text{model}}(\textbf{x})}{p_{\text{model}}(\textbf{x})+p_{\text{noise}}(\textbf{x})} &\quad\textbf{---\footnotesize{公式6}}\\\\ &=\frac{1}{1+\displaystyle\frac{p_{\text{noise}}(\textbf{x})}{p_{\text{model}}(\textbf{x})}} &\quad\textbf{---\footnotesize{公式7}}\\\\ &=\displaystyle\frac{1}{1+ e^{\log \displaystyle\frac{p_{\text{noise}}(\textbf{x})}{p_{\text{model}}(\textbf{x})}}} &\quad\textbf{---\footnotesize{公式8}}\\\\ &=\sigma\left(-\log \displaystyle\frac{p_{\text{noise}}(\textbf{x})}{p_{\text{model}}(\textbf{x})}\right) &\quad\textbf{---\footnotesize{公式9}}\\\\ &=\sigma\left( \log p_{\text{model}}(\textbf{x})-\log p_{\text{noise}}(\textbf{x}) \right) &\quad\textbf{---\footnotesize{公式10}} \end{aligned} \end{cases}$
因此，只要 $\log \tilde{p}_{\text{model}}$ 易于反向传播，并且如上所述， $p_{\text{noise}}$ 应易于估计（以便评估 $p_{\text{joint}}$ ）和抽样（以生成训练数据），那么 $\text{NCE}$ 就易于使用。
$\text{NCE}$ 能够非常成功地应用于随机变量较少的问题，即使这些随机变量取到很大的值，它也很有效。
- 例如，它已经成功地应用于给定单词上下文建模单词的条件分布 ( $\text{Mnih and Kavukcuoglu, 2013}$ )。
- 虽然单词可以采样自一个很大的词汇表，但是只能采样一个单词。
当 $\text{NCE}$ 应用于具有许多随机变量的问题时，其效率会变得较低。
- 当逻辑回归分类器发现某个变量的取值不大可能时，它会拒绝这个噪扰样本。
- 这意味着在 $p_{\text{model}}$ 学习了基本的边缘统计之后，学习速率会大大减慢。
- 想象一个使用非结构化高斯噪扰作为 $p_{\text{noise}}$ 来学习面部图像的模型。
- 如果 $p_{\text{model}}$ 学习了眼睛，而没有学习任何其他面部特征，如嘴，它会拒绝几乎所有的非结构化噪扰样本。
$p_{\text{noise}}$ 必须是易于估计和采样的约束可能是过度的限制。当 $p_{\text{noise}}$ 比较简单时，大多数采样可能与数据有着明显不同，而不会迫使 $p_{\text{model}}$ 进行显著改进。
类似于得分匹配和伪似然，如果 $p$ 只有下界，那么 $\text{NCE}$ 不会有效。
- 这样的下界能够用于构建 $p_{\text{joint}}(y = 1 \mid \textbf{x})$ 的下界，但是它只能用于构建 $p_{\text{joint}}(y = 0 \mid \textbf{x})$ （出现在一般的 $\text{NCE}$ 对象中）的上界。
- 同样地， $p_{\text{noise}}$ 的下界也没有用，因为它只提供了 $p_{\text{joint}}(y = 1 \mid \textbf{x})$ 的上界。
当在每个梯度步骤之前，模型分布被复制来定义新的噪扰分布时， $\text{NCE}$ 定义了一个被称为自对比估计的过程，其梯度期望等价于最大似然的梯度期望 ( $\text{Goodfellow, 2014}$ )。特殊情况的 $\text{NCE}$ （噪扰采样由模型生成）表明最大似然可以被解释为使模型不断学习以将现实与自身发展的信念区分的过程，而噪扰对比估计通过让模型区分现实和固定的基准（噪扰模型），降低了计算成本。
在训练样本和生成样本（使用模型能量函数定义分类器）之间进行分类以得到模型的梯度的方法，已经在更早的时候以各种形式提出来 ( $\text{Welling et al., 2003b; Bengio, 2009}$ )。
噪扰对比估计是基于良好生成模型应该能够区分数据和噪扰的想法。一个密切相关的想法是，良好的生成模型能够生成分类器没法将其与数据区分的采样。这个想法诞生了生成式对抗网络。

总结

噪音对比估计（ $\text{NCE}$ ）作为一种创新的统计模型估计方法，为解决配分函数难以计算的问题提供了有效的策略。通过将多分类问题转化为二分类问题， $\text{NCE}$ 不仅简化了计算过程，还提高了模型的训练效率。在自然语言处理和图像处理等复杂任务中， $\text{NCE}$ 展现了其出色的性能和广泛的应用前景。

具体而言， $\text{NCE}$ 通过对比真实数据和噪声样本，学习一个分类器以区分两者，从而实现对数据分布的有效估计。这种方法避免了直接计算配分函数的困难，转而通过优化二分类问题的损失函数来间接估算概率分布的参数。在实际应用中， $\text{NCE}$ 不仅降低了计算量，还提高了模型的泛化能力。

综上所述，噪音对比估计为配分函数的计算提供了一种新的思路和方法，它在解决复杂计算问题和提高模型性能方面具有显著的优势。随着研究的深入和应用的拓展， $\text{NCE}$ 有望在更多领域发挥重要作用，推动机器学习和统计模型的发展。