MLE＜=＞ KL

MLE等价于KL散度

最大似然估计 (MLE) 和Kullback-Leibler散度 (KL散度) 之间有深厚的联系。我将先介绍两者之间的联系，然后通过一个例子进行说明。

首先，回忆一下两者的定义:

最大似然估计:
$\hat{\theta}=\arg \max _\theta L(\theta \mid X)$

其中， $L(\theta \mid X)$ 是似然函数，表示在参数为 $\theta$ 时观测到数据 $X$ 的概率。

Kullback-Leibler散度：
$D_{K L}(P \| Q)=\sum_x P(x) \log \left(\frac{P(x)}{Q(x)}\right)$

其中， $P$ 和 $Q$ 是两个概率分布。KL散度度量了使用概率分布 $Q$ 来近似概率分布 $P$ 时的信息损失。

现在，考虑一个固定的真实分布 $P$ 和一个由参数 $\theta$ 参数化的模型分布 $Q_\theta$ 。我们的目标是找到参数 $\theta$ 使得模型分布 $Q_\theta$ 最接近真实分布 $P$ 。为此，我们希望最小化它们之间的KL散度。

将KL散度分解，我们有:
$\begin{aligned} & D_{K L}\left(P \| Q_\theta\right)=\sum_x P(x) \log \left(\frac{P(x)}{Q_\theta(x)}\right) \\ & =\sum_x P(x) \log P(x)-\sum_x P(x) \log Q_\theta(x) \end{aligned}$

请注意，第一项与 $\theta$ 无关，因此最小化KL散度等同于最大化似然函数。
举个简单例子:
考虑一个伯努利分布，真实参数为 $p$ ，观测到的数据为 $X$ ，其中有 $n$ 个1和 $N - n$ 个 0 。我们的模型分布是 $Q_\theta$ ，参数为 $\theta$ 。

似然函数是:
$L(\theta \mid X)=\theta^n(1-\theta)^{N-n}$

使用KL散度，我们有:
$D_{K L}\left(P \| Q_\theta\right)=p \log \left(\frac{p}{\theta}\right)+(1-p) \log \left(\frac{1-p}{1-\theta}\right)$

为了最小化KL散度，我们希望最大化似然函数，即选择 $\theta$ 使得 $L(\theta \mid X)$ 最大。
这样，通过考虑两者的定义，可以看出MLE实际上是在尝试最小化模型分布与真实分布之间的KL散度。

“通过考虑两者的定义，可以看出MLE实际上是在尝试最小化模型分布与真实分布之间的KL散度。”

首先，Kullback-Leibler散度 (KL散度) 在两个概率分布 $\mathrm{P}$ 和 $\mathrm{Q}$ 之间定义为:
$D_{K L}(P \| Q)=E_P[\log (P(X) / Q(X))]$

当我们考虑最大似然估计(MLE)时，我们实际上是考虑了一系列观察数据X，并试图找到参数 $\theta$ 使得数据在模型Q_ $\theta$ 下的似然性最大。

考虑固定的真实分布 $\mathrm{P}$ 和由参数 $\theta$ 参数化的模型分布 $\mathrm{Q}_{-} \theta ， \mathrm{KL}$ 散度表示为:
$\begin{aligned} & D_{K L}\left(P \| Q_\theta\right)=E_P\left[\log \left(P(X) / Q_\theta(X)\right)\right] \\ & =E_P[\log P(X)]-E_P\left[\log Q_\theta(X)\right] \end{aligned}$

这里， $E_P[\log P(X)]$ 是真实分布 $\mathrm{P}$ 下的期望值，并且与参数 $\theta$ 无关。因此，最小化 $D_{K L}\left(P \| Q_\theta\right)$ 相当于最大化似然函数的负对数:
$-E_P\left[\log Q_\theta(X)\right]=-\sum_x P(x) \log Q_\theta(x)$

在实际应用中，我们没有真实分布 $\mathrm{P}$ 的直接访问，但我们有观测数据。因此，我们用观测数据的经验分布来代替真实分布 $\mathrm{P}$ ，并使用该经验分布的期望来估计负对数似然。

结论: MLE尝试找到参数 $\theta$ 使得模型Q_ $\theta$ 下的观测数据的似然性最大。从KL散度的角度看，这等价于最小化模型分布Q_ $\theta$ 与观测数据经验分布 (代表真实分布 $P$ ) 之间的KL散度。

因此，当我们使用MLE方法时，我们实际上是在尝试找到参数值 $\theta$ ，使得参数化的模型分布 Q_日尽可能接近观测数据的经验分布，从而最小化它们之间的KL散度。

根据你上面的意思，那 $-E_P[\log Q_{\theta}(X)]$ 就是似然函数的负对数？

我刚才的表述有些不精确。让我们更明确地探讨这一点。
给定观测数据集 $X=\left\{x_1, x_2, \ldots, x_N\right\}$ ，似然函数表示为:
$L(\theta \mid X)=\prod_{i=1}^N Q_\theta\left(x_i\right)$

对数似然函数是似然函数的自然对数:
$\ell(\theta \mid X)=\log L(\theta \mid X)=\sum_{i=1}^N \log Q_\theta\left(x_i\right)$

为了找到最大似然估计，我们希望最大化对数似然函数。

在之前的讨论中，我提到了:
$-E_P\left[\log Q_\theta(X)\right]=-\sum_x P(x) \log Q_\theta(x)$

这实际上是期望的负对数似然，其中的期望是基于真实分布 $\mathrm{P}$ 计算的。但是，在实际的最大似然估计中，我们通常使用观测数据的经验分布来代替真实分布，所以我们尝试最大化对数似然函数 $\ell(\theta \mid X)$ ，而不是最小化负对数似然。

所以，你是对的。在给定观测数据的情况下，我们不直接使用 $-E_P\left[\log Q_\theta(X)\right]$ ，而是使用对数似然函数 $\ell(\theta \mid X)$ 。我的之前的描述可能引起了一些混看，对此我深感抱歉。

对数似然函数：
$l(\theta|X)=\log L(\theta \mid X)=\sum_{i=1}^N \log Q_\theta\left(x_i\right)$ 其实和 $-E_P\left[\log Q_\theta(X)\right]=-\sum_x P(x) \log Q_\theta(x)$ 是等价的。只是 $\sum_{i=1}^N \log Q_\theta\left(x_i\right)$ 需要再乘一个 $\frac{1}{N}$ 。是这样吗？
比如给定的观测数据为 $X={1,2, 2, 3,2, 1}$
那对于对数似然函数 $\ell(\theta|X)=2*\log Q_{\theta}(1) + 3* \log Q_{\theta}(2)+1*\log Q_{\theta}(2)$
那前面的系数 $2, 3, 1$ 都乘以一个 $\frac{1}{N}$ 就变成了 $P (x)$ 了。是这样吗？
根据你上面的意思，那 $-E_P[\log Q_{\theta}(X)]$ 就是似然函数的负对数？

你的理解是正确的。为了清晰地说明这一点，让我们分步骤地进行讨论。

首先，考虑对数似然函数：
$\ell(\theta \mid X)=\sum_{i=1}^N \log Q_\theta\left(x_i\right)$

现在，考虑经验分布 (观测数据的分布) :
$\hat{P}(x)=\frac{\text { 观测到 } x \text { 的次数 }}{N}$

对于你给的例子，数据集为 $X=\{1,2,2,3,2,1\}$ 。则:
$\begin{aligned} & \hat{P}(1)=\frac{2}{6}=\frac{1}{3} \\ & \hat{P}(2)=\frac{3}{6}=\frac{1}{2} \\ & \hat{P}(3)=\frac{1}{6} \end{aligned}$

基于经验分布的负对数似然期望是:
$\begin{aligned} & -\sum_x \hat{P}(x) \log Q_\theta(x) \\ & =-\left(\frac{1}{3} \log Q_\theta(1)+\frac{1}{2} \log Q_\theta(2)+\frac{1}{6} \log Q_\theta(3)\right) \end{aligned}$

当你考虑对数似然函数时:
$\ell(\theta \mid X)=2 \log Q_\theta(1)+3 \log Q_\theta(2)+1 \log Q_\theta(3)$

可以看到，当你将对数似然函数乘以 $\frac{1}{N}$ ，得到:
$\frac{1}{6} \ell(\theta \mid X)=\frac{1}{3} \log Q_\theta(1)+\frac{1}{2} \log Q_\theta(2)+\frac{1}{6} \log Q_\theta(3)$