有关熵、相对熵(KL散度)、交叉熵、JS散度、Wasserstein距离的内容

写在前面

最近学了一些关于熵的内容，为增强自己对这些内容的理解，方便自己以后能够温习，随手记录了相关的介绍，可能有不对的地方，敬请谅解。

信息量

任何事件都会承载一定的信息，事件发生的概率越大，其含有的信息量越少，事件发生的概率越小，其含有的信息量越多。比如昨天下雨了，是一个既定的事实，所以其信息量为0，天气预报说明天会下雨，是一个概率事件，其信息量相对较大。
假设 $X$ 是一个离散型随机变量， $p(X=x_0)$ 表示随机变量取值为 $x_0$ 的概率，那么 $X=x_0$ 的信息量的计算公式：
$I(x_0) = -\log(p(x_0))$

熵

熵描述的是随机变量不确定性的程度。
假设随机变量 $X$ 有 $n$ 个取值， $X$ 取值为 $x_i$ 时的概率为 $p(x_i)$ ，计算公式为：
$-\sum_{i=0}^{n}p(x_i)\log(p(x_i))$

相对熵（KL散度）

相对熵用于描述同一个变量在两个独立的概率分布之间的差异。
假设 $P$ 表示真实分布， $Q$ 表示模型通过学习得到的预测分布，也称拟合分布。那么用 $K L$ 散度定义两个分布之间的差异：
- $P$ 相对于 $Q$ 称为前向散度（常用于机器学习领域）：
  $D_{KL}(p||q) = E_p(\log(\frac{p}{q})) =\sum_{i=0}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)})$
- $Q$ 相对于 $P$ 称为反向散度（常用于强化学习邻域）：
  $D_{KL}(q||p) = E_q(\log(\frac{q}{p})) =\sum_{i=0}^n q(x_i) \log(\frac{q(x_i)}{p(x_i)})$
- 注意：上述公式，分子是哪个分布，计算KL散度参考的就是哪个分布，比如前向散度中， $P$ 就是参考分布，也称真实分布，而 $Q$ 就是近似分布，也称理论分布。在计算KL散度时，使用的是基于参考分布中的随机变量，也就是在计算时，我们使用的是参考分布中每个随机变量的概率值，以及近似分布中相应变量的概率值，
当分布 $Q$ 和分布 $P$ 越接近，说明这两个分布越相似，那么 $K L$ 散度值越小。
由于通常情况下， $D_{KL}(p||q)$ 和 $D_{KL}(q||p)$ 不相等，所以KL散度不满足对称性。同时也不满足三角不等式。

交叉熵

对 $K L$ 散度公式变形：
$D_{KL}(p||q) = \sum_{i=0}^np(x_i)\log(p(x_i)) - \sum_{i=0}^np(x_i)\log(q(x_i))$
上面等式中的 $\sum_{i=0}^np(x_i)\log(q(x_i))$ 就是交叉熵 $H (p, q)$
而 $P$ 的熵为：
$-\sum_{i=0}^np(x_i)\log(p(x_i))$
如果真实分布 $P$ 不变，那么 $H (p)$ 就是一个常数，所以在训练模型时，我们只需要关注交叉熵，最小化交叉熵的值。
$\sum_{i=0}^np(x_i)\log(q(x_i))$

JS散度

JS散度描述的是两个分布的相似程度。
对于概率分布 $P$ 和 $Q$ ，js散度的计算公式如下：
$\frac{1}{2}D_{KL}(P||M) + \frac{1}{2}D_{KL}(Q||M)$
其中 $M$ 是 $P$ 和 $Q$ 的平均分布。平均分布的计算过程如下：
- 对于同一个事件 $i$ ，假设事件 $i$ 在 $P$ 中发生的概率为 $P (i)$ ，在 $Q$ 中发生的概率为 $Q (i)$ ，那么事件 $i$ 在 $M$ 中发生的概率为：
  $\frac{P(i) + Q(i)}{2}$
- 注意：当两个分布不存在重叠部分时，计算它们的平均分布没有意义，因为事件 $i$ 在 $P$ 中发生，在 $Q$ 中却不发生。这里说的重叠是指 $P$ 和 $Q$ 的支撑集不相交，简单来说，就是 $P$ 和 $Q$ 的随机变量的取值集合没有交集。
如果 $P$ 和 $Q$ 的分布不重叠，那么计算得到的JS散度是一个常数。（个人解释如下，不完全正确，仅供参考）
- 如果 $P$ 和 $Q$ 的分布不重叠，根据KL散度的定义可知，在计算KL散度时，会基于参考分布的随机变量来计算，那么由此计算得到的 $M$ 会是相应分布的 $\frac{1}{2}$ 。进而 $D_{KL}(P||M) = \sum_{i=0}^{n}P(x_i)\log(\frac{P(x_i)}{\frac{1}{2}P(x_i)}) = \sum_{i=0}^{n}P(x_i)\log(2) = \log(2) \sum_{i=0}^np(x_i) = \log2$ ，同样可以计算 $D_{KL}(Q||M) = \log2$ ，所以 $\log2$ ，所以计算得到的JS散度是一个常数。同理，当 $P$ 和 $Q$ 完全重叠时， $M$ 和两者的分布相同，j计算得到的JS散度为0。
- 注意：由于 $P$ 和 $Q$ 不重叠时，JS散度是一个常数，在使用梯度下降作为优化算法时，通过JS散度得到的梯度为0，对求解最优解没有任何帮助。

Wasserstein距离

当两个分布不重叠时，计算 $K L$ 散度是无意义的，因为在 $P$ 中出现的事件 $i$ ，在 $Q$ 中不会出现，即 $q(x_i) = 0$ ，而在计算 $K L$ 散度的公式中， $D_{KL}(p||q) =\sum_{i=0}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)})$ ， $q(x_i)$ 是分母，所以此时 $K L$ 散度无意义。
Wasserstein距离用于描述两个分布之间的距离。
分布 $P$ 和 $Q$ 的Wasserstein距离定义如下：
$inf_{\gamma \sim \Gamma(P, Q) } E_{(X, Y) \sim \gamma}(||X-Y||)$
- 其中 $\Gamma(P, Q)$ 表示 $P$ 和 $Q$ 所有可能的联合分布集合， $\gamma$ 表示所有可能联邦分布中的一个， $Y)\sim \gamma$ 表示从联合分布中随机采样一个样本 $(X, Y)$ ， $∣∣ X - Y ∣∣$ 表示计算样本 $(X, Y)$ 的距离， $E_{(X, Y)\sim \gamma}(||X-Y||)$ 表示在联合分布为 $\gamma$ 时，样本距离的期望值。整个式子也就是找到一个可能的联合分布 $\gamma$ ，使得这个期望值最小。
- 如果把分布 $P$ 和 $Q$ 看成是土堆 $A$ 和土堆 $B$ ，那么Wassersteion距离就是将土堆 $A$ ，推到土堆 $B$ 的最少运算成本，也就是将一个分布变换为另一个分布的最小成本。