【机器学习前置知识】狄利克雷分布

在阅读本文前，建议先食用以下几篇文章以能更好地理解狄利克雷分布：

二项分布

Beta分布

多项分布

共轭分布

狄利克雷分布

狄利克雷分布(Dirichlet distribution)是Beta分布的扩展，把Beta分布从二元扩展到多元形式就是狄利克雷分布，Beta分布是狄利克雷分布的二元特例。

在共轭方面，可以类比Beta分布与二项分布的关系，狄利克雷分布是多项分布的共轭分布，因此狄利克雷分布常作为多项分布的先验分布使用，它是多项分布似然的共轭先验。

狄利克雷分布本质上是多元连续型随机变量的概率密度分布，假设多元随机变量 $θ=(θ_1,θ_2,...,θ_k)$ 服从参数 $\alpha=(\alpha _1,\alpha _2,...,\alpha _k)$ 的狄利克雷分布，记作 $\backsim Dir(\alpha)$ ，则概率密度函数可表示为：

$p(θ|\alpha)={\Gamma(\sum_{i=1}^k{\alpha _i})\over{\prod_{i_=1}^k\Gamma(\alpha _i)}}\prod_{i=1}^k θ_i^{\alpha_{i-1}}={1\over{B(\alpha)}}\prod_{i=1}^k θ_i^{\alpha_{i-1}} \ \ \ \ \ (1)$

其中， $\sum_{i=1}^kθ_i=1$ ， $θ_i \geq 0$ ， $\alpha_i > 0$

初识者对式 $(1)$ 可能不明就里，我们来对它做个通俗的解释。

在二项分布和Beta分布中我们曾以抛硬币举例，因为他们只涉及到二元变量，硬币的正反面就可以表示。

在多项分布里面用的是骰子举例，狄利克雷分布也同样可以效仿之。

假设有个生产骰子的工厂，这个工厂技术精湛且先进，不仅能造出一般的质地均匀的六面骰子，甚至可以造出任意质地任意多个面的骰子，这里质地均匀指的是骰子掷出每个面的概率相同，任意质地指掷出每个面的概率不同(但和为1)。在此背景下，狄利克雷分布中的 $k$ 元随机变量 $θ=(θ_1,θ_2,...,θ_k)$ 可以看作掷一枚这个工厂生产的具有 $k$ 个面的骰子时，每个面出现的概率；参数 $\alpha=(\alpha _1,\alpha _2,...,\alpha _k)$ 可以看作掷 $n$ 次骰子中， $k$ 个面中每个面出现的次数，并且满足 $\sum_{i=1}^kθ_i=1$ ， $\sum_{i=1}^k\alpha_i=n$ 。

因为 $θ$ 满足 $\sum_{i=1}^kθ_i=1$ ， $θ_i \geq 0$ ，可以说狄利克雷分布的 $k$ 元随机变量 $θ=(θ_1,θ_2,...,θ_k)$ 是定义在 $k - 1$ 维概率单纯形（K-dimentional probability simplex）上的。二维单纯形是个三角形、有三个顶点(三维单纯形是四面体、有四个顶点)，比如当 $k = 3$ 时，令 $θ_1、θ_2、θ_3$ 分布在三维空间 $z = 1 - x - y$ 的平面三角形上。