机器学习算法总结--EM算法

参考自

《统计学习方法》
机器学习常见算法个人总结（面试用）
从最大似然到EM算法浅解
（EM算法）The EM Algorithm

简介

EM算法，即期望极大算法，用于含有隐变量的概率模型的极大似然估计或极大后验概率估计，它一般分为两步：第一步求期望(E),第二步求极大(M)。

如果概率模型的变量都是观测变量，那么给定数据之后就可以直接使用极大似然法或者贝叶斯估计模型参数。
但是当模型含有隐含变量的时候就不能简单的用这些方法来估计，EM就是一种含有隐含变量的概率模型参数的极大似然估计法。

应用到的地方：混合高斯模型、混合朴素贝叶斯模型、因子分析模型。

算法推导

这里写图片描述

上述公式相当于决定了 $L(\theta)$ 的下界，而EM算法实际上就是通过不断求解下界的极大化来逼近对数似然函数极大化的算法。

这里写图片描述

算法流程

算法流程如下所示：

这里写图片描述

收敛性

收敛性部分可以主要看（EM算法）The EM Algorithm的推导，最终可以推导得到如下公式：

L (θ (t + 1)) \geq \sum i \sum z i Q (t) i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ( t + 1 ) ) Q ( t ) i ( z ( i ) ) \geq \sum i \sum z i Q (t) i (z (i)) l o g p ( x ( i ) , z ( i ) ; θ ( t ) ) Q ( t ) i ( z ( i ) ) = L (θ (t))

$L(\theta^{(t+1)}) \ge \sum_i \sum_{z^{i}} Q_i^{(t)}(z^{(i)}) log \frac{p(x^{(i)}, z^{(i)} ; \theta^{(t+1)})}{Q_i^{(t)}(z^{(i)})} \\\ge \sum_i \sum_{z^{i}} Q_i^{(t)}(z^{(i)}) log \frac{p(x^{(i)}, z^{(i)} ; \theta^{(t)})}{Q_i^{(t)}(z^{(i)})} \\= L(\theta^{(t)})$

特点

最大优点是简单性和普适性
EM算法不能保证找到全局最优点，在应用中，通常选取几个不同的初值进行迭代，然后对得到的几个估计值进行比较，从中选择最好的
EM算法对初值是敏感的，不同初值会得到不同的参数估计值

使用例子

EM算法一个常见的例子就是GMM模型，即高斯混合模型。而高斯混合模型的定义如下：

高斯混合模型是指具有如下形式的概率分布模型：

$> P (y | θ) = \sum k = 1 K α k ϕ (y | θ k) > 其中， α k 是系数， α k \geq 0, \sum k = 1 K α k = 1; ϕ (y | θ k) 是高斯分布密度， θ k = (μ k, σ 2 k), > ϕ (y | θ k) = 1 2 π - - \sqrt σ k e x p (- ( y - μ k ) 2 2 σ 2 k) >$ $> P(y| \theta) = \sum_{k=1}^K \alpha_k \phi(y | \theta_k) \\ > 其中， \alpha_k 是系数，\alpha_k \ge 0, \sum_{k=1}^K \alpha_k = 1; \phi(y|\theta_k)是高斯分布密度，\theta_k = (\mu_k, \sigma_k^2), \\ > \phi(y|\theta_k) = \frac{1}{\sqrt{2 \pi} \sigma_k} exp(-\frac{(y-\mu_k)^2}{2\sigma_k^2}) >$