机器学习：最大似然估计与最大后验概率估计

在机器学习领域，概率估计是经常用到的一种模型，而概率估计中，我们经常会看到两种估计模型，一种是最大似然估计，即 Maximum likelihood，另外一种就是最大后验概率估计，即 Maximum posterior ，两种模型可以由贝叶斯定理演化而来。

在介绍这两种模型之前，我们先来看一下贝叶斯定理:

p (w | D) = p ( D | w ) p ( w ) p ( D )

这里，D 表示观察到的数据，而 w 表示我们要求的变量或者参数。我们来看看贝叶斯定理中，每一项所表示的含义：
p(D) 表示数据的概率分布
p(w) 表示参数w 的概率分布，一般称为先验概率分布，因为我们本意是要求 w 的，所以理论上来说，我们无法事先确切地知道 w 的概率分布，但是我们可以给出一个大概的经验估计，所以称为先验分布 prior distribution。
p(D|w) 表示似然函数 likelihood function。
p(w|D) 表示后验概率分布 posterior distribution。

p(D|w) 表示了一种 “似然率”, 对于不同的参数w, 我们观测到数据D 的概率是不同的, 最大似然估计, 就是找到 w, 使得我们观测到数据D 的概率最大。所以最大似然估计可以表示为:

max w p (D | w)

p(w|D) 表示后验概率，如果给定了观测数据, 我们可以推测参数w 的概率分布, 根据贝叶斯定理，我们可以看出：

p o s t e r i o r \propto l i k e l i h o o d \times p r i o r

即：

p (w | D) \propto p (D | w) \times p (w)

而贝叶斯定理中的分母 p(D) 是一个归一化变量, 可以看出

p (D) = \int p (D | w) p (w) d w

换句话说，后验概率与似然函数和先验概率之积是成比例的。

我们可以看到，无论是最大似然估计还是最大后验概率估计，似然函数都发挥着重要作用。但这两种估计，反应了两种观点。最大似然估计是古典统计学派的观点，古典统计学派认为，参数w 是固定的，可以通过观测到的数据直接求出来。而最大后验概率估计是贝叶斯学派的观点，贝叶斯学派认为，只有数据是可见的，参数w 也是不固定的，而是满足一定概率分布 p(w|D) 的。

这两种模型，孰优孰劣，一直以来都是莫衷一是，未有定论。最大似然估计被人诟病之处是估计存在bias，在某些极端情况下，是违反经验与直觉的。最大后验概率估计可以有效地减弱这种bias，但是最大后验概率需要引入先验概率分布 p(w), 所以最大后验概率估计的效果，也取决于先验概率的设定，一个糟糕的先验概率将会导致一个糟糕的后验概率估计。