机器学习笔记（二十）——求解最大熵模型

一、问题的引出

最大熵模型的学习过程就是求解最大熵模型的过程。最大熵模型的学习可以形式化为约束最优化问题。
对于给定的训练数据集 $T=\{(x_1,y_1),(x_2,y_2),\dots,(x_n,y_n)\}$ 及特征函数 $f_i(x,y)， i=1, 2, \dots, n$ ,最大熵模型的学习等价于约束最优化问题：

max P \in C H (P) = - \sum x, y P ˜ (x) P (y | x) log P (y | x) s . t . E p (f i) = E p ˜ (f i), i = 1, 2, \dots, n \sum y P (y | x) = 1

$\max_{P \in C} H(P)=-\sum_{x,y} \widetilde{P}(x)P(y|x) \log P(y|x)\\ s.t. \quad E_p(f_i)=E_\widetilde{p}(f_i), i=1, 2, \dots, n \\ \sum_yP(y|x)=1$
上式等价于：

min P \in C - H (P) = \sum x, y P ˜ (x) P (y | x) log P (y | x) s . t . E p (f i) - E p ˜ (f i) = 0, i = 1, 2, \dots, n \sum y P (y | x) = 1

$\min_{P \in C} -H(P)=\sum_{x,y} \widetilde{P}(x)P(y|x) \log P(y|x)\\ s.t. \quad E_p(f_i)-E_\widetilde{p}(f_i)=0, \quad i=1, 2, \dots, n \\ \sum_yP(y|x)=1$
求解上式有约束的最优化问题，所得出的解，就是最大熵模型学习的解。

二、推导过程

将约束最优化的原问题转换为无约束最优化问题的对偶问题，通过求解对偶问题求解原问题。
首先，引入拉格朗日乘子 $w_0, w_1, \dots， w_n$ , 定义拉格朗日函数 $L(P,w)$ :

L (P, w) = - H (P) + w 0 (1 - \sum y P (y | x)) + \sum i n w i (E p (f i) - E p ˜ (f i)) = \sum x, y P ˜ (x) P (y | x) log P (y | x) + w 0 (1 - \sum y P (y | x)) + \sum i n w i (\sum x, y P ˜ (x, y) f i (x, y) - \sum x, y P ˜ (x) P (y | x) f i (x, y))

$L(P,w) = -H(P) + w_0(1-\sum_yP(y|x)) + \sum_i^n w_i(E_p(f_i)-E_\widetilde{p}(f_i)) \\ =\sum_{x,y} \widetilde{P}(x)P(y|x) \log P(y|x) + w_0(1-\sum_yP(y|x)) + \sum_i^n w_i(\sum_{x, y} \widetilde{P}(x,y)f_i(x,y)-\sum_{x, y} \widetilde{P}(x)P(y|x)f_i(x,y))$
最优化的原始问题是：

min P \in C max w L (P, w)

$\min_{P \in C} \max_w L(P,w)$
对偶问题是：

max w min P \in C L (P, w)

$\max_w \min_{P \in C} L(P,w)$
由于拉格朗日函数

L(P,w) $L(P,w)$ 是

P $P$ 的凸函数，原问题的解与对偶问题的解是等价的。
首先求

minP∈CL(P,w) $\min_{P \in C} L(P,w)$ ,

minP∈CL(P,w) $\min_{P \in C} L(P,w)$ 是

w $w$ 的函数，记为：

Ψ (w) = min P \in C L (P w, w),

$\Psi(w) = \min_{P \in C} L(P_w,w),$

Ψ(w) $\Psi(w)$ 的解记为：

P w = a r g min P \in C L (P, w) = P w (y | x)

$P_w = arg \min_{P \in C} L(P,w) = P_w(y|x)$
求

L(P,w) $L(P,w)$ 对

P(y|x) $P(y|x)$ 的偏导数:

\partial L ( P , w ) \partial P ( y | x ) = \sum x, y P ˜ (x) (log P (y | x) + 1) - \sum y w 0 - \sum x, y (P ˜ (x) \sum i = 1 n w i f i (x, y))

$\frac{\partial{L(P,w)}}{\partial{P(y|x)}} = \sum_{x,y} \widetilde{P}(x)(\log P(y|x) + 1)- \sum_y w_0 - \sum_{x,y}(\widetilde{P}(x) \sum_{i=1}^n w_i f_i(x,y))$
令偏导数=0 ，当