SMO算法公式推导

$\begin{aligned} & \min_{\alpha} \quad \frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \alpha_i \alpha_j y_i y_j K(x_i \cdot x_j) - \sum_{i=1}^{N} \alpha_i \\ & \text { s.t. } \quad \sum_{i=1}^{N} \alpha_i y_i = 0 \\ & \quad 0 \leq \alpha_i \leq C, \quad i = 1, 2, \cdots, N \tag{9-69} \end{aligned}$

9.4.2 SMO 算法

SMO 算法主要用来求解式(9-69)的凸二次规划问题，在该问题中，变量是拉格朗日乘子 $\alpha_i$ ，一个 $\alpha_i$ 对应一个样本点 $x_i, y_i)$ ，所以变量总数就是样本量 $N$ 。SMO 算法是一种针对非线性支持向量机凸优化问题快速求解的优化算法，其基本想法是：不断地将原二次规划问题分解为只有两个变量的子二次规划问题，并对该子问题进行解析和求解，直到所有变量都满足 KKT 条件为止。

假设选择的两个变量为 $\alpha_1$ 和 $\alpha_2$ ， $\alpha_3, \alpha_4, \cdots, \alpha_N$ 固定，那么式(9-69)的子问题可以表示为：

$\begin{split} \min_{\alpha_1, \alpha_2} & \quad S(\alpha_1, \alpha_2) = \frac{1}{2} K_{11} \alpha_1^2 + \frac{1}{2} K_{22} \alpha_2^2 + y_1 y_2 K_{12} \alpha_1 \alpha_2 - (\alpha_1 + \alpha_2) + \\ & \quad y_1 \alpha_1 \sum_{i=3}^N y_i \alpha_i K_{i1} + y_2 \alpha_2 \sum_{i=3}^N y_i \alpha_i K_{i2} \\ \text{s.t.} & \quad \alpha_1 y_1 + \alpha_2 y_2 = -\sum_{i=3}^N y_i \alpha_i = \gamma \\ & \quad 0 \leq \alpha_i \leq C, \quad i = 1, 2 \tag{9-72} \end{split}$

其中 $K_{ij} = K(x_i, x_j)$ 。

式(9-72)即为两个变量的二次规划问题，先分析约束条件来考虑 $\alpha_2$ 的上下界问题。 $\alpha_1$ 和 $\alpha_2$ 都在 $[0, C]$ 范围内，由式(9-72)的第一个约束条件可知， $(\alpha_1, \alpha_2)$ 在平行于 $\times [0, C]$ 的对角线的直线上，如图 9-10 所示。

图 9-10 两个变量优化问题

由图 9-10 可得 $\alpha_2$ 的上下界描述如下：当 $y_1 \neq y_2$ 时，下界 $\max(0, \alpha_2 - \alpha_1)$ ，上界 $\min(C, C + \alpha_2 - \alpha_1)$ ；当 $y_1 = y_2$ 时，下界 $\max(0, \alpha_2 + \alpha_1 - C)$ ，上界 $\min(C, \alpha_2 + \alpha_1)$ 。

下面对 $\alpha_1$ 和 $\alpha_2$ 求解进行简单推导。假设子问题式(9-72)的初始可行解为 $\alpha_1^\text{old}$ 和 $\alpha_2^\text{old}$ ，最优解为 $\alpha_1^\text{new}$ 和 $\alpha_2^\text{new}$ ，沿着约束方向上未经截断的 $\alpha_2$ 的最优解为 $\alpha_2^\text{new, unc}$ 。一般情况下，我们尝试首先沿着约束方向求未经截断即不考虑式(9-72)的第二个约束条件的最优解 $\alpha_2^\text{new, unc}$ ，然后再求截断后的最优解 $\alpha_2^\text{new}$ 。

令：
$\sum_{i=1}^N \alpha_i y_i K(x_i, x) + b \tag{9-73}$

$E_i = g(x_i) - y_i = \left( \sum_{j=1}^N \alpha_j y_j K(x_j, x_i) + b \right) - y_i \tag{9-74}$

当 $i = 1, 2$ 时， $E_i$ 为函数 $g (x)$ 对输入 $x_i$ 的预测值和真实值 $y_i$ 之间的误差。

关于目标函数对 $\alpha_2$ 求偏导并令其为 0，可求得未经截断的 $\alpha_2$ 的最优解为：
$\alpha_2^\text{new, unc} = \alpha_2^\text{old} + \frac{y_2(E_1 - E_2)}{\kappa} \tag{9-75}$

其中，
$\kappa = K_{11} + K_{22} - 2K_{12} = \|\phi(x_1) - \phi(x_2)\|^2 \tag{9-76}$

$\phi(x)$ 为输入空间在特征空间中的映射。

经截断后的 $\alpha_2$ 可表示为：
$\alpha_2^\text{new} = \begin{cases} H, & \alpha_2^\text{new, unc} > H \\ \alpha_2^\text{new, unc}, & L \leq \alpha_2^\text{new, unc} \leq H \\ L, & \alpha_2^\text{new, unc} < L \tag{9-77} \end{cases}$

接着基于 $\alpha_2^\text{new}$ 可求得 $\alpha_1^\text{new}$ ：
$\alpha_1^\text{new} = \alpha_1^\text{old} + y_1 y_2 \left( \alpha_2^\text{old} - \alpha_2^\text{new} \right) \tag{9-78}$

最后，每次完成两个变量的优化后，还需要重新计算参数 $b$ 。 $b$ 的计算分为四种情况：

当 $\alpha_1^\text{new} < C$ 时，由：
$\sum_{i=1}^N \alpha_i y_i K_{i1} + b = y_1 \tag{9-79}$

可得：
$b_1^\text{new} = y_1 - \sum_{i=3}^N \alpha_i y_i K_{i1} - \alpha_1^\text{new} y_1 K_{11} - \alpha_2^\text{new} y_2 K_{21} \tag{9-80}$

同样，当 $\alpha_2^\text{new} < C$ 时，有：
$b_2^\text{new} = y_2 - \sum_{i=3}^N \alpha_i y_i K_{i1} - \alpha_2^\text{new} y_2 K_{22} - \alpha_1^\text{new} y_1 K_{12} \tag{9-81}$

当 $\alpha_1^\text{new}$ 和 $\alpha_2^\text{new}$ 同时满足 $\alpha_1^\text{new} < C$ 时，有：
$b_1^\text{new} = b_2^\text{new} \tag{9-82}$

最后一种情况是， $\alpha_1^\text{new}$ 和 $\alpha_2^\text{new}$ 都不在 $[0, C]$ 范围内， $b_1^\text{new}$ 和 $b_2^\text{new}$ 都满足 KKT 条件，直接对其取均值即可。

综上，参数 $b$ 可计算归纳为：
$b^\text{new} = \begin{cases} b_1^\text{new}, & 0 < \alpha_1^\text{new} < C \\ b_2^\text{new}, & 0 < \alpha_2^\text{new} < C \\ \frac{b_1^\text{new} + b_2^\text{new}}{2}, & 其他 \end{cases} \tag{9-83}$