线性可分SVM摘记

0. 线性可分
1. 训练样本到分类面的距离
2. 函数间隔和几何间隔、(硬)间隔最大化
3. 支持向量

\qquad

线性可分的支持向量机是一种二分类模型，支持向量机通过核技巧可以成为非线性分类器。本文主要分析了线性可分的支持向量机模型，主要取自于李航《统计学习方法》第七章。

0. 线性可分

$\qquad$ 如下图所示，考虑训练数据“线性可分”的情况：
$\qquad$ 在这里插入图片描述
$\qquad$ 假设分类面 $\boldsymbol w^T\boldsymbol x+b=0$ 可以将两类数据完整分开，任一训练样本 $\boldsymbol x$ 的输出值（目标值） $y$ 满足：

$\qquad\qquad\qquad y=\text{sgn}(\boldsymbol w^T\boldsymbol x+b)=\begin{cases}+1,\quad\boldsymbol w^T\boldsymbol x+b>0\ (\boldsymbol x\in\ell_1)\\-1,\quad\boldsymbol w^T\boldsymbol x+b<0\ (\boldsymbol x\in\ell_2)\end{cases}$
$\qquad$

1. 训练样本到分类面的距离

$\qquad$ 任一样本 $\boldsymbol x$ 到分类面的垂直距离为： $r=\dfrac{y(\boldsymbol w^T\boldsymbol{x}+b)}{\Vert\boldsymbol w\Vert}$

$\quad\bullet$ 　正例 $\boldsymbol x_i$ （满足 $\boldsymbol w^T\boldsymbol x_i+b>0,\ y_i=+1$ ）

$\qquad\qquad$ 在这里插入图片描述

$\qquad$ 假设 $\boldsymbol x_i$ 到分类面的距离为 $r_i$ ，向量 $\bar{\boldsymbol x}$ 在分类面（满足 $\boldsymbol{w}^T\bar{\boldsymbol{x}}+b=0$ ），显然 $\boldsymbol x_i=\bar{\boldsymbol x}+r_i\dfrac{\boldsymbol w}{\Vert\boldsymbol w\Vert}$

$\qquad$ 那么
$\qquad\qquad\qquad\begin{aligned}\boldsymbol w^T\boldsymbol x_i+b&=\boldsymbol w^T(\bar{\boldsymbol x}+r_i\frac{\boldsymbol w}{\Vert\boldsymbol w\Vert})+b\\ &=\boldsymbol w^T\bar{\boldsymbol x}+b+\boldsymbol w^Tr_i\frac{\boldsymbol w}{\Vert\boldsymbol w\Vert}\\ &=r_i\frac{\boldsymbol w^T\boldsymbol w}{\Vert\boldsymbol w\Vert}\\ &=r_i\Vert\boldsymbol w\Vert\end{aligned}$

$\qquad$ 可得到正例 $\boldsymbol x_i$ 到分类面的垂直距离 $r_i=\dfrac{\boldsymbol w^T\boldsymbol x_i+b}{\Vert\boldsymbol w\Vert}$

$\qquad$
$\quad\bullet$ 　负例 $\boldsymbol x_j$ （满足 $\boldsymbol w^T\boldsymbol x_j+b<0,\ y_j=-1$ ）

$\qquad\qquad$ 在这里插入图片描述

$\qquad$ 假设 $\boldsymbol x_j$ 到分类面的距离为 $r_j$ ，向量 $\bar{\boldsymbol x}$ 在分类面（满足 $\boldsymbol w^T\bar{\boldsymbol x}+b=0$ ），显然 $\boldsymbol x_j=\bar{\boldsymbol x}-r_j\dfrac{\boldsymbol w}{\Vert\boldsymbol w\Vert}$

$\qquad$ 那么
$\qquad\qquad\qquad\begin{aligned}\boldsymbol w^T\boldsymbol x_j+b&=\boldsymbol w^T(\bar{\boldsymbol x}-r_j\frac{\boldsymbol w}{\Vert\boldsymbol w\Vert})+b\\ &=\boldsymbol w^T\bar{\boldsymbol x}+b-\boldsymbol w^Tr_j\frac{\boldsymbol w}{\Vert\boldsymbol w\Vert}\\ &=-r_j\frac{\boldsymbol w^T\boldsymbol w}{\Vert\boldsymbol w\Vert}\\ &=-r_j\Vert\boldsymbol w\Vert\end{aligned}$
$\qquad$ 可得到负例 $\boldsymbol x_j$ 到分类面的垂直距离 $r_j=-\dfrac{\boldsymbol w^T\boldsymbol x_j+b}{\Vert\boldsymbol w\Vert}$
$\qquad$

2. 函数间隔和几何间隔、(硬)间隔最大化

$\qquad$ 由于任一训练样本 $\boldsymbol x_i$ 的输出值 $y$ 满足： $y=\begin{cases}+1,\quad\boldsymbol w^T\boldsymbol x_i+b>0\ \ (\forall\ \boldsymbol x_i\in\ell_1)\\-1,\quad\boldsymbol w^T\boldsymbol x_i+b<0\ \ (\forall\ \boldsymbol x_i\in\ell_2)\end{cases}$ ，可定义两种间隔 $(\text{margin})$ 来描述“训练样本 $\boldsymbol x_i$ 到分类面的远近”。

$\qquad$
$\quad\bullet$ 　函数间隔 $(\text{functional margin})$

$\qquad\qquad\hat{\gamma}_i=y_i(\boldsymbol w^T\boldsymbol x_i+b)=\vert\boldsymbol w^T\boldsymbol x_i+b\vert$

函数间隔只能够相对地描述“训练样本 $\boldsymbol x_i$ 到分类面的远近”。
例如， $\mathcal H_1:\ \boldsymbol w^T\boldsymbol x+b=0$ 与 $\mathcal H_2:\ \lambda\boldsymbol w^T\boldsymbol x+\lambda b=0$ 实际上是指同一个分类面（假设 $\lambda>0$ ）
　
对训练样本 $\boldsymbol x_i$ 而言，却有 $\begin{cases}\hat{\gamma}_{1i}=\vert\boldsymbol w^T\boldsymbol x_i+b\vert\\ \hat{\gamma}_{2i}=\lambda\vert\boldsymbol w^T\boldsymbol x_i+b\vert \end{cases}$ ，函数间隔 $\hat{\gamma}_{2i}=\lambda\hat{\gamma}_{1i}$

$\qquad$
$\quad\bullet$ 　几何间隔 $(\text{geometricl margin})$

$\qquad\qquad \gamma_i=y_ir_i=\dfrac{y_i(\boldsymbol w^T\boldsymbol x_i+b)}{\Vert\boldsymbol w\Vert}=\dfrac{\vert\boldsymbol w^T\boldsymbol x_i+b\vert}{\Vert\boldsymbol w\Vert}$

几何间隔就是“训练样本 $\boldsymbol x_i$ 到分类面的垂直距离”，也就是“规范化的函数间隔”。
　
上例中， $\begin{cases}\gamma_{1i}=\dfrac{\hat{\gamma}_{1i}}{\Vert\boldsymbol w\Vert}=\dfrac{\vert\boldsymbol w^T\boldsymbol x_i+b\vert}{\Vert\boldsymbol w\Vert} \\ \\\gamma_{2i}=\dfrac{\hat{\gamma}_{2i}}{\Vert\lambda\boldsymbol w\Vert}=\dfrac{\lambda\vert\boldsymbol w^T\boldsymbol x_i+b\vert}{\Vert\lambda\boldsymbol w\Vert}=\dfrac{\vert\boldsymbol w^T\boldsymbol x_i+b\vert}{\Vert\boldsymbol w\Vert} \end{cases}$ ，几何间隔 $\gamma_{1i}=\gamma_{2i}$ ，仍然相等。

$\qquad$ 显然，函数间隔和几何间隔之间的关系为：

$\qquad\qquad\textcolor{crimson}{\gamma=\dfrac{\hat{\gamma}}{\Vert\boldsymbol w\Vert}}$

$\qquad$
$\quad\bullet$ 　以最大化训练样本的几何间隔为目标函数，并定义约束最优化问题

$\qquad$ 约束最优化问题（1）

$\qquad\qquad\qquad\textcolor{indigo}{\begin{aligned}&\max_{\boldsymbol w,b}\ \gamma\\ &\ s.t.\ \ \ \dfrac{y_i(\boldsymbol w^T\boldsymbol x_i+b)}{\Vert\boldsymbol w\Vert}\ge \gamma,\quad \forall\ \boldsymbol x_i\end{aligned}}$

也就是，在确保所有训练样本到分类面的垂直距离都大于 $\gamma$ 的前提下，尽可能让（几何）间隔最大。

$\qquad$ 利用两种间隔之间的关系 $\gamma=\dfrac{\hat{\gamma}}{\Vert\boldsymbol w\Vert}$ ，在约束最优化问题（1）中使用函数间隔 $\hat{\gamma}$ 来描述几何间隔 $\gamma$ ，也就是

$\qquad$ 约束最优化问题（2）

$\qquad\qquad\qquad\textcolor{indigo}{\begin{aligned}&\max_{\boldsymbol w,b}\ \dfrac{\hat{\gamma}}{\Vert\boldsymbol w\Vert}\\ &\ s.t.\ \ \ y_i(\boldsymbol w^T\boldsymbol x_i+b) \ge \hat{\gamma},\quad \forall\ \boldsymbol x_i\end{aligned}}$

$\qquad$ 　
$\qquad$ 考虑满足约束最优化问题（2）的同一个分类面的两种表示 $\mathcal H_1:(\boldsymbol w,b)$ 和 $\mathcal H_2:(\lambda\boldsymbol w,\lambda b)$ ，对于任一训练样本 $\boldsymbol x_i$ 而言（ $\lambda>0$ ），那么：

$\qquad$ ① $\quad\textcolor{firebrick}{\mathcal H_1}:\ \boldsymbol w^T\boldsymbol x+b=0$ 　　（函数间隔为 $\hat\gamma=\vert\boldsymbol w^T\boldsymbol x_i+b\vert$ ）

$\qquad\qquad\quad\Longrightarrow\quad\begin{cases}目标函数值：\quad\dfrac{\hat\gamma}{\Vert\boldsymbol w\Vert}\\ 约束函数： \quad y_i(\boldsymbol w^T\boldsymbol x_i+b) \ge \hat\gamma,\quad \forall\ \boldsymbol x_i\end{cases}$

$\qquad$ ② $\quad\textcolor{firebrick}{\mathcal H_2}:\ \lambda\boldsymbol w^T\boldsymbol x+\lambda b=0$ 　（函数间隔为 $\lambda\hat\gamma$ ）

$\qquad\qquad\quad\Longrightarrow\quad\begin{cases}目标函数值：\quad\dfrac{\lambda\hat\gamma}{\Vert\lambda\boldsymbol w\Vert}\\ 约束函数： \quad y_i\lambda(\boldsymbol w^T\boldsymbol x_i+b) \ge \lambda\hat\gamma,\quad \forall\ \boldsymbol x_i\end{cases}$
$\qquad$
$\qquad$ 显然，权值 $(\boldsymbol w,b)$ 与其同比例的缩放值 $(\lambda\boldsymbol w,\lambda b)$ 对于约束最优化问题（2）而言是没有影响的。

$\qquad$
$\quad\bullet$ 　构造凸二次规划问题

$\qquad$ 在约束最优化问题（2）中，可以简单地取函数间隔 $\hat\gamma=1$ 。

假设待求解的权值为 $(\boldsymbol w,b)$ ，样本 $\boldsymbol x$ 到 $\boldsymbol w^T\boldsymbol x+b=0$ 的几何间隔为 $\dfrac{\hat\gamma}{\Vert\boldsymbol w\Vert}$
函数间隔 $\hat\gamma=1$ 时的几何间隔写为 $\dfrac{1}{\Vert\lambda^{\prime}\boldsymbol w\Vert}$ ，也就是 $(\boldsymbol w,b)$ 缩放为了 $(\lambda^{\prime}\boldsymbol w,\lambda^{\prime}b),\ \lambda^{\prime}=1/\gamma$
而 $\boldsymbol w^T\boldsymbol x+b=0$ 和 $\lambda^{\prime}\boldsymbol w^T\boldsymbol x+\lambda^{\prime}b=0$ 是同一个分类面

$\qquad$ 那么，约束最优化问题（2）就可以写为：

$\qquad\qquad\textcolor{darkblue}{\begin{aligned}&\max_{\boldsymbol w,b}\ \dfrac{\hat\gamma}{\Vert\boldsymbol w\Vert}\\ &\ s.t.\ \ \ y_i(\boldsymbol w^T\boldsymbol x_i+b) \ge \hat\gamma,\ \forall\ \boldsymbol x_i\end{aligned}}\quad\overset{\hat\gamma=1}\Longrightarrow\qquad\textcolor{royalblue}{\begin{aligned}&\max_{\boldsymbol w,b}\ \dfrac{1}{\Vert\boldsymbol w\Vert}\\ &\ s.t.\ \ \ y_i(\boldsymbol w^T\boldsymbol x_i+b) \ge 1,\ \forall\ \boldsymbol x_i\end{aligned}}$

$\qquad$
$\qquad$ 又由于 $\max\ \dfrac{1}{\Vert\boldsymbol w\Vert}\Longleftrightarrow\min\ \dfrac{1}{2}\Vert\boldsymbol w\Vert^2$ ，因此可以构造出一个凸二次规划问题

$\qquad$ 约束最优化问题（3）

$\qquad\qquad\qquad\textcolor{indigo}{\begin{aligned}&\min_{\boldsymbol w,b}\ \dfrac{1}{2}\Vert\boldsymbol w\Vert^2\\ &\ s.t.\ \ \ y_i(\boldsymbol w^T\boldsymbol x_i+b) \ge 1,\quad \forall\ \boldsymbol x_i\end{aligned}}$

$\qquad$

3. 支持向量

$\qquad$ 支持向量 $(\text{support\ vector})$ 是指距离分类面最近的训练样本（红色 + 点），两个（红色点线）超平面 $\boldsymbol w^T\boldsymbol x+b=1$ 和 $\boldsymbol w^T\boldsymbol x+b=-1$ 之间的距离，称为间隔 $(\text{margin})$ 。
$\qquad$ 在这里插入图片描述
$\qquad$ 考察该凸二次规划最优化问题：

$\qquad\qquad\qquad\begin{aligned}&\min_{\boldsymbol w,b}\ \dfrac{1}{2}\Vert\boldsymbol w\Vert^2\\ &\ s.t.\ \ \ y_i(\boldsymbol w^T\boldsymbol x_i+b) \ge 1,\quad \forall\ \boldsymbol x_i\end{aligned}$

$\qquad$ 支持向量也是使得约束条件的等式成立的点，即： $y(\boldsymbol w^T\boldsymbol x+b)=1$ 。在线性可分的情况下，选择不同的点作为支持向量，就可以确定不同的分离超平面 $\boldsymbol w^T\boldsymbol x+b=0$ 。

（正例的）支持向量 $\boldsymbol x_i,y_i=+1:\ y_i(\boldsymbol w^T\boldsymbol x_i+b)=1 \qquad\Rightarrow\quad H_1:\boldsymbol w^T\boldsymbol x_i+b=1$
其余的（正例的）训练样本满足 $\boldsymbol w^T\boldsymbol x_i+b>1$
（负例的）支持向量 $\boldsymbol x_j,y_j=-1:y_j(\boldsymbol w^T\boldsymbol x_j+b)=1 \qquad\Rightarrow\quad H_2:\boldsymbol w^T\boldsymbol x_j+b=-1$
其余的（负例的）训练样本满足 $\boldsymbol w^T\boldsymbol x_i+b<-1$
两个超平面 $H_1$ 与 $H_2$ 之间的间隔为 $\dfrac{2}{\Vert\boldsymbol w\Vert}$