【机器学习chp7】SVM

参考1，笔记

SVM笔记.pdf

参考2：王木头视频

什么是SVM，如何理解软间隔？什么是合叶损失函数、铰链损失函数？SVM与感知机横向对比，挖掘机器学习本质_哔哩哔哩_bilibili

一、SVM模型

二、构建决策函数

三、Lagrange对偶

四、软间隔

五、合页损失（只有软间隔的情况下才有损失函数）

六、软间隔下的Lagrange对偶问题

七、核函数相关

八、SVM与其他机器学习模型的联系——分析机器学习的本质

一、SVM模型

SVM基本模型是一个线性模型，即 $W^{T}X+b=0$ ，该模型对所有样本进行一个度量，得到所有度量值。

二、构建决策函数

接下来就是构建损失函数，为这个度量赋予意义，对度量值乘上 $\frac{1}{||w||_{2}}$ ，得到 $\frac{1}{||w||_{2}}f_{\theta}^{[G]}(\tilde{X})$ ，它表示样本点到决策面的几何距离。所以训练模型的过程就是让这个距离最大，同时满足条件 $\tilde{Y}f_{\theta}^{[G]}(\tilde{X})\geqslant 0$ 。

对于 $\frac{1}{||w||_{2}}f_{\theta}^{[G]}(\tilde{X_{i}})$ 表示样本点到决策面的几何距离，即 $\frac{1}{||w||_{2}}(W^{T}\tilde{X_{i}}+b)$ ，由于对于决策面 $W^{T}X+b=0$ ，将参数 $W$ 和 $b$ 扩大 $a$ 倍，决策面不会变，样本点到决策面的几何距离 $\frac{1}{||w||_{2}}(W^{T}\tilde{X_{i}}+b)$ 也不会变，那就将参数 $W$ 和 $b$ 扩大 $a_{0}$ 倍，使得模型对样本点的度量 $(W^{T}\tilde{X_{i}}+b)$ 的最小值等于1或-1，这样，距离就变成了 $\frac{1}{||w||_{2}}$ ，这个距离就只有 $w$ 来控制，但这个 $w$ 受到一个约束 $(W^{T}\tilde{X_{i}}+b)\geqslant 1$ ，即目的是最大化 $\frac{1}{||w||_{2}}$ ，等价于最小化 ${||w||_{2}}$ 。

三、Lagrange对偶

上面的损失函数为解决 ${||w||_{2}}$ ，为简便可写为 $\frac{1}{2}{||w||_{2}}$ ，同时 $w$ 受到一个约束 $(W^{T}\tilde{X_{i}}+b)\geqslant 1$ .

即优化问题

$min\ \ \frac{1}{2}{||w||_{2}}\\s.t\ \ \ \ 1-(W^{T}\tilde{X_{i}}+b) \leqslant 0$

注意，这个约束函数看似对于所有的样本都起作用，但这个约束实际上只对约束条件等0的少部分点起作用，因为一部分约束等式等0其他就一定小于0，约束失效。

从Lagrange问题来说，这个为互补松弛性。

原问题的对偶函数为

$L(W, b, \lambda) = \frac{1}{2} W^T W + \sum_{i=1}^N \lambda_i \left( 1 - y^{(i)} (W^T x^{(i)} + b) \right)$

四、软间隔

对于线性不可分问题，引入软间隔。

相应的优化问题为

$min\ \ \frac{1}{2}{||w||_{2}}+\sum_{i=1}^{N}\xi _{i}\\s.t\ \ \ \ 1-(W^{T}\tilde{X_{i}}+b) \leqslant\xi _{i}$

$\xi _{i}\geqslant 0$

五、合页损失（只有软间隔的情况下才有损失函数）

上面的优化问题为

$\min \frac{1}{2} W^T W + C \cdot \sum_{i=1}^N \left[ 1 - y^{(i)} (W^T x^{(i)} + b) \right]_+$

调换一下顺序为

$\min \sum_{i=1}^N \left[ 1 - y^{(i)} (W^T x^{(i)} + b) \right]_++\lambda \cdot \frac{1}{2} W^T W$

第一项称为经验损失项，第二项称为正则化项。

六、软间隔下的Lagrange对偶问题

优化问题为

$min\ \ \frac{1}{2}{||w||_{2}}+\sum_{i=1}^{N}\xi _{i}\\s.t\ \ \ \ 1-(W^{T}\tilde{X_{i}}+b) \leqslant\xi _{i}$

$\xi _{i}\geqslant 0$

Lagrange对偶问题为

对 $\alpha$ 的求解要用坐标轴上升法。

七、核函数相关

略

八、SVM与其他机器学习模型的联系——分析机器学习的本质

1、根本目标

对于二分问题，假设存在一个上帝目标函数 $T(X)=\left\{\begin{matrix} 1\\ -1 \end{matrix}\right.$ ，它的分类结果是完全正确的，只要给出数据，他就能正确地分出是哪一类。而机器学习的目的，是在万千的可能性中去寻找一个函数 $G(X)=\left\{\begin{matrix} 1\\ -1 \end{matrix}\right.$ ，这个函数也能对X进行判断，且要让它与上帝目标函数尽可能一致，但有一个迈不过去的鸿沟，就是就是对 $G(X)$ 的训练是在训练集上的，在全集上无法做到它的能力达到 $T(X)$ 。

$T(X)$ 和 $G(X)$ 的功能是对于所有的输入，得到的结果要么是1，要么是-1，这样的函数可以分为两个函数的结合，即一个是模型函数 $f_{\theta }(X)$ ，另一个是决策函数 $d_{\theta }(x)$ ，所有的样本带入到模型函数中，都可以得到一个确定的数值，然后将这个数值带入到决策函数中，判断样本是属于哪一类。

模型函数示例：

线性模型： $f(X) = W^T X + b$

非线性模型： $f(X) = a_1 X^2 + a_2 X + b$

决策函数示例：

线性形式： $d_{W, b}(X) = \text{sign}(W^T X + b^*)$

核形式： $d_{W, b}(X) = \text{sign}\left(\sum_{i=1}^N a_{i}^{*} y_i K(x, x_i) + b^*\right)$

然后要比较 $T(X)$ 和 $G(X)$ ，决策函数部分不用比较，只需比较模型函数部分即可，比较模型是否一样的方法是什么呢？就是损失函数 $J(\tilde{X})$ ，（ $\tilde{X}$ 表示训练集中的样本）。

所以机器学习问题就可以分为两部分：

（1）上帝目标函数和学习的目标函数有同样的结构，结构是模型函数和决策函数。

（2）为了让学习的模型函数与上帝函数的模型函数解决，需要损失函数和最优化损失函数的算法。损失函数就是挑选的策略，即挑选两个模型之间差异的策略。

一些资料上说，机器学习分为三部分：模型、策略（损失函数）、算法。

可以说，模型函数是在为数据赋予度量，无论模型是一次的，二次的还是高次的，都相当于通过这个模型函数，为数据空间中的数据提供了一个度量，对在模型函数上的点的度量是0，模型函数曲线相当于一个锚点。即模型函数可以为全空间的数据都赋予一个度量，对模型函数上的数据的度量是0。总结来说， $f(X)=0$ 是分界线，也是度量的锚点。这个度量是没有现实意义的。

而损失函数在为度量赋予现实意义：

（1）最小二乘法分类中损失函数为度量赋予意义

在最小二乘法分类的例子中，训练的模型对样本的度量与上帝模型对样本的度量之间有一个服从高斯分布的误差，即

$f_{\theta}^{[G]}(\tilde{X}) = f_{\theta}^{[T]}(X) + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2)$

损失函数即度量为

$\left( f_{\theta}^{[G]}(\tilde{X}) - f_{\theta}^{[T]}(\tilde{X}) \right)^2\rightarrow \sigma^2$

即为这个度量之间的差异赋予了一个方差的实际意义。

这里还有一个问题，即样本数据在上帝模型函数值 $f_{\theta}^{[T]}(\tilde{X})$ 是不知道的，但有样本的标签，标签值为{1，-1} ，可以把标签作为上帝函数的函数值。由于这个标签要么是1，要么是-1，所以最好对训练函数的函数值也作一下处理，即

$\left( tanh(f_{\theta}^{[G]}(\tilde{X})) - f_{\theta}^{[T]}(\tilde{X}) \right)^2\rightarrow \sigma^2$

双曲正切处理过后其实这个 $\sigma^2$ 已经不再是方差了，但它仍能表示训练模型的函数值与上帝模型函数值的差异的离散程度，即仍能代表损失函数。

总结一下：最小二乘分类是通过模型函数对样本数据进行度量，然后再对度量之间的差异进行一些修饰，修饰之后，变成了方差，默认方差最小时， $f_{\theta}^{[G]}(\tilde{X}) = f_{\theta}^{[T]}(\tilde{X})$ ，即 $f_{\theta}^{[G]}(X) = f_{\theta}^{[T]}(X)$ 。

（2）最大似然估计法

对度量通过sigmoid进行修饰，修饰的结果为概率值，这个概率值在于标签（上帝模型函数值），进行比较，求差异，这里的差异是似然值 $L(\tilde{Y},\tilde{X}|\theta )$ 。所以最大化似然值时， $f_{\theta}^{[G]}(X) = f_{\theta}^{[T]}(X)$ 。

（3）SVM

对度量进行修饰，这里的修饰是乘上 $\frac{1}{||w||_{2}}$ ，即 $\frac{1}{||w||_{2}}f_{\theta}^{[G]}(\tilde{X})$ 表示样本到决策面的几何距离。此时默认几何距离最大，且 $\tilde{Y}f_{\theta}^{[G]}(\tilde{X})\geqslant 0$ 时， $f_{\theta}^{[G]}(X) = f_{\theta}^{[T]}(X)$