机器学习面试——分类算法SVM

1、什么是硬间隔和软间隔？

当训练数据线性可分时，通过硬间隔最大化，学习一个线性分类器，即线性可分支持向量机。

当训练数据近似线性可分时，引入松弛变量，通过软间隔最大化，学习一个线性分类器，即线性支持向量机。

（体外话：当训练数据线性不可分时，通过使用核技巧以及软间隔最大化，学习非线性支持向量机）

2、软间隔加入的松弛变量是如何求解出来的？

线性不可分意味着不能满足函数间隔大于等于1的约束条件，为了解决这个问题，可以对每个样本点引入一个松弛变量（ $\xi _{i}$ >=0①）,使得函数间隔加上松弛变量大于等于1.

$y_{i}(w\cdot x_{i}+b)\geqslant 1-\xi _{i}$ ②

目标函数为：

$\frac{1}{2}\left \| w\right \|^{2}+C\sum_{i=1}^{N}\xi _{i}$ ③

C>0是惩罚参数，C值的大小决定了误分类的惩罚强弱，C越大，惩罚越强。

其中，①②③是软间隔的目标函数及其约束条件，其余求解过程和硬间隔见下面）一致。

3、SVM为什么采用间隔最大化？

使它区别于感知机，SVM的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面，对于线性可分的数据集而言，线性可分分离超平面有无穷多个，但是几何间隔最大的分离超平面是唯一的，意味着以充分大的确信度对数据进行分类，特别地离超平面较近的点。此时的分离超平面所产生的分类结果是最鲁棒的，对未知实例的泛化能力最强。

4、为什么SVM要引入核函数？

当样本在原始空间线性不可分时，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间内线性可分。引入对偶问题以后，所求解的对偶问题中，无需求解真正的映射函数，而需知道其核函数。一方面数据变成了高维空间中线性可分的数据，另一方面不需要求解具体的映射函数，只需求解具体的核函数就行。

核函数（两个函数的内积）定义：设 $\chi$ 是输入空间,H是特征空间，如果存在一个从输入空间到特征空间的映射，

$\Phi (x):\psi \rightarrow H$

使得对所有 $x,z\in \chi$ ,函数K(x,z)满足条件

$K\left ( x,z \right )=\phi (x)\cdot \phi (z)$

则K是核函数， $\varphi (x)$ 是映射函数， $\phi (x)\cdot \phi (z)$ 是函数的内积。因此，可以直接通过计算K，而不计算映射函数。

5、SVM核函数之间的区别？

线性核：主要是用于线性可分场景，参数少，训练快

多项式核：可以实现将低维的输入空间映射到特征空间，但是参数多，并且当多项式的阶数较高时，核矩阵的元素值将趋于无穷大或者无穷小，计算复杂度较高。

高斯核（RBF）：局部性强的核函数，参数比多项式核要少，训练场景非常依赖于参数(交叉验证来寻找合适的参数)。

核函数的选择技巧：

利用专家的先验知识预先选定核函数；
采用Cross-Validation方法，即在进行核函数选取时，分别试用不同的核函数，归纳误差最小的核函数就是最好的核函数．如针对傅立叶核、RBF核，结合信号处理问题中的函数回归问题，通过仿真实验，对比分析了在相同数据条件下，采用傅立叶核的SVM要比采用RBF核的SVM误差小很多．
采用由Smits等人提出的混合核函数方法，该方法较之前两者是目前选取核函数的主流方法，也是关于如何构造核函数的又一开创性的工作．将不同的核函数结合起来后会有更好的特性，这是混合核函数方法的基本思想．
参考七月在线的答案