1、什么是硬间隔和软间隔?
当训练数据线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机。
当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机。
(体外话:当训练数据线性不可分时,通过使用核技巧以及软间隔最大化,学习非线性支持向量机)
2、软间隔加入的松弛变量是如何求解出来的?
线性不可分意味着不能满足函数间隔大于等于1的约束条件,为了解决这个问题,可以对每个样本点引入一个松弛变量(>=0①),使得函数间隔加上松弛变量大于等于1.
②
目标函数为:
③
C>0是惩罚参数,C值的大小决定了误分类的惩罚强弱,C越大,惩罚越强。
其中,①②③是软间隔的目标函数及其约束条件,其余求解过程和硬间隔见下面)一致。
3、SVM为什么采用间隔最大化?
使它区别于感知机,SVM的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面,对于线性可分的数据集而言,线性可分分离超平面有无穷多个,但是几何间隔最大的分离超平面是唯一的,意味着以充分大的确信度对数据进行分类,特别地离超平面较近的点。此时的分离超平面所产生的分类结果是最鲁棒的,对未知实例的泛化能力最强。
4、为什么SVM要引入核函数?
当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。引入对偶问题以后,所求解的对偶问题中,无需求解真正的映射函数,而需知道其核函数。一方面数据变成了高维空间中线性可分的数据,另一方面不需要求解具体的映射函数,只需求解具体的核函数就行。
核函数(两个函数的内积)定义:设是输入空间,H是特征空间,如果存在一个从输入空间到特征空间的映射,
使得对所有,函数K(x,z)满足条件
则K是核函数,是映射函数,是函数的内积。因此,可以直接通过计算K,而不计算映射函数。
5、SVM核函数之间的区别?
线性核:主要是用于线性可分场景,参数少,训练快
多项式核:可以实现将低维的输入空间映射到特征空间,但是参数多,并且当多项式的阶数较高时,核矩阵的元素值将趋于无穷大或者无穷小,计算复杂度较高。
高斯核(RBF):局部性强的核函数,参数比多项式核要少,训练场景非常依赖于参数(交叉验证来寻找合适的参数)。
核函数的选择技巧:
- 利用专家的先验知识预先选定核函数;
- 采用Cross-Validation方法,即在进行核函数选取时,分别试用不同的核函数,归纳误差最小的核函数就是最好的核函数.如针对傅立叶核、RBF核,结合信号处理问题中的函数回归问题,通过仿真实验,对比分析了在相同数据条件下,采用傅立叶核的SVM要比采用RBF核的SVM误差小很多.
- 采用由Smits等人提出的混合核函数方法,该方法较之前两者是目前选取核函数的主流方法,也是关于如何构造核函数的又一开创性的工作.将不同的核函数结合起来后会有更好的特性,这是混合核函数方法的基本思想.
- 参考七月在线的答案
6、为什么SVM对缺失数据敏感?
因为SVM没有处理缺失值的策略,而SVM希望样本在特征空间中线性可分,所以特征空间的好坏对SVM的性能很重要,缺失特征数据将影响训练结果的好坏。
7、为什么目标函数要转化为对偶问题求解?
- 对偶问题将原始问题中的约束转为了对偶问题中的等式约束
- 方便核函数的引入
- 改变了问题的复杂度。由求特征向量w转化为求比例系数a,在原始问题下,求解的复杂度与样本的维度有关,即w的维度。在对偶问题下,只与样本数量有关。
8、SVM如何解决样本倾斜?
给样本较少的类别较大的惩罚因子,提高这部分样本的重视程度。
9、SVM的损失函数
是合页损失函数(hinge loss),是(wx+b),y是类别值
原理推导:
一、硬间隔支持向量机
支持向量机的学习策略是间隔最大化,可形式化为一个求解凸二次规划问题,也等价于正则化的合页损失函数的最小化问题。
学习的目标是在特征空间找到一个分离超平面,能将实例分到不同的类,分离超平面的对应方程是
,因为分离超平面有无穷多个,需要几何间隔最大化来确定唯一解。由于SVM是二分类,因此,y=-1代表是负例,y=1代表是正例。
支持向量(如图H1和H2线上的点):样本中距离超平面最近的点称为支持向量。使得约束条件成立。
间隔:H1和H2之间被称为间隔
函数间隔:可以代表分类预测的正确性及确信度
一个点距离分离超平面的远近可以表示分类预测的确信程度。能够表示点x距离超平面的远近,与y的符号是否一致能够表示分类是否正确,可以表示分类的正确性和确信程度(也是函数间隔)。
几何间隔:
如果成比例改变w,b的值,超平面没有改变,函数间隔却变为原来的2倍,因此,我们需要对w加些约束,如规范化,,此时函数间隔成为几何间隔。即
假设y=-1,点A与超平面的距离是,则
假设y=+1,点A与超平面的距离是,则
则几何间隔为
对于训练数据集来说,分离超平面(w,b)是所有样本点的几何间隔之最小值,即
如果超平面参数w,b改变,函数间隔也成比例改变,但是几何间隔不变。
目标函数为几何间隔最大化,则
由下述函数间隔和几何间隔的关系,可将目标函数进行变化:
目标函数变为
由于函数间隔变化并不影响最优问题求解,因此,将函数变为,并将目标问题转成对偶问题,(将问题简单化,从求解w权重值,到求解a值)。
应用拉格朗日对偶性,通过求解对偶问题得到原始问题的最优解。优点是对偶问题往往更容易求解且能自然引入核函数,进而推广到非线性分类问题(详解看问题7)。
是拉格朗日乘子,求解方程组(条件极值的解法),令L对w,b的偏导为0:
将结果带回L,就可以得到
求对的极大,
KKT条件:
二、软间隔支持向量机
在现实任务中,样本的不确定性不能正好将样本线性可分,为了提升模型的泛化能力,引入软间隔来允许支持向量机在一些样本上出错。
线性不可分意味着某些样本点不能满足函数间隔大于等于1的约束条件,可以为每个样本点引入一个松弛变量(大于0),使得函数间隔加上松弛变量大于等于1,则目标函数变为:
因为松弛变量是非负的,要求间隔可以小于1,当样本点的间隔小于1时,我们放弃了对这些点的精确分类,使得模型有一定的容错能力。
- 离群的样本点是有值的松弛变量(松弛变量越大,离群点越远),没离群的点的松弛变量等于0。
- 惩罚因子C决定了对离群点带来损失的重视程度,C越大,惩罚越大,对离群点的要求越严。
计算步骤和硬间隔一样:
KKT条件:
三、非线性SVM
当线性不可分时,将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。常见核函数有:
所求解的对偶问题中,无需求解真正的映射函数,而需知道其核函数。目标函数化简为:
四、序列最小最优算法(SMO)
SMO是一种启发式算法,用来求解二次规划问题。基本思路是:如果所有变量的解都满足此最优化问题的KKT条件,那么最优化问题的解就得到了。算法包含两个部分:求解两个变量二次规划的解析方法和选择变量的启发式方法。
- 选取一对需更新的变量和
- 固定 和以外的参数,求解式获得更新后的 和