[机器学习笔记]Note10--支持向量机(SVM)

继续是机器学习课程的笔记,这节课的内容是介绍支持向量机(SVM)的内容。SVM是一个非常强大且流行的算法,在一些情况下,面对一些复杂的非线性问题可以提供比逻辑回归或神经网络更加简洁更加有效的结果。

优化目标

首先是以逻辑回归为例展开讨论,逻辑回归的模型是hθ(x)=11+eθTx,这里分y=1y=0两种情况讨论:

  • y=1时,希望假设的hθ(x)1,也就是令z=θTx0
  • y=0时,希望假设的hθ(x)0,也就是令z=θTx0

从代价函数来看,逻辑回归的代价函数如下所示:

J(θ)=1m[i=1my(i)loghθ(x(i))+(1y(i)log(1hθ(x(i)))]

对于任意训练集中的一个实例,对总的代价的影响为
(yloghθ(x)+(1y)log(1hθ(x)))=ylog11+eθTx(1y)log(111+eθTx)

为了让每个实例造成的代价都尽可能地小,这里也说分y=1y=0两种情况讨论,如下图所示,最佳的情况是代价为0,但由下图中曲线可以看出,代价始终会存在,且不为0。

这里写图片描述

而在SVM中,我们将曲线的代价函数转变成由两条线段构成的折线,如下图所示:

  • y=1时,希望构建的新代价函数如cost1(z)所示,当z1时,cost1(z)=0
  • y=0时,希望构建的新代价函数如cost0(z)所示,当z1时,cost0(z)=0

这里写图片描述

用两个新构建的代价函数替换原来逻辑回归的代价函数,得到:

1m[i=1my(i)cost1(z)+(1y(i))cost0(z)]+λ2mj=1nθ2j

这里对上面的代价函数作如下调整:

  1. 因为1m实际上不影响最优化的结构,将其去掉
  2. 因为归一化参数λ控制的是归一化这一项在整个代价函数中占的比例,对于SVM,我们想要控制的新构建的代价函数部分,因此我们去掉λ的同时给第一项乘以一个常数C,相当于我们将整个代价函数除以了λ,且C=1λ

我们依旧是希望能找出使得该代价函数最小的参数。注意,调整后的代价函数是一个凸函数,而非之前逻辑回归那样的非凸函数,这意味着,求解的过程中,不会陷入局部最小值而错过全局最小值的情况,修改后的代价函数如下:

minθCi=1m[y(i)cost1(θTx(i))+(1y(i))cost0(θTx(i))]+12j=1nθ2j

最后给出SVM的假设为:

hθ(x)={1if θTx00if θTx<0

注意,这里给出的假设在预测时是以z与0的大小关系作为依据的,但是,在训练函数时,我们是以正负1为依据的,这是SVM与逻辑回归的一个关键区别,且导致了后面将介绍的支持向量机的特性。

支持向量机的判定边界

SVM有的时候也被称为最大间隔分类器(Large Margin Classifer),其原因是:SVM可以尝试发现一个与样本数据集之间有着最大间隔的判定边界。

上一小节得到了SVM的代价函数表达式,并且其跟逻辑回归的区别是新构建了两个函数cost1(z)cost0(z),其图像分别如下所示

这里写图片描述

由此可以得知,为了最小化代价函数:

  • y=1时,希望z1时,即θTx1
  • y=0时,希望z1时,即θTx1

下图是一个可以用直线来区分的分类问题实例,图中绿色和红色的两条线代表作两条逻辑回归的判定边界,而黑色的线代表的则是SVM的判定边界,从图上可以看出黑色的线似乎是更加合理,蓝色的两条线代表的是SVM的判定边界与样本数据之间的间隔,从这幅图也可以看出SVM被称为最大间隔分类器的原因。

这里写图片描述

接下来是考虑下在SVM中归一化常数C的作用。

假设选择的C是一个非常大的值,那么在最小化代价函数的过程中,我们希望找出在y=1y=0两种情况下都使得代价函数中第一项尽量为0的参数,如果我们找到这样的参数,则我们的最小化问题便转变成:

min12j=1nθ2js.t{θTx(i)1 if y(i)=1θTx(i)1  if y(i)=0

在这种情况下,我们得出的SVM判定边界就是上面黑线那样,具有尝试使得判定边界与样本数据间间隔最大的特性。

但是,使得判断边界与样本数据之间间隔最大并总是好事,假设,我们的数据集如下图所示:

这里写图片描述

也就是在数据集中间有一个较为明显的异常值,即图中左侧在圆圈处下方的红色叉数据,此时如果选择较大的常数C,会得到图中红色的直线,这样并非很合理,但如果选择较小的C,可能会得到图中黑色直线所示的判定边界。也就是说,C值越小,SVM对异常值越不敏感

回顾C=1λ,有:

  • C较大时,相当于λ较小,可能会导致过拟合,高偏倚
  • C较小时,相当于λ较大,可能会导致低拟合,高偏差

核函数

接下来是介绍如何修改SVM算法来解决一些非线性分类的问题。

首先是回顾之前讨论的一个使用高次的多项式模型来解决的一个无法用直线进行分类的问题,其样本集如下图所示:

这里写图片描述

为了获得上图所示的判定边界,使用的模型可能是θ0+θ1x1+θ2x2+θ3x1x2+θ4x21+θ5x22+的形式。

这里使用一系列新的特征f来替换模型中的每一项,如令:f1=x1,f2=x2,f3=x1x2,f4=x21,f5=x22,,那么得到新的模型形式为:hθ(x)=θ0+θ1f1+θ2f2++θnfn。但,除了对原有的特征进行组合外,能否有更好的办法来构造新的特征f1,f2,f3

使用核函数计算出新的特征

给定一个训练实例x,可以利用x的各个特征与预先选定的地标(landmarks)l(1),l(2),l(3)的近似程度来选取新的特征f1,f2,f3。如下图所示

这里写图片描述

这里可以使用如相似度函数来计算新的特征,如令:f1=similarity(x,l(1))=exp(||xl(1)||22σ2),其中||xl(1)||2=nj=1(xjl(1)j)2,表示实例x中所有的特征与地标l(1)之间的距离的和。

这里的相似度函数similarity(x,l(1))就是核函数,实质上这就是一个高斯核函数,注意,这个函数与正态分布没有什么实际上的关系,只是看上去像而已。

这些地标的作用是什么呢?如果一个训练实例x与地标L之间的距离近似于0,则新特征f近似于e0=1;而如果x与L之间距离非常远,则f近似于0。

这里假设训练实例含有两个特征[x1,x2],给定地标l(1)与不同的σ,如下图所示:

这里写图片描述

上图中水平面的坐标为x1,x2,垂直坐标代表f。可以看出只有当x与l(1) 重合时,f才具有最大值,随着x的改变,f值改变的速率受到σ2的控制。

下图是另外一个例子,图中有3个地标,模型hθ(x)=θ0+θ1f1+θ2f2+θ1f3,令θ0=0.5,θ1=θ2=1,θ3=0,当实例处于红色的点位置时,因为离l(1)更近,但是离l(2)l(3)较远,则有f11,f2=f30,因此hθ(x)1,预测y=1。同理可以求出对于离l(2)较近的绿色点,也预测y=1,但对于青蓝色的点,距离三个点都比较远,所以预测y=0,从而可以得到图中红色的封闭曲线的范围内都是预测y=1,而曲线外部就是预测y=0

因此,在预测的时候,我们采用的特征不是训练实例本身的特征,而是通过核函数计算出的新特征f1,f2,f3

选择地标

一般是根据训练集的数量来选择地标的数量,即如果训练集有m个实例,则选择m个地标,并且令l(1)=x(1),l(2)=x(2),,l(m)=x(m)。这样做的好处是:得到的新特征是建立在原有特征与训练集中所有其他特征之间的距离的基础之上的,即:

这里写图片描述

下面将核函数应用到SVM到,修改SVM的假设为:
给定x,计算新特征f,当θTf0时,预测y=1,否则反之。

相应地修改代价函数为:minθCmi=1[y(i)cost1(θTf(i))+(1y(i))cost0(θTf(i))]+12n=mj=1θ2j

而在具体实施过程中,对最后一项需要做点调整,计算n=mj=1θ2j=θTθ时,使用θTMθ代替θTθ其中M是根据选择的核函数而不同的一个矩阵,这样做的原因是为了简化运算。

理论上讲,我们也可以在逻辑回归中使用核函数,但是上面使用M来简化计算的方法不适合逻辑回归,计算会非常耗费时间。

这里不介绍最小化SVM的代价函数的方法,可以使用现有的软件包(如liblinear,libsvm等)。在使用这些软件包最小化我们的代价函数的时候,通常需要编写核函数,并且如果我们使用高斯核函数,在使用前进行特征缩放是非常必要的。

另外,SVM也可以不用核函数,不使用核函数又称为线性核函数,当不采用非常复杂的函数,或者训练集特征非常多而实例非常少的时候,可以使用这种不带核函数的SVM。

下面是SVM的两个参数Cσ的影响:

  • C较大时,相当于λ较小,可能会导致过拟合,高偏倚
  • C较小时,相当于λ较大,可能会导致低拟合,高偏差
  • σ较大时,特征f会比较平滑,导致低拟合,高偏差
  • σ较小时,特征f会相对没有那么平滑,导致过拟合,高偏倚

在高斯核函数外,还有其他一些核函数,如:

  • 多项式核函数(Polynomial Kernel)
  • 字符串核函数(String Kernel)
  • 卡方核函数(chi-square kernel)
  • 直方图交集核函数(histogram intersection kernel)
  • etc…

这些核函数的模板也都是根据训练集和地标之间的距离来构建新的特征,这些核函数需要满足Mercer’s定理,才能被SVM的优化软件正确处理。

多类分类

在之前的逻辑回归这节课中,曾接受一对多的方法来解决一个多类分类问题。即如果一共有k个类,则需要使用k个模型,以及k个参数向量θ

同样地,我们也可以训练k个SVM来解决多类分类问题。但是现在大多数SVM软件包都有内置的多类分类功能,可以直接使用。

逻辑回归和SVM

对于逻辑回归和SVM两种算法,应该如何根据不同问题来选择,下面给出选择的准则:

  • 如果相较于m而言,n要大很多,即训练集数据量不够支持训练一个复杂的非线性模型,则选择使用逻辑回归模型或者不带核函数的SVM
  • 如果n较小,而且m大小中等,例如n在1-1000之间,而m在10-10000之间,可以使用带高斯核函数的SVM
  • 如果n较小,而m较大,例如n在1-1000之间,而m大于50000,则使用SVM会比较慢,解决方案是创造、增加更多的特征,然后使用逻辑回归或者不带核函数的SVM

值得一提的是,神经网络在以上三种情况下都可能会有较好的表现,但是训练神经网络可能会非常慢,选择SVM的原因主要在于它的代价函数是凸函数,不存在局部最小值

小结

本节课主要介绍一个非常流行的算法–支持向量机(SVM),不过要真正弄懂这个算法的原理,单纯看完这节课其实感觉还是不太够的,还需要更深入了解,并且要顺便用代码实现下,通过实践来促进理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/409057.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[机器学习笔记]Note11--聚类

继续是机器学习课程的笔记&#xff0c;本节介绍的是聚类方法&#xff0c;主要是K-means算法。 非监督学习 首先介绍监督学习和非监督学习的区别。一个监督学习的例子如下图&#xff0c;给定训练集如:{(x(1),y(1)),(x(2),y(2)),…,(x(m),y(m))},每个训练实例都有对应的标签。 …

[机器学习笔记]Note12--降维

继续是机器学习课程的笔记&#xff0c;本节介绍的是降维方法&#xff0c;这也是非监督学习中的一个问题&#xff0c;主要介绍主要成分分析&#xff08;Principal Component Analysis&#xff0c;PCA&#xff09;算法。 降维 动机一&#xff1a;数据压缩 使用降维的一个原因是…

[机器学习笔记]Note13--异常检测

继续是机器学习课程的笔记&#xff0c;本节课内容是异常检测&#xff0c;它是一个非监督学习算法&#xff0c;用于发现可能不应该属于一个已定义的组中的数据。 密度估计 首先是给出一个例子&#xff0c;如下图所示&#xff0c;是一个测试飞机引擎的例子&#xff0c;给定数据…

[机器学习笔记]Note14--推荐系统

继续是机器学习课程的笔记&#xff0c;本节课将介绍推荐系统的内容。 问题形式化 推荐系统是机器学习的一个非常重要的应用&#xff0c;在很多音乐、购物等网站都有推荐系统&#xff0c;如豆瓣&#xff0c;淘宝&#xff0c;网易云音乐等都是有使用到推荐系统的&#xff0c;因…

[机器学习笔记]Note15--大规模机器学习

继续是机器学习课程的笔记&#xff0c;本节内容主要是介绍大规模机器学习的内容。 大型数据集的学习 对于一个过拟合的模型&#xff0c;增加数据集的规模可以帮助避免过拟合&#xff0c;并获得一个更好的结果。 但是对于一个大规模的数据&#xff0c;比如有100万个数据量的训…

[机器学习笔记]Note16--应用示例:图像文字识别

继续是机器学习课程的笔记&#xff0c;本节课是最后一节内容了&#xff0c;主要是介绍一个应该–图中文字的识别。 问题描述和流程图 图像文字识别应用就是从给定的图片中识别文字。这比从一份扫描文档中识别文字要复杂得多。一个例子图片如下所示&#xff1a; 为了完成这样的…

python小老鼠编程_邯郸pythonnot学习费用多少

邯郸pythonnot学习费用多少更新时间&#xff1a;2020-08-02 12:49:04注意&#xff1a;如果出现错误&#xff0c;可能是因为安装时未勾选AddPython3.5toPATH选项&#xff0c;此时卸载Python后重新安装时勾选AddPython3.5toPATH选项即可。1.2Mac中安装Python3Mac系统中自带了Pyth…

论文阅读(2)--Picking Deep Filter Responses for Fine-grained Image Recognition

这次阅读的文章是Picking Deep Filter Responses for Fine-grained Image Recognition&#xff0c;这篇文章是来自上海交通大学Xiaopeng Zhang等人的工作&#xff0c;该文章提出了一种对深度网络中的filter进行挑选的方法&#xff0c;基于挑选的filter的结果构建复杂特征表达。…