Scikit-Learn 支持向量机分类

Scikit-Learn 支持向量机分类

    • 1、支持向量机(SVM)
      • 1.1、SVM概述
      • 1.2、SVM原理
      • 1.3、SVM的损失函数



1、支持向量机(SVM)

1.1、SVM概述


在机器学习中,支持向量机(Support Vector Machine,SVM)算法既可以用于回归问题(SVR),也可以用于分类问题(SVC)

支持向量机是一种经典的监督学习算法,通常用于分类问题。SVM在机器学习知识结构中的位置如下:

SVM的核心思想是将分类问题转化为寻找分类平面的问题,并通过最大化分类边界点(支持向量)到分类平面的距离(间隔)来实现分类

在这里插入图片描述

如图所示,左图展示了三种可能的线性分类器的决策边界,虚线所代表的模型表现非常糟糕,甚至都无法正确实现分类;其余两个模型在训练集上表现堪称完美,但是它们的决策边界与实例过于接近,导致在面对新样本时,表现可能不会太好

右图中的实线代表SVM分类器的决策边界,两虚线表示最大间隔超平面,虚线之间的距离(两个异类支持向量到超平面的距离之和)称为超平面最大间隔,简称间隔;SVM的决策边界不仅分离了两个类别,而且尽可能的远离了最近的训练实例,距离决策边界最近的实例称为支持向量

1.2、SVM原理


SVM的最优化问题就是要找到各类样本点到超平面的距离最远,也就是找到最大间隔超平面。任意超平面的方程为
ω T x + b = 0 \omega^Tx+b=0 ωTx+b=0

其中 ω \omega ω为超平面的法向量,决定了超平面的方向; b b b为位移项,决定了超平面到原点间的距离

二维空间点 ( x , y ) (x,y) (x,y)到直线 A x + B y + C = 0 Ax+By+C=0 Ax+By+C=0的距离公式为
d = ∣ A x + B y + C ∣ A 2 + B 2 d=\frac{|Ax+By+C|}{\sqrt{A^2+B^2}} d=A2+B2 Ax+By+C

扩展到N维空间中,点 ( x 1 , x 2 , . . . x n ) (x_1,x_2,...x_n) (x1,x2,...xn)到直线 ω T x + b = 0 \omega^Tx+b=0 ωTx+b=0的距离为
d = ∣ ω T x + b ∣ ∣ ∣ ω ∣ ∣ d=\frac{|\omega^Tx+b|}{||\omega||} d=∣∣ω∣∣ωTx+b

其中, ∣ ∣ ω ∣ ∣ ||\omega|| ∣∣ω∣∣= ω 1 2 + ω 2 2 + . . . + ω n 2 \sqrt{\omega_1^2+\omega_2^2+...+\omega_n^2} ω12+ω22+...+ωn2

在这里插入图片描述
SVM假设样本是线性可分的,则任意样本点到超平面的距离可写为
d = ∣ ω T x + b ∣ ∣ ∣ ω ∣ ∣ d=\frac{|\omega^Tx+b|}{||\omega||} d=∣∣ω∣∣ωTx+b
为方便描述和计算,设 y i ∈ − 1 , 1 y_i\in{-1,1} yi1,1,其中1表示正例,-1表示负例,则有
{ ω T x i + b ≥ + 1 y i = + 1 ω T x i + b ≤ − 1 y i = − 1 \begin{cases} \omega^Tx_i + b ≥ +1 \, \, & y_i=+1 \\ \omega^T x_i+b ≤ -1 \, \, & y_i=-1 \end{cases} {ωTxi+b+1ωTxi+b1yi=+1yi=1

此时,两个异类支持向量到超平面的距离之和为
γ i = y i ( ω T ∣ ∣ ω ∣ ∣ ⋅ x i + b ∣ ∣ ω ∣ ∣ ) = 2 ∣ ∣ ω ∣ ∣ \gamma_i=y_i\left(\frac{\omega^T}{||\omega||}\cdot x_i + \frac{b}{||\omega||} \right) = \frac{2}{||\omega||} γi=yi(∣∣ω∣∣ωTxi+∣∣ω∣∣b)=∣∣ω∣∣2

其中, γ \gamma γ称为间隔。最大间隔不仅与 ω \omega ω有关,偏置 b b b也会隐性影响超平面的位置,进而对间隔产生影响

现在,我们只需要使间隔 γ \gamma γ最大,即
arg ⁡ max ⁡ ω , b 2 ∣ ∣ ω ∣ ∣ \arg \mathop{\max}\limits_{\omega,b} \frac{2}{||\omega||} argω,bmax∣∣ω∣∣2

最大化间隔 γ \gamma γ,显然只需要最小化 ∣ ∣ ω ∣ ∣ ||\omega|| ∣∣ω∣∣,于是,上式可重写为
arg ⁡ min ⁡ ω , b 1 2 ∣ ∣ ω ∣ ∣ 2 \arg \mathop{\min}\limits_{\omega,b} \frac{1}{2}||\omega||^2 argω,bmin21∣∣ω2

这里的平方和之前一样,一是为了方便计算,二是可以将目标函数转化为凸函数的凸优化问题。称该式为SVM的基本型

1.3、SVM的损失函数


1.3.1、软间隔与硬间隔

如果我们严格让所有实例都不在最大间隔之间,并且位于正确的一边,这就是硬间隔分类。但是硬间隔分类有两个问题:首先,它只在数据是线性可分时才有效;其次,它对异常值较敏感

要避免这些问题,可以使用更灵活的模型。目标是尽可能在保持最大间隔的同时允许间隔违例(在最大间隔之间,甚至位于错误的一边),在最大间隔与违例之间找到良好的平衡,这就是软间隔分类

在这里插入图片描述

软间隔的目标函数为
J = 1 2 ∣ ∣ ω ∣ ∣ 2 + C ∑ i = 1 n ε i J=\frac{1}{2}||\omega||^2 + C\sum_{i=1}^{n}\varepsilon_i J=21∣∣ω2+Ci=1nεi
其中,超参数 C C C为惩罚系数, ε \varepsilon ε为松弛因子。 C C C越小,惩罚越小(间隔越宽,违例越多)

1.3.2、核函数


未完待续…

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/587.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为服务Fellow、首席项目管理专家,华为H5M项目管理标准制定主导者孙虎受邀为PMO大会演讲嘉宾

全国PMO专业人士年度盛会 华为服务Fellow、首席项目管理专家,华为H5M项目管理标准制定主导者孙虎先生受邀为PMO评论主办的2024第十三届中国PMO大会演讲嘉宾,演讲议题为“落地项目管理标准,打赢班长的战争”。大会将于5月25-26日在北京举办&am…

国民经济行业导入数据库码表

目录 1、先去下载word文档图片如下 2、粘贴到excel中形成insert 语句 3、创建临时表存excel中数据 4、创建码表保存信息 5、编写存储过程放入表中 5.1存储第四级码值及父机构 5.2存储第三级码值及父机构 5.3存储第二级码值及父机构 5.4存储第一级码值 6、导入成功查看…

react 使用WEB3.0控件开发包 V3.0接入海康威视摄像头

1、下载官方安装包: 2、安装官方插件 3、引入文件 在public/index 中引入监控依赖,这三个文件可以在下载的官方demo中找到 4、react 中使用 useEffect(() > { const ipInfo :[192.168.xxxx];//初始化摄像头const WebVideoCtrl window.WebVideoCtrl…

Linux下kafka单机版搭建

1.zookeeper的安装 这里使用3.6.4版本 前提:服务器已经安装了jdk,zookeeper运行需要jdk环境 1.1创建放zookeeper的目录 #创建目录 mkdir -p /usr/local/zookeeper#赋予权限 chmod 777 /usr/local/zookeeper1.2安装包的下载 #这里推荐去官网下载 https:…

泛型的初步认识(1)

前言~🥳🎉🎉🎉 hellohello~,大家好💕💕,这里是E绵绵呀✋✋ ,如果觉得这篇文章还不错的话还请点赞❤️❤️收藏💞 💞 关注💥&#x…

Java 算法篇-深入了解 BF 与 KMP 算法

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 BF 算法概述 1.1 BF 算法实际使用 2.0 KMP 算法概述 2.1 KMP 算法实际使用 2.2 相比于 BF 算法实现,KMP 算法的重要思想 2.3 为什么要这样设计&#x…

listpack

目录 为什么有listpack? listpack结构 listpack的节点entry 长度length encoding编码方式 listpack的API 1.创建listpack 2.遍历操作 正向遍历 反向遍历 3.查找元素 4.插入/替换/删除元素 总结 为什么有listpack? ziplist是存储在连续内存空间,节省…

华为云服务镜像手动更换

操作步骤: 1、进入华为云首页点击云容器引擎CCE; 2、选择你所要更换镜像的环境【这里以dev环境演示】; 3、点击dev环境后选择顶部的命名空间,点击【工作负载】中右侧栏的【升级】按钮; 4、点【更换镜像】选择你在test…

C++之类和对象三

目录 拷贝构造函数 定义铺垫 浅拷贝 深拷贝 总结 拷贝构造函数 那在创建对象时,可否创建一个与一个对象一某一样的新对象呢? 定义铺垫 构造函数:只有单个形参,该形参是对本类类型对象的引用(一般常用const修饰)&#xff0c…

顺丰同城急送API对接(附源码)

一、背景 最近公司让我对接顺丰同城急送的API,讲讲里面需要注意的几点 官方的API文档有些示例代码也不全,具体细节不多说,如果你现在也需要对接他们API,可以参考本篇博客再配合官方文档结合起来看,可以让您再开发的时…

期权小知识科普

期权的交易时间 上交所期权合约的交易时间为每个交易日9:15至9:25、9:30至11:30、13:00至15:00。 其中,9:15至9:25为开盘集合竞价时间,14:57-15:00为收盘集合竞价时间,其余时段为连续竞价时间,交易所规则另有规定的除…

Pytorch-自动微分模块

🥇接下来我们进入到Pytorch的自动微分模块torch.autograd~ 自动微分模块是PyTorch中用于实现张量自动求导的模块。PyTorch通过torch.autograd模块提供了自动微分的功能,这对于深度学习和优化问题至关重要,因为它可以自动计算梯度&#xff0c…

VUE-列表

VUE-列表 列表功能 如下例子 列表展示 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><meta http-equiv&qu…

CorelDRAW Graphics Suite2024最新永久免费版功能强大的图形设计软件

CorelDRAW Graphics Suite是一款功能强大的图形设计软件套件&#xff0c;它提供了丰富的绘图工具、编辑功能和设计资源&#xff0c;适用于从专业设计师到普通用户的广泛群体。以下是CorelDRAW Graphics Suite的一些主要功能特点&#xff1a; 矢量图形设计&#xff1a;CorelDRAW…

Jenkins 流水线多阶段构建

Jenkins流水线配置遇到 无法识别的。需要使用 自定义环境 项。 比如官网的在流水线中使用Docker Started by remote host 172.17.0.1 Obtained Jenkinsfile from git http://10.99.20.51:8082/root/java-devops-demo.git org.codehaus.groovy.control.MultipleCompilationErro…

智慧化赋能园区新未来:探讨智慧园区如何以科技创新为引擎,推动产业转型升级

随着科技的飞速发展&#xff0c;智慧化已成为推动园区产业升级和转型的重要引擎。智慧园区&#xff0c;以其高效、便捷、智能的特性&#xff0c;正逐步改变传统的产业园区模式&#xff0c;为产业发展注入新的活力。本文旨在探讨智慧园区如何以科技创新为引擎&#xff0c;推动产…

制作适用于openstack平台的win10镜像

1. 安装准备 从MSDN下载windows 10的镜像虚拟机开启CPU虚拟化的功能。从Fedora 网站下载已签名的 VirtIO 驱动程序 ISO 。 创建15 GB 的 qcow2 镜像&#xff1a;qemu-img create -f qcow2 win10.qcow2 15G 安装必要的软件 yum install qemu-kvm qemu-img virt-manager libvir…

GaN HEMT中短沟道效应的建模

来源&#xff1a;Modeling of Short-Channel Effects in GaN HEMTs&#xff08;TED 20年&#xff09; 摘要 在本文中&#xff0c;我们提出了一种用于估算GaN高电子迁移率晶体管&#xff08;HEMT&#xff09;器件中短沟道效应&#xff08;SCEs&#xff09;的显式和解析的基于电…

【创建型模式】单例模式

一、单例模式概述 单例模式的定义&#xff1a;又叫单件模式&#xff0c;确保一个类只有一个实例&#xff0c;并提供一个全局访问点。&#xff08;对象创建型&#xff09; 要点&#xff1a; 1.某个类只能有一个实例&#xff1b;2.必须自行创建这个实例&#xff1b;3.必须自行向整…

固体矿产资源储量分类GBT17766-2020

1999分类标准采用三轴体系划分资源量与处理&#xff0c;表达复杂、经济意义划分过细、实用性不强 虽然不再采用”三轴“表达方式&#xff0c;但依然考虑地质可靠程度、经济意义、可行性评价 矿产资源勘查&#xff1a;通常依靠地球科学知识&#xff0c;运用地质填图&#xff0…