【耗时十个小时】程序员最趁手的SVM算法,学完你会哭着感谢努力的自己!

❤ 纯  干  货 ❤

在这之前咱们已经接触了 各个算法的优缺点的总结,以及8个回归类算法、7个正则化算法的总结、5 个集成算法模型的全部总结!

感兴趣的可以翻到之前看看~

咱们今天就大概一起学习一下关于SVM的方方面面。

  • 线性支持向量机

  • 非线性支持向量机

  • 多类别支持向量机

  • 核函数支持向量机

  • 稀疏支持向量机

  • 核贝叶斯支持向量机

  • 不平衡类别支持向量机

先来啰嗦几点关于 SVM 的优势和劣势

优势:

1、适用性广泛:SVM支持向量机在解决分类和回归问题上表现出色,可应用于各种数据类型和领域,例如文本分类、图像识别和生物信息学等。

2、鲁棒性强:SVM支持向量机对于训练数据中的噪声和异常点具有一定的鲁棒性,可以有效地处理输入数据中的噪声。

3、可避免陷入局部最优解:由于SVM支持向量机使用了结构风险最小化原则,它能够更好地避免陷入局部最优解,并且具有较低的泛化误差。

4、高维空间有效:SVM支持向量机通过核技巧将低维空间的非线性问题映射到高维空间,在高维空间中进行线性划分,从而有效地解决了复杂的非线性问题。

5、可控制的过拟合:SVM支持向量机通过调整正则化参数和松弛变量来控制模型的复杂度,从而可以有效地避免过拟合问题。

劣势:

1、计算复杂度高:SVM支持向量机在大规模数据集上的训练时间较长,特别是对于非线性问题和核函数的使用。

2、参数选择敏感:SVM支持向量机中的参数调优过程通常需要进行交叉验证,对于不同的问题和数据集,选择合适的参数可能会比较困难。

3、对缺失数据敏感:SVM支持向量机对于含有大量缺失数据的情况可能表现不佳,需要在预处理阶段进行适当的处理。

4、适用于二分类问题:原始的SVM支持向量机算法只能解决二分类问题,对于多类别问题需要进行扩展或使用其他方法。

尽管SVM支持向量机存在一些劣势,但其优势使得它成为了数据分析和机器学习领域中一个重要的算法之一。

在实际工作中,我们可以根据具体问题的特点和需求来选择合适的分类算法。

大家伙如果觉得还不错!可以点赞、转发安排起来,让更多的朋友看到

1线性支持向量机

线性支持向量机是一种用于解决分类问题的机器学习算法。

它的目标是找到一个能够在数据中画出一条直线(或者高维空间中的超平面),将不同类别的数据点分隔开,并且最大化两侧最靠近这条线的数据点之间的距离。

这两侧最靠近线的数据点被称为支持向量。

线性SVM在以下情况下非常有用:

  • 二分类问题,即将数据分为两个类别。

  • 当数据可以被线性分割时,即存在一条直线可以很好地将两个类别分开。

  • 当需要一个高度可解释的模型,因为SVM的决策边界是直线或超平面,非常容易可视化和解释。

线性SVM的决策函数可以表示为:

我们创建一个简单的线性SVM模型,大家可以直接运行起来:

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn import svm# 生成一些随机数据
X, y = datasets.make_classification(n_samples=100, n_features=2, n_classes=2, n_clusters_per_class=1, n_redundant=0)# 创建SVM模型
clf = svm.SVC(kernel='linear')
clf.fit(X, y)# 绘制数据点
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)# 绘制决策边界
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()# 创建网格来评估模型
xx, yy = np.meshgrid(np.linspace(xlim[0], xlim[1], 50), np.linspace(ylim[0], ylim[1], 50))
Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)# 绘制决策边界和间隔
plt.contour(xx, yy, Z, colors='k', levels=[-1, 0, 1], alpha=0.5, linestyles=['--', '-', '--'])
plt.show()

2非线性支持向量机

非线性支持向量机的神奇之处在于,它可以帮助我们把不同形状的数据分开,像拼图一样。

有时,我们不能仅仅用一条直线分开这些数据,所以我们需要一些特殊的技巧,这就是非线性SVM的用武之地。

非线性SVM在很多情况下都非常有用,比如:

  • 当数据不是线性分布的,也就是说,不能只用一条直线把它们分开。

  • 当我们需要解决更复杂的问题,如图像识别或自然语言处理,这些问题通常不适合线性方法。

  • 当我们希望用一种更复杂的方式来分隔数据,以获取更好的结果。

另外,非线性SVM的数学公式比较复杂,但我们可以简化为:它是一种方法,可以将数据映射到一个不同的空间,然后在那个空间中使用线性SVM。这个映射是通过一个叫做核函数来完成的。这个核函数通常表示为K(x,x’),它将原始数据x和x'映射到一个新的空间。

下面是一个使用非线性SVM的Python案例,以帮助理解。

我们将使用支持向量机库svm中的SVC类,并使用径向基函数(RBF)核。

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn import svm# 创建一些具有非线性特征的数据
X, y = datasets.make_circles(n_samples=100, factor=0.5, noise=0.1)# 创建非线性SVM模型
clf = svm.SVC(kernel='rbf')
clf.fit(X, y)# 绘制数据点
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Paired)# 绘制决策边界
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()# 创建网格来评估模型
xx, yy = np.meshgrid(np.linspace(xlim[0], xlim[1], 50), np.linspace(ylim[0], ylim[1], 50))
Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)# 绘制决策边界和间隔
plt.contourf(xx, yy, Z, cmap=plt.cm.coolwarm, alpha=0.8)
plt.show()

3多类别支持向量机

多类别支持向量机可以应用于许多实际问题中。

比如,当我们有很多动物的照片,我们想知道每个动物的种类;或者当我们有很多水果的特征数据,我们想根据这些特征将水果分类。

我们可以用一些数学公式来描述多类别支持向量机。假设我们有n个数据点,每个数据点有两个特征,分别用x和y表示。我们还有k个类别,用1到k的数字表示。

多类别支持向量机的目标是找到一条线(或曲线),可以将不同类别的点分开。我们可以使用以下公式表示多类别支持向量机的决策规则:

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
import matplotlib.pyplot as plt# 加载数据集(这里使用鸢尾花数据集作为示例)
iris = datasets.load_iris()
X = iris.data[:, :2]  # 只选取前两个特征
y = iris.target# 将数据集拆分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建多类别支持向量机模型,选择线性核函数
svm = SVC(kernel='linear')
svm.fit(X_train, y_train)# 预测测试集中的类别
y_pred = svm.predict(X_test)# 绘制决策边界和样本点
plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Set1)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')# 绘制支持向量
support_vectors = svm.support_vectors_
plt.scatter(support_vectors[:, 0], support_vectors[:, 1], s=100, facecolors='none', edgecolors='k')# 绘制特殊点
special_points = [[5.9, 3.0], [6.2, 2.8]]
plt.scatter([point[0] for point in special_points], [point[1] for point in special_points], color='red', marker='x')# 绘制决策边界
xlim = plt.gca().get_xlim()
ylim = plt.gca().get_ylim()
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = svm.decision_function(xy).reshape(XX.shape)
plt.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5, linestyles=['--', '-', '--'])plt.show()

4核函数支持向量机

核函数支持向量机使用场景很多,比如在图像识别、文本分类和生物信息学等领域都有应用。

核函数支持向量机的公式表达如下:

给定一个训练集 ,其中  是输入特征向量, 是对应的类别标签。核函数支持向量机的目标是找到一个超平面,将不同类别的样本分隔开来

咱们再来举一个例子:

from sklearn import svm
import matplotlib.pyplot as plt
import numpy as np# 生成样本数据
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([0, 0, 1, 1])# 创建核函数支持向量机模型
model = svm.SVC(kernel='rbf')# 拟合数据
model.fit(X, y)# 绘制决策边界
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis')
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()# 创建网格来评估模型
xx = np.linspace(xlim[0], xlim[1], 30)
yy = np.linspace(ylim[0], ylim[1], 30)
YY, XX = np.meshgrid(yy, xx)
xy = np.vstack([XX.ravel(), YY.ravel()]).T
Z = model.decision_function(xy).reshape(XX.shape)# 绘制决策边界和支持向量
ax.contour(XX, YY, Z, colors='k', levels=[-1, 0, 1], alpha=0.5,linestyles=['--', '-', '--'])
ax.scatter(model.support_vectors_[:, 0], model.support_vectors_[:, 1],s=100, facecolors='none', edgecolors='k')plt.show()

上述代码首先使用样本数据训练一个核函数支持向量机模型,然后通过绘制决策边界和支持向量的方式可视化分类结果。决策边界是用实线表示的,支持向量是用空心圆点表示的。

5稀疏支持向量机

当我们使用稀疏支持向量机来解决一个分类问题时,我们希望找到一个超平面,能够将不同类别的数据点有效地分开。

稀疏支持向量机通常用于处理大规模数据集或高维特征的分类问题。例如,在医学图像识别中,当需要处理数百万个像素的图像数据时,稀疏支持向量机可以高效地分类;在自然语言处理中,当需要处理大量文本特征时,该算法也能发挥作用。

给定训练数据集 ,其中  是输入特征向量, 是对应的类别标签。

稀疏支持向量机的目标是找到一个超平面,使得尽可能多的训练数据点离该超平面的距离最大化。

举一个关于稀疏支持向量机的例子,大家只要安装了相应的包即可直接运行起来:

from sklearn import svm
import matplotlib.pyplot as plt
import numpy as np# 生成样本数据
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8]])
y = np.array([0, 0, 1, 1])# 创建稀疏支持向量机模型
model = svm.SVC(kernel='linear')# 拟合数据
model.fit(X, y)# 绘制数据点
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='viridis')# 绘制超平面
w = model.coef_[0]
b = model.intercept_[0]
x_min, x_max = plt.xlim()
y_min, y_max = plt.ylim()
xx = np.linspace(x_min, x_max)
yy = -(w[0] * xx + b) / w[1]
plt.plot(xx, yy, 'k-')# 绘制支持向量
support_vectors = model.support_vectors_
plt.scatter(support_vectors[:, 0], support_vectors[:, 1],s=200, facecolors='none', edgecolors='k')plt.show()

上述代码使用给定的样本数据训练一个稀疏支持向量机模型,并绘制数据点、超平面以及支持向量。

超平面由wb参数定义,支持向量表示离超平面最近的数据点。

废话不说直接进入主题:

6核贝叶斯支持向量机

核贝叶斯支持向量机通过学习一些已知的例子,并找到一个特殊的边界,用于将不同的事物区分开来。

核贝叶斯支持向量机可以应用于很多现实生活中的问题。例如:

1、邮件分类:将电子邮件自动分为垃圾邮件和非垃圾邮件。

2、图像识别:判断图像中是猫还是狗。

3、情感分析:自动判断文本评论是正面还是负面情感。

核贝叶斯支持向量机的公式可以简化为以下形式:

举个 Python 的例子

import numpy as np
import plotly.graph_objects as go
from sklearn.svm import SVC# 生成示例数据
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
y = np.array([0, 1, 1, 0])# 创建支持向量机模型
model = SVC(kernel='linear')# 拟合数据
model.fit(X, y)# 绘制数据点
data = [go.Scatter3d(x=X[:, 0],y=X[:, 1],z=X[:, 2],mode='markers',marker=dict(size=6,color=y,colorscale='Viridis',opacity=0.8))
]# 绘制决策边界
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
z_min, z_max = X[:, 2].min() - 1, X[:, 2].max() + 1
xx, yy, zz = np.meshgrid(np.arange(x_min, x_max, 0.1),np.arange(y_min, y_max, 0.1),np.arange(z_min, z_max, 0.1))
Z = model.predict(np.c_[xx.ravel(), yy.ravel(), zz.ravel()])
Z = Z.reshape(xx.shape)# 添加决策边界到图形中
data.append(go.Surface(x=xx,y=yy,z=zz,surfacecolor=Z,colorscale='Viridis',showscale=False)
)# 创建布局
layout = go.Layout(scene=dict(xaxis=dict(title='X'),yaxis=dict(title='Y'),zaxis=dict(title='Z')),margin=dict(l=0, r=0, b=0, t=0)
)# 绘制图形
fig = go.Figure(data=data, layout=layout)
fig.show()

7不平衡类别支持向量机

不平衡类别支持向量机是一种分类算法,它使用支持向量机的思想来处理不平衡类别数据集。

它的目标是通过调整决策边界,使得分类模型能够更好地识别少数类别,并提高整体分类准确率。

不平衡类别支持向量机常用于以下场景:

  • 欺诈检测:在信用卡交易中,欺诈行为往往只占极小比例,而正常交易占大部分。

  • 医学诊断:对于某些罕见病症或疾病,阳性样本数量通常较少。

  • 文本分类:在某些特定的主题或事件中,负面评论或垃圾邮件的数量相对较少。

不平衡类别支持向量机的目标是最小化以下公式:

import numpy as np
from sklearn.svm import SVC
import plotly.graph_objects as go# 创建训练数据
X = np.array([[3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([0, 0, 1, 1])# 创建不平衡类别支持向量机模型
model = SVC(class_weight='balanced')# 拟合模型
model.fit(X, y)# 生成网格点用于绘制决策边界
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)# 绘制三维图
fig = go.Figure(data=[go.Surface(z=Z, x=xx, y=yy)])
fig.update_layout(title='Decision Boundary', autosize=False,width=500, height=500, margin=dict(l=65, r=50, b=65, t=90))
fig.show()

这段代码使用 Scikit-learn 库中的 SVC 类来创建不平衡类别支持向量机模型,并使用plotly库绘制三维图来展示决策边界。在训练数据中,我们有两个特征和两个类别。通过拟合模型并预测网格点上的分类结果,我们可以得到决策边界,并将其可视化。

结束。谢谢观看,支持向量机上篇内容更重要。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/847477.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【全开源】Java同城服务同城信息同城任务发布平台小程序APP公众号源码

📢 连接你我,让任务触手可及 🌟 引言 在快节奏的现代生活中,我们时常需要寻找一些便捷的方式来处理生活中的琐事。同城任务发布平台系统应运而生,它为我们提供了一个高效、便捷的平台,让我们能够轻松发布…

ATA-2081高压放大器选型时注意事项是什么

高压放大器是一类特殊设计的放大器,用于放大高电压信号。在选择高压放大器时,需要考虑多个因素,以确保所选设备符合应用需求并能够提供稳定、可靠的性能。下面安泰电子官网将详细介绍在高压放大器选型过程中需要注意的关键事项。 一、电压范围…

【机器学习数据挖掘】基于自回归积分滑动平均模型的疫情分析报告 附完整python代码

资源地址:Python数据分析大作业 2000字 图文分析文档 疫情分析完整python代码 数据分析 数据来自法国疫情数据 数据预处理 建立模型 模型预测 资源地址:Python数据分析大作业 2000字 图文分析文档 疫情分析完整python代码 代码详解 完整代码文件 主…

luckysheet的使用

前言 公司新需求要一个在线的excel编辑器 一、luckysheet是什么? LuckySheet是一款基于Web的在线表格组件,一款纯前端类似excel的在线表格,功能强大、配置简单、完全开源结合Vue3可以实现数据的动态展示和编辑,为用户提供良好的…

2024年澳大利亚科学院新增院士名单和两位华人学者简介

近日,澳大利亚科学院公布了2024年新当选的24位院士名单,他们也是访问学者、博士后及联合培养博士们关注的目标导师。为此知识人网小编推出该文,以飨读者。 5月 23 日,2024年澳大利亚科学院(the Australian Academy of…

【企业开发】大屏的响应式处理

【企业开发】大屏的响应式处理 如图: 响应式工具封装 // 等比缩放方式屏幕适配 export function screenAdaptive(designWidth 1920, designHeight 1080) {const screenWidth document.documentElement.clientWidth || document.body.clientWidthconst screenHeig…

【数据结构】 排序算法总结,直接选择排序详解!

文章目录 1. 排序几个重点概念的理解2. 排序算法的分析🐧3.直接选择排序 1. 排序几个重点概念的理解 2. 排序算法的分析🐧 3.直接选择排序 🐧 begin 有可能就是 maxi ,所以交换的时候,要及时更新 maxi 🍎…

java同步

Java中的同步是指在多线程编程中,用来控制多个线程对共享资源的访问,以避免数据不一致的问题。Java提供了多种同步机制来确保线程安全。以下是Java同步的详细讲解: 1. synchronized关键字 synchronized关键字是Java中最常见的同步机制&…

计算机专业本科就业还是考研?考研有哪些热门方向?

考研并不是一个逃避就业的避难所,也不是一个简单的提升待遇的手段。考研是提升自我的途径,特别是对于那些对特定技术领域有浓厚兴趣并愿意深入研究的人来说 一个本科生能够认真学三年,那么他们所掌握的技能和知识不应该逊色于那些通过短期培…

Solidworks 提取模型中的零件,并组合成一个新的零件,放入特征库

对方发来一个STP文件,其中有模型的部分零件想为我所用。 Shift键鼠标左键 选取需要的零件 在选好零件上右键,选择“孤立” 左边找到部件,ctrl左键选中,选择“插入到新零件” 点 绿色 勾 就选择保存类型,完成 。 打开这…

Pyinstaller安装与使用

一、Pyinstaller简介 PyInstaller将Python应用程序冻结(打包)独立可执行文件中。它可以构建较小的可执行文件,它是完全多平台的,并且使用OS支持来加载动态库,从而确保完全兼容。 二、Pyinstaller安装 1、下载安装 首先安装“pip install pywin32” 其次“pip install …

设备维修管理系统

设备维修管理系统是一个集故障处理、巡检处理、设备管理、维修管理、系统管理以及手机客户端功能等六大功能于一体的信息化管理系统。该系统旨在实现设备管理的科学化、规范化和网络化,通过整合设备维修的各个环节和流程,提高设备维修的效率和质量&#…

网络安全||信息加解密技术以及密钥管理技术

一、信息加解密技术 对称加密 对称加密(又称为私人密钥加密/共享密钥加密):加密与解密使用同一密钥。特点:加密强度不高,但效率高;密钥分发困难。(大量明文为了保证加密效率一般使用对称加密&…

GAT1399协议分析(二)--注册流程分析

一、官方流程说明 二、官方流程解析 1 : 发起方向接收方发送注册 HTTP POST 请求/VIID/System/Register。 2: 接收方向发送方发送响应401 Unauthorized, 并在响应的消息头 WWW-Authenticate 字段中给 出适合发送方的认证机制和参数。 3: 发起方重新向接收方发送注册 HTTP POST…

单实例11.2.0.4迁移到11.2.0.4RAC_使用rman异机恢复

保命法则:先备份再操作,磁盘空间紧张无法备份就让满足,给自己留退路。 场景说明: 1.本文档的环境为同平台、不同版本(操作系统版本可以不同,数据库版本相同),源机器和目标机器部分…

解锁阿里巴巴API接口的无限可能:打造你的电商、物流、支付新纪元

Alibaba API接口是Alibaba平台对外开放的一系列编程接口,开发者可以通过这些接口访问Alibaba平台的数据和功能,如商品搜索、订单管理、支付接口等。这些接口基于HTTP/HTTPS协议,支持多种编程语言和数据格式(如JSON、XML等&#xf…

【设计模式】JAVA Design Patterns——Observer(观察者模式)

🔍目的 定义一种一对多的对象依赖关系这样当一个对象改变状态时,所有依赖它的对象都将自动通知或更新。 🔍解释 真实世界例子 在遥远的土地上生活着霍比特人和兽人的种族。他们都是户外生活的人所以他们密切关注天气的变化。可以说他们不断地…

Linux之线程及线程安全详解

前言:在操作系统中,进程是资源分配的基本单位,那么线程是什么呢?线程是调度的基本单位,我们该怎么理解呢? 目录 一,线程概念理解 二,Linux里面的线程原理 三,为什么要…

碳微球是新型碳材料 在高科技领域应用价值极高

碳微球是新型碳材料 在高科技领域应用价值极高 碳微球是一种新型碳材料,由石墨片层在玻璃相的石墨结构间断分布而构成。   与碳纳米管、石墨烯等碳材料不同,碳微球具有独特的球形结构,这赋予了其高比表面、高堆积密度等特点及良好的导电性、…

【高阶数据结构(八)】跳表详解

💓博主CSDN主页:杭电码农-NEO💓   ⏩专栏分类:高阶数据结构专栏⏪   🚚代码仓库:NEO的学习日记🚚   🌹关注我🫵带你学习更多数据结构   🔝🔝 高阶数据结构 1. 前言2. 跳表的概…