支持向量机(SVM)白话之个人理解(学习记录)

本文仅有文字理解部分,没有相应的数学公式推导过程,便于新手理解。

一、什么是支持向量机

首先我们看下面这张图,在图中圆形和三角形分别代表不同的数据类型,如何画出一条直线使两者能够显著地区分开来呢?

答案可以多种多样,我们可以画出无数条直线将这两种数据分开。那么如何判断哪一条直线画的最好呢?这就牵扯到我们划该直线的目的。当另外又来了一个数据时,我们可以根据划分的直线来判断这个数据属于哪一种类型?对的,这个数据的类型我们可以估计为和它所在的那一侧的数据类型一样的数据类型。所以,我们可以看到上侧所画的红线就相对不是很好,因为当来了一个新数据接近与该直线时,我们有很大的几率将这个数据判断错误。

于是,我们进一步拓展:此时数据是在一个平面内,那如果是在三维、四维以及高维空间内呢?在二维空间内,我们可以找到一个平面来区分这些三维数据,这个平面就称为超平面。于是乎,我们提出:针对多个n维的数据类型,我们可以相应地找到一个n-1维的超平面来区分这两类n维数据类型。

我们重新回到二维平面上来,我们将所画的直线称之为决策边界(也叫超平面)。那么怎样的决策边界才是好的决策边界呢?根据上边的分析,我们初步认识到,当决策边界与两侧的数据都保持一定的距离时,这个距离在分析决策时起到了一个缓冲的作用,从而使出错的概率大大降低。那么这个缓冲区我们称之为间隔。而寻找最佳决策边界线其实就是找到间隔最大的那条直线。

由上图知,蓝线是最佳决策边界(决策超平面),其到两侧黑线的距离相等,而两侧黑线与两类数据相距最近的点相切。我们把黑线称为正超平面和负超平面(上侧是正超平面,下侧是负超平面)。而两侧黑线相切的点决定了间隔的大小,我们称相切的点为支持向量点,这也是支持向量机的由来。

二、进一步研究

探究一

如果两类数据类型中有一类数据有离群点(比如下图中的红点),我们按照之前的思路就会得到下图。

在上图中,虚线表示加入离群点后的超平面及其两侧正负超平面。而实线则是没加入红点之前的超平面和两侧正负超平面。那么我们是否要按照原来的思路选择虚线作为最终结果呢?我们可以看到,如果选择虚线,那么间隔距离就会大大减少,出错的概率就会增大。为此在上图中我们不妨舍弃这个异常离群点,仍旧选择实线作为输出结果。在上图中,我们把原来的间隔称为软间隔,把加入红点后的间隔称为硬间隔,而因为加入而失去的距离称为损失因子

当然,在实际问题中,离群点可能会很多并且很复杂,那么我们就需要用相应的数学方法去考量要不要舍弃某些离群点,在牺牲间隔距离和减少出错率之间达到最佳的平衡。

探究二

如果出现两类数据类型如下图所示,我们该如何分类画线呢?(两类数据分别用红点和蓝点表示)

为解决此类问题人们想出了升维转换这个方法,即下图。

即增加一个维度,使二维点成为三维点,然后找到一个超平面将其分为两类。所以对于在低维下无法轻易地分类的数据,可以采用这种方法来解决他们。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/799582.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

商品详情API接口根据商品ID查询商品标题价格描述等详情数据

商品详情API接口通常用于根据商品ID查询商品的详细信息,如标题、价格、描述等。这些信息对于电子商务网站、移动应用和其他需要展示商品信息的平台非常有用。以下是一个简单的示例,说明如何使用Python调用商品详情API接口。 item_get-获得商品详情 公共…

成都污水处理设备厂家怎么选?

在选择成都的污水处理设备厂家时,可以从以下几个方面来进行评估和选择: 1. **公司资质**:首先需要确认厂家是否拥有合法的营业执照、环保设备生产许可证及相关的环保工程资质。 2. **技术实力**:了解厂家是否具备雄厚的技术研发实…

通过自动化部署消除人为操作:不断提高提交部署比率

三十年后,我仍然热爱成为一名软件工程师。事实上,我最近读了威尔拉森(Will Larson)的《员工工程师:超越管理轨道的领导力》,这进一步点燃了我以编程方式解决复杂问题的热情。知道雇主继续照顾员工、原则和杰…

Goingpub国自然基金-免费查询

可进行年份、学部、项目类别等检索,支持生成主题词汇总分析报告。 最最最关键,免费,只需要你注册登录一下,防止被爬虫侵扰。 界面简单,实用,支持模糊搜索,包含最新2023年数据,共56…

Python异常值分析

异常值分析是检验数据是否有录入错误以及含有不合常理的数据。忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会产生不良影响;重视异常值的出现,分析其产生的原因,常常成为发现问…

从0开始学人工智能测试节选:Spark -- 结构化数据领域中测试人员的万金油技术(一)

回顾一下模型的生命周期 需要注意的是,在这个流程中,测试至少要参与的以下的活动: 离线的模型测试线上线下一致性测试数据质量测试模型的线上质量监控建模过程的功能/性能等测试 可以看出来测试人员需要做的事情其实不少,整个建模…

C++之静态变量和全局变量的区别

全局变量和静态变量的存储方式是一样的,只是作用域不同。 静态局部变量具有局部作用域只对定义自己的函数可见,只被初始化一次,自从初始化一次之后直到程序运行期间一直都在。 静态全局变量具有全局作用域作用于定义它的程序文件但是不能作…

批量更新多个linux服务器的jar包脚本。

一、问题背景: 实际开发过程中,有多套环境,每次修改代码时,需要更新多套环境,很费时费力,之前是打好包之后挨个服务器去传,然后打开xshell,连接这几台服务器,然后点xshell的选项卡→排列→瓷砖排列,再点工具→发送键输入到所有会话,然后再cd到目录中,执行我们启动…

Python景区票务人脸识别系统(V2.0),附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

uniapp使用npm命令引入font-awesome图标库最新版本并解决APP和小程序不显示图标的问题

uniapp使用npm命令引入font-awesome图标库最新版本 图标库网址:https://fontawesome.com/search?qtools&or 命令行: 引入 npm i fortawesome/fontawesome-free 查看版本 npm list fortawesome在main.js文件中: import fortawesome/fo…

读《C Primer Plus》

1、汇编语言是为特殊的中央处理单元设计的一系列内部指令,使用助记符来表示;不同的CPU系列使用不同的汇编语言。 2、C语言充分利用计算机优势,使它具有汇编语言才有的微调控能力,可移植性极好。 3、C语言可以访问硬件、操作内存…

阿里云服务器可以干嘛?阿里云服务器八大用途介绍

阿里云服务器可以干嘛?能干啥你还不知道么!简单来讲可用来搭建网站、个人博客、企业官网、论坛、电子商务、AI、LLM大语言模型、测试环境等,阿里云百科aliyunbaike.com整理阿里云服务器的用途: 阿里云服务器活动 aliyunbaike.com…

SpringBoot表单防止重复提交

哪些因素会引起重复提交? 开发的项目中可能会出现下面这些情况: 前端下单按钮重复点击导致订单创建多次 网速等原因造成页面卡顿,用户重复刷新提交请求 黑客或恶意用户使用postman等http工具重复恶意提交表单 重复提交会带来哪些问题&…

SQL Server语法基础:入门到精通

博客前言 在数据库管理的世界中,SQL Server无疑是一个重要的角色。无论是初学者还是经验丰富的数据库管理员,都需要对SQL Server的查询语法有深入的理解。本文将带领大家深入解析SQL Server的查询语法,并分享一些实用的技巧,帮助…

Kubernetes(K8s)运维实战:案例解析与代码实践

一、引言 随着容器技术的普及,Kubernetes(K8s)作为容器编排领域的领军者,已成为企业运维不可或缺的工具。K8s以其强大的自动化管理、可扩展性和高可用性等特点,为运维人员提供了便捷、高效的管理手段。本文将结合具体案…

Redis 之集群模式

一 集群原理 集群,即Redis Cluster,是Redis 3.0开始引入的分布式存储方案。 集群由多个节点(Node)组成,Redis的数据分布在这些节点中。 集群中的节点分为主节点和从节点:只有主节点负责读写请求和集群信息的维护;从…

突破编程_前端_SVG(概述)

1 什么是 SVG SVG,全称可缩放矢量图形(Scalable Vector Graphics),是一种基于 XML(可扩展标记语言)的矢量图像格式。这种图像格式的主要特点是它描述的是矢量图形,而不是基于像素的位图图像。因…

基于 Vue3 + Webpack5 + Element Plus Table 二次构建表格组件

基于 Vue3 Webpack5 Element Plus Table 二次构建表格组件 文章目录 基于 Vue3 Webpack5 Element Plus Table 二次构建表格组件一、组件特点二、安装三、快速启动四、单元格渲染配置说明五、源码下载地址 基于 Vue3 Webpack5 Element Plus Table 二次构建表格组件&#x…

力扣 ---组合总和

题目: 给定一个无重复元素的正整数数组 candidates 和一个正整数 target ,找出 candidates 中所有可以使数字和为目标数 target 的唯一组合。 candidates 中的数字可以无限制重复被选取。如果至少一个所选数字数量不同,则两种组合是不同的。…

【Java】maven是什么?

先看一下基本概念: ①Maven 翻译为"专家","内行"是跨平台的项目管理工具。 主要服务于基于Java平台的项目构建,依赖管理和项目信息管理。 ②项目构建 项目构建过程包括【清理项目】→【编译项目】→【测试项目】→【生成测试报…