支持向量机(SVM)算法

支持向量机(SVM)算法

支持向量机(support vector machine)是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。

具体原理:

1. 在n维空间中找到一个分类超平面,将空间上的点分类。如下图是线性分类的例子。

2. 一般而言,一个点距离超平面的远近可以表示为分类预测的确信或准确程度。SVM就是要最大化这个间隔值。而在虚线上的点便叫做支持向量Supprot Verctor。

3. 实际中,我们会经常遇到线性不可分的样例,此时,我们的常用做法是把样例特征映射到高维空间中去(如下图);

3. 线性不可分映射到高维空间,可能会导致维度大小高到可怕的(19维乃至无穷维的例子),导致计算复杂。核函数的价值在于它虽然也是讲特征进行从低维到高维的转换,但核函数绝就绝在它事先在低维上进行计算,而将实质上的分类效果表现在了高维上,也就如上文所说的避免了直接在高维空间中的复杂计算。

4.使用松弛变量处理数据噪音

SVM的优点:

1. SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和人工神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。

2. 假设现在你是一个农场主,圈养了一批羊群,但为预防狼群袭击羊群,你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢?你很可能需要依据牛群和狼群的位置建立一个“分类器”,比较下图这几种不同的分类器,我们可以看到SVM完成了一个很完美的解决方案。

    这个例子从侧面简单说明了SVM使用非线性分类器的优势,而逻辑模式以及决策树模式都是使用了直线方法。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/508980.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python文件操作以及相对路径和绝对路径问题

绝对路径: PROJECT_ROOT os.path.dirname(os.path.realpath(__file__))#获取项目根目录path os.path.join(PROJECT_ROOT,"data\\edge\\0_fuse.txt") #文件路径edgeMap np.loadtxt(path)相对路径: path "./data/edge/98_fuse.txt&quo…

支持向量机(SVM)的实现

#!/usr/bin/env python #-*-coding:utf-8-*- #支持向量积的使用,建立超平面 from sklearn import svmx[[2,0],[1,1],[2,3]]y[0,0,1] clfsvm.SVC(kernellinear) #kernellinear线性核函数clf.fit(x,y)print(clf)print(clf.support_vectors_) #支持向量 print(clf.supp…

【kaggle入门题一】Titanic: Machine Learning from Disaster

原题: Start here if... Youre new to data science and machine learning, or looking for a simple intro to the Kaggle prediction competitions. Competition Description The sinking of the RMS Titanic is one of the most infamous shipwrecks in hist…

神经网络NN算法

1. 背景: 1.1 以人脑中的神经网络为启发,历史上出现过很多不同版本1.2 最著名的算法是1980年的 backpropagation 2. 多层向前神经网络(Multilayer Feed-Forward Neural Network)2.1 Backpropagation被使用在多层向前神经网络上2.2 多层向前神经网络由以下部分组成&a…

python利用jieba(textRank、TFIDF)提取关键字

from jieba import analyse print("tfidf: ") tfidf analyse.extract_tags text "线程是程序执行时的最小单位,它是进程的一个执行流,\是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\线程间共享进程…

神经网络算法实现

1. 关于非线性转化方程(non-linear transformation function) sigmoid函数(S 曲线)用来作为activation function:1.1 双曲函数(tanh)tanh是双曲函数中的一个,tanh()为双曲正切。在数学中,双曲正切“tanh”是由基本双曲函数双曲正弦和双曲余弦推导而来公式…

神经网络算法的实例

1.简单非线性关系数据集测试(XOR)X: Y0 0 00 1 11 0 11 1 0Code:#!/usr/bin/env python #-*-coding:utf-8-*- #神经网络测试的例子 #简单非线性关系数据集测试(XOR)异或的运算 f…

线性回归模型

1. 简单线性回归模型举例: 汽车卖家做电视广告数量与卖出的汽车数量: 1.1 如何练出适合简单线性回归模型的最佳回归线/ 使sum of squares最小1.1.2 计算分子 (1-2)(14-20)(3-2)(24-20)(2-2)(18-20)(1-2)(17-20)(3-2)(27-20) 6 4 0 3 7 20分母 &…

多元线性回归模型

1. 与简单线性回归区别(simple linear regression)多个自变量(x)2. 多元回归模型yβ0+β1x1β2x2 ... βpxpε其中:β0,β1,β2... βp是参数ε是误差值3. 多元回归方程E(y)β0+β1x…

常见分数值归一化方法

数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数…

非线性回归

1. 概率&#xff1a; 1.1 定义 概率(P)robability: 对一件事情发生的可能性的衡量1.2 范围 0 < P < 11.3 计算方法&#xff1a; 1.3.1 根据个人置信1.3.2 根据历史数据1.3.3 根据模拟数据1.4 条件概率&#xff1a;2. Logistic Regression (逻辑回归)2.1 例子2.2 基本…

python dir()函数使用

您可以使用内置的dir()函数列出一个定义对象的标识符。例如&#xff0c;对于一个模块&#xff0c;包括在模块中定义的函数&#xff0c;类和变量。 当你给dir()提供一个模块名字时&#xff0c;它返回在那个模块中定义的名字的列表。当没有为其提供参数时, 它返回当前模块中定义的…

【链接保存】十分钟上手sklearn:特征提取,常用模型,交叉验证

原博客地址&#xff1a;http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/ 简书地址&#xff1a;https://www.jianshu.com/p/731610dca805

【链接保存】十分钟上手sklearn:安装,获取数据,数据预处理

简书地址&#xff1a;https://www.jianshu.com/p/a9168803edc6 博主地址&#xff1a;http://blackblog.tech/2018/02/05/%E5%8D%81%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8Bsklearn-1/

层次聚类

假设有N个待聚类的样本&#xff0c;对于层次聚类来说&#xff0c;步骤&#xff1a;1、&#xff08;初始化&#xff09;把每个样本归为一类&#xff0c;计算每两个类之间的距离&#xff0c;也就是样本与样本之间的相似度&#xff1b;2、寻找各个类之间最近的两个类&#xff0c;把…

常用软件包和环境配置(机器学习)

1. 常用软件包&#xff1a;TheanoPylearn2scikit-neuralnetworkCaffeDeeplearning4jTorchhttp://deeplearning.net/software_links/2. 环境配置Linux: UbuntuEclipsePyDevPythonCUDAGPU: https://developer.nvidia.com/cuda-gpus3. 神经网络算法 (neural networks)http://www.m…

(优秀文章保存)Quartz优秀文章保存

Quartz的基本使用之入门&#xff08;2.3.0版本&#xff09; 一、Quartz可以用来做什么 Quartz是一个强大任务调度框架&#xff0c;我工作时候会在这些情况下使用到quartz框架&#xff0c;当然还有很多的应用场景&#xff0c;在这里只列举2个实际用到的 餐厅系统会在每周四晚…

【使用注意】Jsoup的select方法

之前做了一个频道抓取&#xff1a;获取div Elements div_e;div_e doc.select("div");Iterator<Element> div_it div_e.iterator();while (div_it.hasNext()) {处理逻辑} 我是想通过select div块然后去遍历获取div里的内容&#xff0c;但是发现有的新闻网址频…

cross-entropy函数

我们理想情况是让神经网络学习更快假设简单模型: 只有一个输入,一个神经元,一个输出简单模型: 输入为1时, 输出为0初始 w 0.6, b 0.9 初始预测的输出 a 0.82, 需要学习学习率: 0.15演示: 初始: w 2.0, b 2.0, 初始预测输出: 0.98, 和理想输出0差点很远演示:神经网络的学…

DButils工具使用笔记以及常见问题总结

入门&#xff1a; https://www.cnblogs.com/smyhvae/p/4085684.html 一、字段名称和实体类命名不用 解决办法&#xff1a;给查询结果的显示字段取别名&#xff0c;如TEMPLATE_ID AS templateId select news_id as id, title from test where id1 二、DBUtils使用BeanListH…