svm多分类代码_监督学习——分类算法I

本文是监督学习分类算法的第一部分,简单介绍对样本进行分类的算法,包括
  • 判别分析(DA)
  • 支持向量机(SVM)
  • 随机梯度下降分类(SGD)
  • K近邻分类(KNN)
  • 朴素贝叶斯分类(NaiveBayes)

判别分析(Discriminant Analysis)

判别分析是基于条件概率的分类方法,可以分为线性判别分析(LDA)和二次型判别分析(QDA)。
8872b03d2e5991ea6b5e9045211b3e11.png
不同数据下的线性和二次型判别分析

算法介绍

判别分析的基础是贝叶斯公式,它根据已有数据中的先验概率(可以通过样本得到)推断后验概率: 对于训练集,

我们选择令值较大的那个k作为预测结果。

算法求解

假设条件随机变量服从多元正态分布,那么先验概率应为

其中,为标记为k的样本数据均值,为标记为k的样本协方差矩阵。

代入贝叶斯公式得到对数后验概率:

其中,是分子的对数常数,是已知样本中各分类的比例。

QDA算法就是得到能够使对数后验概率最大的k值。
如果在QDA模型中假设特征之间相互独立,即只包含对角线元素,那么QDA分类器等效于高斯朴素贝叶斯分类器naive_bayes.GaussianNB。
LDA算法是QDA算法的特例,即假设所有类别的y都具有相同的协方差矩阵,那么对数后验概率可以写作其中为样本与均值之间的马氏距离。因此,LDA也可以认为是在先验概率条件下采用马氏距离进行分类的方法。上式也被称为判别函数

算法实例

假设,,即只分两类且概率相等时,判别函数得到

对比两式

  • 当上式大于0时说明的概率大于,则应该属于第1类,否则属于第二类。
  • 当上式等于0时可以得到决策边界
  • 同样可以推导3个以上类别的决策边界。
  • QDA算法由于考虑了不同的协方差矩阵,可以得到二次型的决策边界。

代码

判别函数可以改写为线性形式

其中的拟合数据保存在属性中,保存在属性中。

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
clf2 = LinearDiscriminantAnalysis(solver='lsqr', shrinkage=None).fit(X, y)
从代码中可以看出也要确定判别分析的算法器solver,也可以通过shrinkage进行正则化。

支持向量机(Support Vector Machines)

支持向量机SVM在高维或无限维空间中构建一个超平面或一组超平面,该超平面与任何类别的最近训练数据点之间的距离最大(所谓的功能边界),所以可以实现良好的分离,可用于分类、回归或其他任务。因为通常边界越大,分类器的泛化误差越低。下图显示了线性可分离问题的决策函数,在边界上有三个样本,称为“支持向量”:
fd553ce4d42f71c1a501e9c866fe2841.png
支持向量机原理图

支持向量机也是既可以用来进行分类也可以进行回归的模型,其分类器在Scikit-learn中包括SVC,NuSVC和LinearSVC等类。

算法

给定训练集分为两个类,研究目标是找到满足优化问题的解.SVC的目标是

式子第二项也可以看做是正则化项,是控制参数。上面优化问题的对偶问题是

其中是全1向量,是半正定阶矩阵,且,其中是核(Kernel)

通过调整核函数可以对不同的数据进行分类:
732d14426c6fca7259b542af8864819f.png
核SVM算法估计鸢尾花数据

NuSVC、LinearSVC和其他相关的支持向量机算法都采用了近似的目标函数。

代码

参数存储在属性中,支持向量机数据保存在属性中,参数保存在属性中。
from sklearn.svm import SVC
linear_svc = svm.SVC(kernel='linear')
linear_svc = svm.SVC(kernel='rbf')

RBF是Radial Basis Function的缩写,可以进行非线性划分,效果如下:

ba0a2dae44f4cf172f72bfc11329c335.png

随机梯度下降分类(SGD)

随机梯度下降分类器近似等效于线性SVM
from sklearn.linear_model import SGDClassifier
clf = SGDClassifier(loss="hinge", penalty="l2", max_iter=5).fit(X, y)
可以通过参数设置具体的损失函数。SGDClassifier支持以下损失功能:
  • :(软边距)线性支持向量机;
  • :平滑的铰链损失;
  • :逻辑回归, 等。
可以通过penalty参数设置具体的正则项类型。SGD支持以下处罚:
  • :参数的标准正则项;
  • :参数的标准正则项;
  • :和的凸组合。
默认设置为。L1惩罚导致解决方案稀疏,将大多数系数驱动为零。当存在高度相关的属性时,ElasticNet解决了损失的一些不足。该参数控制和惩罚的凸组合。

K近邻分类(KNN)

KNN算法已经介绍过了,这里给出用KNN分类器的代码
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1).fit(X_train,y_train)
效果如下:62dd2268859db5134abd035e60b66c90.png

朴素贝叶斯分类(NaiveBayes)

本文开头指出,QDA在特征相互独立的情况下等价于高斯NaiveBayes,这里的“Naive(朴素)”指的就是这种特征数据相互独立的假设。

算法

给定样本属于的类别数据,由贝叶斯公式可以得到关系:

在“Naive”条件下,上式可以简化为

由于是根据样本计算的常数,所以

所以

在假设了之后就可以进行估计。

类别和特点

  1. scikit-learn 中实现了三种朴素贝叶斯分类器:GaussianNB、BernoulliNB 和MultinomialNB。
  2. GaussianNB 可应用于任意连续数据;
  3. BernoulliNB 假定输入数据为二分类数据;
  4. MultinomialNB 假定输入数据为计数数据(即每个特征代表某个对象的整数计数,比如一个单词在句子里出现的次数)。
  5. BernoulliNB 和MultinomialNB 主要用于文本数据分类。

代码

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)
gnb = GaussianNB()
y_pred = gnb.fit(X_train, y_train).predict(X_test)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle awr报告提取,Oracle AWR报告提取方法

默认情况下,oracle是启用数据库统计收集这项功能(AWR)通过show parameter statistics_level来判断是否启用值为TYPICAL或者ALL表示启用AWR值为BASIC,表示禁用AWR1.当前连接实例的AWR报告提取:?/rdbms/admin/awrrpt以sysdba身份登录。SQL>…

关键词组合工具_SEO学习:如何挖掘行业关键词?关键词挖掘策略和工具推荐

关键词是驱动流量增长的基础!挖掘关键词是SEO工作的重中之重。如何快速挖掘到行业相关的所有关键词?我们一起了解下。本文大纲如下:拓展和筛选网站主词挖掘搜索引擎推荐关键词业务相关词的挖掘同行关键词的挖掘关键词组合拓展1、拓展和筛选网…

oracle em中查看jiob,HTML5 中的 b/strong、i/em 详解

这篇文章主要聊一聊 HTML5 中的 和 ,以及 和 。从页面显示效果来看,被 和 包围的文字将会被加粗,而被 和 包围的文字将以斜体的形式呈现。那大家可能就会疑惑了,既然效果一样,那为什么还要重复定义标签呢&#x…

活体检测python_活体检测很复杂?仅使用opencv就能实现!(附源码)!

摘要: 活体检测在各行各业应用比较广泛,如何实现一个活体检测系统呢?早期实现很困难,现在仅使用opencv即可实现,快来尝试一下吧。什么是活体检测,为什么需要它?随着时代的发展,人脸识…

bootstrap清除拟态框内添加新HTML再打开时会有缓存现象

$(function(){$("#editor").on("hidden.bs.modal",function(){//清除缓存方法$(this).find("#textareaTo").empty();}); }); 转载于:https://www.cnblogs.com/zhixi/p/4789259.html

php 结尾,PHP“意外结束”

我实际上检查了我的代码一百次,但我找不到错误:我得到的错误:解析错误:语法错误,意外$end在/home/tennox/public_html/php/kalender.php第46行我试图做一个计算复活节星期日的函数,在另一个脚本中没有其他所有它只是起作用,但在这个没有.另一…

基于python的个人博客系统的设计开题报告_个人博客设计实现开题报告

现在的毕业设计的开题报告是很难写吗,以个人博客设计为课题的开题报告怎么写?看下文是yjbys小编搜集整理的关于开题报告的相关资料,希望对大家有所帮助!1本课题所涉及的问题在国内(外)的研究现状综述:信息化的世界,对于…

(转)腾讯2011.10.15校园招聘会笔试题

1、下面的排序算法中,初始数据集的排列顺序对算法的性能无影响的是() A、插入排序 B、堆排序 C、冒泡排序 D、快速排序 答:B。堆排序,这题不是求稳定性&…

oracle安装命令大全,oracle安装教程及常用命令

虽然网上已经有很多安装教程了,但还是写一个记录一下自己的安装过程以及遇到问题的解决办法1 安装包下载:去oracle的官网 选择DownLoads->database->oracle database:选择接受选择Windows 64的下载,选择file1,和file2,注意两个文件都要下载,下载时要求登录,有oracle账户的…

规格选择_日常使用的拉杆箱脚轮选择哪种规格最合适?

大家可能在采购拉杆箱脚轮的时候,都会有一个问题,拉杆箱脚轮规格选择哪种比较好呢?万向轮好还是单向轮?是万向轮还是单向轮比较耐磨?脚轮厂家诺贝小编接收到大家的疑问,接下来将告诉大家拉杆箱脚轮选择的规…

ERROR: JDWP Transport dt_socket failed to initialize, TRANSPORT_INIT(510)

1   ERROR: transport error 202: bind failed 2 ERROR: JDWP Transport dt_socket failed to initialize, TRANSPORT_INIT(510) 3 JDWP exit error AGENT_ERROR_TRANSPORT_INIT(197): No transports initialized [../../../src/share/back/debugInit.c:690] 4 …

php session存到redis,php Session存储到Redis的方法

php Session存储到Redis的方法当然要写先安装php的扩展,可参考这篇文章:Redis及PHP扩展安装修改php.ini的设置复制代码 代码如下:session.save_handler redissession.save_path “tcp://127.0.0.1:6379″修改后重启php-fpm或nginx,phpinfo(…

ajax ssm 页面跳转_SSM框架的面试常见问题

阅读文本大概需要9分钟。一、Spring面试题1、Spring 在ssm中起什么作用?Spring:轻量级框架作用:Bean工厂,用来管理Bean的生命周期和框架集成。两大核心:IOC/DI(控制反转/依赖注入) :把dao依赖注入到service…

poj Going from u to v or from v to u? 强联通缩点+拓扑排序(或搜索)

方法一 #include <stdio.h> #include <string.h> #include <iostream> #include <algorithm> #include <vector> #include <queue> #include <stack> #include <set> #include <map> #include <string> #include …

php搭建的网站空白,使用phpstudy搭建dedecms网站后台页面空白解决方法

这篇文章主要为大家详细介绍了使用phpstudy搭建dedecms网站后台页面空白解决方法&#xff0c;具有一定的参考价值&#xff0c;感兴趣的小伙伴们可以参考一下,有需要的朋友可以收藏方便以后借鉴。在把 phpStudy升级到2013版后&#xff0c;在登录本地织梦dedecms5.7时&#xff0c…

运维工程师绩效考核表_IT运维存在问题及改进

欢迎大家一起学习交流https://t.zsxq.com/imimAYF​t.zsxq.com1.1 IT运维机制不完善&#xff0c;流程操作层面缺乏统一 没有建立起稳定、规范的IT运维机制。现有的IT运维流程的操作层面缺乏统一。如事件单提交之后&#xff0c;事件预判和优先级的设定缺少统一、规范的指导文档&…

在linux中 要删除abc目录,操作系统原理与应用(linux)A卷

福州外语外贸职业技术学院2010-2011学年第一学期(期末)试卷09 级网络系统管理专业操作系统原理与应用(linux)科目(A )卷课程代码考试形式闭卷考试时量 120 分钟姓名__ _______ _级班学号____ __1.操作系统是一种( )A.系统软件B.系统硬件C.应用软件D.支援软件2.MS—DOS的存贮管理…

数据产品经理修炼手册pdf_【尼读书】数据产品经理修炼手册(附思维导图)

前言&#xff1a;进入一个行业&#xff0c;除了要多在工作中实践和思考之外&#xff0c;还需要多读书。这样能够站在一个更高的角度去看问题&#xff0c;往往会对问题有更全面的掌握和新的认知。在【尼读书】这个栏目中&#xff0c;尼同学通过自己读书后的理解和整理与大家分享…

用JQUERY为INPUT的TXT类型赋值及取值操作

注意和纯JS操作的区别&#xff0c;一个是对象&#xff0c;一个是字串&#xff0c;如下说明&#xff1a; 在Jquery中,用$("#id")来获得页面的input元素,其相当于document.getElementById("element")但是,该获取的是一个Jquery对象,而不是一个dom element对象…

linux内核打印前有buildroot,buildroot-linux内核

Buildroot可以从Linux Kernel的官网(kernel.org)下载并编译内核&#xff0c;也可以使用用户自己的定制化内核。使用官方内核使用官方的内核构建系统非常简单&#xff0c;事实上&#xff0c;mini2440_defconfig就是采用官方的内核进行构建的。make menuconfig --> Kernel --&…