数学之路(3)-机器学习(3)-机器学习算法-SVM[7]

 

SVM是新近出现的强大的数据挖掘工具,它在文本分类、手写文字识别、图像分类、生物序列分析等实际应用中表现出非常好的性能。SVM属于监督学习算法,样本以属性向量的形式提供,所以输入空间是Rn的子集。

图1

如图1所示,SVM的目标是找到两个间距尽可能大的边界平面来把样本本点分开,以”最小化泛化误差“,即对新的样本点进行分类预测时,出错的几率最小。落在边界平面上的点称为支持向量。Vapnik证明如果可以找到一个较小的支持向量集,就可以保证得到很好的泛化能力----也就是说支持向量的个数越少越好。

数据点通常在输入空间是线性不可分的,我们把它映射到更高维的特征空间,使其线性可分----这里的映射函数我们称之为核函数。特征空间的超平面对应输入空间的一个非线性的分离曲面,因此称为非线性分离器。

线性SVM分类器的输出是u=w*x-b。w是分类平面的法矢,x是输入向量,b是常量,u代表分类。即SVM的目的就是计算出w和b。最大化margin(两个分类平面之间的距离)等价于求下面的二次优化问题:

 

对于非线性分类器就要把x映射到特征空间,同时考虑误差ε的存在(即有些样本点会越过分类边界),上述优化问题变为:

 

从输入空间是映射到特征空间的函数称为核函数,LibSVM中使用的默认核函数是RBF(径向基函数radial basis function),即

 

这样一来就有两个参数需要用户指定:cgamma

 

我们先安装python的机器学习库

http://sourceforge.net/projects/mlpy/

该学习库有以下3个核函数

1、‘linear’ (uT*v)

2、‘poly’ ((gamma*uT*v +coef0)^degree)

3、‘rbf’ (exp(-gamma*|u-v|^2)), ‘sigmoid’ (tanh(gamma*uT*v + coef0))
其中degree为 [int (for ‘poly’ kernel_type)] degree in kernel

下载并安装后,调用 其中的SVM模块对下面的数据进行训练,这次训练我们使用线性核做为SVM的核函数

 

x = [[1,8],[3,20],[1,15],[3,35],[5,35],[4,40],[7,80],[6,49]]
y=[1,1,0,0,1,0,0,1]
showpoint=['ro','bo']
tshowpoint=['r*','b*']
x=np.array(x)
y=np.array(y)
svm = mlpy.LibSvm()
svm.learn(x, y)



本博客所有内容是原创,如果转载请注明来源

http://blog.csdn.net/myhaspl/


然后生成随机的未知样本测试数据验证生成的SVM模型 ,星号表示未知样本

 

 

#未知样本分类
tlp_x1=np.random.rand(50)*(xmax-xmin)+xmin
tlp_x2=np.random.rand(50)*(ymax-ymin)+xmin
tlp_x=np.array(zip(tlp_x1,tlp_x2))
for ii in xrange(0,len(tlp_x)):ty=svm.pred(tlp_x[ii])if ty>0:plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)])else:plt.plot(tlp_x1[ii],tlp_x2[ii], tshowpoint[int(ty)]) 

>>> runfile(r'K:\book_prog\mplsvm1.py', wdir=r'K:\book_prog')
http://blog.csdn.net/myhaspl
myhaspl@qq.com


loading  ...
>>> 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/252638.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CPU、GPU、FPGA、ASIC等AI芯片特性及对比

1、前言 目前,智能驾驶领域在处理深度学习AI算法方面,主要采用GPU、FPGA 等适合并行计算的通用芯片来实现加速。同时有部分芯片企业开始设计专门用于AI算法的ASIC专用芯片,比如谷歌TPU、地平线BPU等。在智能驾驶产业应用没有大规模兴起和批量…

人工智能Ai芯片层出不穷,GPU、FPGA、ASIC用于人工智能的优势和劣势对比

人工智能(AI)主要包括三大要素,分别是数据、算法和算力。其中数据是基础,正是因为在实际应用当中的数据量越来越大,使得传统计算方式和硬件难以满足要求,才催生了AI应用的落地。而算法是连接软件、数据、应…

全景视频拼接关键技术

一、原理介绍 图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术,它将多幅图像拼接成一幅大尺度图像或360度全景图,图像拼接技术涉及到计算机视觉、计算机图形学、数字图像处理以及一些数学工具等技术。图像拼接其基本步骤主要包括以下几…

相关类以及常用方法

1、system:(系统相关类) 常用方法: a) : system.arraycopy(制定数组,开始复制的位置,目标数组,开始粘贴的位置,需要复制的长度) 。 将指定源数组中的数组从指定位置复制到目标数组的指定位…

2021-11-15

本文将重点围绕国产CPU的发展历程与当前产业链各领军企业的布局情况作详尽解读(并包含特大号独家整理的最新进展),具体如下: 1、国产CPU发展历程回溯 2、飞腾:PK生态的主导者 3、鲲鹏:快速崛起的领导者 …

关于在ubuntu下配置AMD显卡驱动的总结

同样先卸载先前版本 代码:sudo sh /usr/share/ati/fglrx-uninstall.sh代码:sudo apt-get remove --purge fglrx fglrx_* fglrx-amdcccle* fglrx-dev*重启 代码:sudo reboot下载驱动,右边直接有ubuntu32位和64位驱动链接:http://support.amd.com/en-us/do…

计算机结构简图

北桥,南桥是主板上芯片组中最重要的两块了.它们都是总线控制器.他们是总线控制芯片.相对的来讲,北桥要比南桥更加重要.北桥连接系统总线,担负着cpu访问内存的重任.同时连接这AGP插口,控制PCI总线,割断了系统总线和局部总线,在这一段上速度是最快的.南桥不和CPU连接通常用来作I/…

Servlet 与 Ajax 交互一直报status=parsererror

Servlet 与 Ajax 交互一直报statusparsererror 原因:servlet 返回的数据不是 Json 格式 1、JS代码为: 1 var jsonStr {clusterNum:2,iterationNum:3,runTimes:4};2 $.ajax({3 type: "post",4 //http://172.2…

25LINQ拾遗及实例

投影 □ 遍历数组索引,Select获取 int[] indexes {0, 2}; string[] strs {"a", "b", "c", "d"}; var result from i in indexes select strs[i]; foreach (string str in result) { Console.Write(str " &quo…

国产CPU的6大品牌,3大路线对比

这些年来,中国最想发展的科技产品是什么?那必须是芯片,特别是2018年中兴事件、2019年华为事件之后,国内的芯片产业就彻底地火爆了起来。 按照数据显示,截止至2020年10月份,国内已经有27万家芯片企业&#…

龙芯与飞腾roadmap

飞腾roadmap 龙芯roadmap 龙芯系列处理器芯片是龙芯中科技术有限公司研发的具有自主知识产权的处理器芯片,产品以32位和64位单核及多核CPU/SOC为主,主要面向国家安全、高端嵌入式、个人电脑、服务器和高性能机等应用。产品线包括龙芯1号小CPU、龙芯2号中…

BZOJ 2440 完全平方数(莫比乌斯-容斥原理)

题目链接:http://61.187.179.132/JudgeOnline/problem.php?id2440 题意:给定K。求不是完全平方数(这里1不算完全平方数)的倍数的数字组成的数字集合S中第K小的数字是多少? 思路:首先,答案不超过…

在Eclipse中添加JDK源码包

一直有这想要在Eclipse直接阅读JDK的需求,之前用的都是反编译的,由于我用的反编译的插件去掉了源码内容的注释,所以想直接导入JDK源码包: 详细步骤: 打开Eclipse, 菜单栏 选择 Window 下拉种选取 Preferences 窗口. 以…

南桥芯片与北桥芯片

什么是芯片组 芯片组(英语:Chipset)是一组共同工作的集成电路“芯片”,并作为一个产品销售。它负责将计算机的微处理器和计算机的其他部分相连接,是决定主板级别的重要部件。以往,芯片组由多颗芯片组成&am…

spark 应用场景2-身高统计

原文引自:http://blog.csdn.net/fengzhimohan/article/details/78564610 a. 案例描述 本案例假设我们需要对某个省的人口 (10万) 性别还有身高进行统计,需要计算出男女人数,男性中的最高和最低身高,以及女性中的最高和最低身高。本…

React学习小结(二)

一、组件的嵌套 1 <!DOCTYPE html>2 <html>3 <head>4 <meta charset"UTF-8">5 <title></title>6 <script src"react.min.js" type"text/javascript" charset"utf-8"></script>7 <…

PCIE2.0/PCIE3.0/PCIE4.0/PCIE5.0接口的带宽、速率计算

一、PCIE接口速率&#xff1a; 二、PCIE相关概念&#xff1a; 传输速率为每秒传输量GT/s&#xff0c;而不是每秒位数Gbps&#xff0c;因为传输量包括不提供额外吞吐量的开销位&#xff1b; 比如 PCIe 1.x和PCIe 2.x使用8b / 10b编码方案&#xff0c;导致占用了20% &#xff08…

hql语法

HQL查询&#xff1a;Criteria查询对查询条件进行了面向对象封装&#xff0c;符合编程人员的思维方式&#xff0c;不过HQL(Hibernate Query Lanaguage)查询提供了更加丰富的和灵活的查询特性&#xff0c;因此Hibernate将HQL查询方式立为官方推荐的标准查询方式&#xff0c;HQL查…

InfiniBand简介

一&#xff0e;什么是infiniband InfiniBand架构是一种支持多并发链接的“转换线缆”技术&#xff0c;它是新一代服务器硬件平台的I/O标准。由于它具有高带宽、低延时、 高可扩展性的特点&#xff0c;它非常适用于服务器与服务器&#xff08;比如复制&#xff0c;分布式工作等…