matlab实现机器学习svm

一、目的和要求

1.编程实现SVM训练函数和预测函数;

2.绘制线性和非线性边界;

3.编写线性核函数

二、算法

1.线性svm:

分离超平面:w·x+b=0,对于线性可分的数据集来说,这样的超平面有无穷多个(即感知机),但是几何间隔最大的分离超平面却是唯一的

输入:训练数据集 其中,

输出:分离超平面和分类决策函数

(1)选择惩罚参数C>0,构造并求解凸二次规划问题

(2)计算

(3)求分离超平面

分类决策函数:

2.非线性svm:

输入:训练数据集  其中,

输出:分离超平面和分类决策函数

(1)选取适当的核函数 [公式] 和惩罚参数 [公式] ,构造并求解凸二次规划问题

(2)计算

(3)分类决策函数:

三、过程记录

1.数据集1可视化

导入数据集1的数据,包括特征和类标,在绘图函数中完成如下代码可以实现:

分别将两种类标数据提取出来进行绘制,结果如下:

图1 数据集1样本点分布

2.svm训练

通过svmtrain函数对数据进行训练,初始设定C的值为1,训练完成后绘制通过visualizeBoundaryLinear函数绘制决策边界,结果如下:

图2 C=1时决策边界

从图中可以看出其中有一个正样本数据被分为了负样本,此时继续改变C的值来进行探究

图3 C=10时决策边界

图4 C=50 决策边界

图5 C=100 时决策边界

可以发现此时所有样本均分类正确

3.高斯核

通过公式编写高斯核函数来计算相应的高斯内核,函数内代码如下,x1,x2是两个数据,sigma为参数

接下来设定两个示例来调用该函数进行验证,设定sigma值为2

打印出的结果为0.324652

4.可视化数据集2

图6 数据集2样本点分布

5.对数据集2进行svmtrain训练,设定C=1,加入高斯核函数,设定sigma=0.1,训练完成后绘制的边界如下:

图7 C=1 sigma=0.1决策边界

可以发现此时边界基本能区分两类样本了。改变C和sigma的值进行相应实验:

图8 C=1 sigma=0.2决策边界

图9 C=50 sigma=0.1 决策边界

6.可视化数据集3

图10 数据集3样本点分布

7.寻找最佳C和sigma值,绘制决策边界

在dataset3Params函数中尝试不同的C的sigma值对并求出对应的交叉验证集的错误率,然后找到最小错误率所对应的C和sigma值,代码如下:

C和sigma的值都有八种选择,因此一共可以产生64中错误率结果,然后通过内置函数ind2sub找到最小值下表,最终结果如下:

图11 错误率及最终寻找结果

再将得到的最佳参数值代入训练中,得到的判别边界如下:

图12 决策边界

可以看出此时已经能够正确分类大部分的样本点了。

接下来进行垃圾邮件分类

8.电子邮件预处理和规范化

首先需要读取邮件,通过内置fopen函数打开数据集文件,然后使用fscanf将其中内容读取

处理包括以下几种:将邮件转换为小写、删除HTML标签、URL替换为文本“httpaddr”、电子邮件地址替换为文本“emailaddr”、将所有数字转换为文本“number”、将所有美元符号$替换为文本“dollar”、单词简化为词根形式、删除非单词和标点符号、所有的制表符、换行符、空格都被裁剪为一个空格字符。处理后结果如下:

图13 邮件处理后结果

9.建立电子邮件中的词所对应的单词表中的词汇的映射

通过字符串比较函数strcmp将处理后的邮件中的单词与词汇表中的单词一一比较,如果有相同的则将词汇表当前的索引记录下来:

最终得到的部分索引值如下:

10.从电子邮件中提取特征

在大小为1899的特征向量中,若词汇表中的单词存在于邮件中则将数组中为该单词对应的索引部分的值置为1,否则为0,然后统计非0值的个数。结果如下:

图14 特征提取结果

通过之前的实验可知在第一个邮件数据集中在处理过后一共有53个单词可以与词汇表所对应,但是此处只能提取45个,经过分析得知这是由于53个单词中有重复的单词,而45指的是词汇表中不同单词所能够映射到邮件中的个数。

11.svm垃圾邮件训练

加载已有的训练集文件,文件包括X(垃圾和非垃圾邮件实例),y(所属类别,1代表垃圾邮件,0代表非垃圾邮件)

初始设定C的值为0.1,训练后再进行预测计算出训练集和测试集的准确率

图15 训练集准确率

再继续对测试集数据进行预测,结果如下

图16 测试集准确率

12.寻找垃圾邮件主要预测的因素

将分类器模型中不同索引值的权重值进行排序,然后在词汇表中找到对应的单词,查看影响预测因素最大的前15个单词

图17 主要预测因素及其对应的权值

13.对不同邮件数据集进行处理并分类

读入一封已知的垃圾邮件进行同样的处理并且使用上述实验中已经得到的分类器进行分类预测

结果如下:

图18 原文

图19 处理后邮件

图20 分类结果

可知分类器对该邮件的预测为垃圾邮件,由已知条件可知分类正确

读入非垃圾邮件emailSample2.txt进行同样的操作,结果如下:

图21 处理后的邮件

图22分类结果

分类正确

结果验证该分类器可以正确分类示例中的垃圾和非垃圾邮件

四、结果分析

    本次实验我们首先通过svm对各种示例2D数据集进行分类实验,第一个数据集可以通过线性边界分割开,但是在开始设定的惩罚因子C的值时依然会有错误分类,通过多次探究如图2到图5所示,将C的值调大后SVM越不会放弃那些离群点,并且趋于尝试正确分类所有的例子,但是过大也有可能会造成过拟合。对于线性不可分的数据集,需要加入高斯核来找到非线性决策边界,高斯核中的sigma参数对于结果也有影响,若过高则可能会欠拟合,若过低,可能训练准确率会很高但会过拟合,所以如果发现准确率低我们可以尝试调大C的值调小sigma的值。而在第三个数据集中,我们通过程序自动取寻找合适的C和sigma值,通过交叉集进行验证,以最小错误率为标准最终得出了最佳的结果如图12所示。

    在垃圾邮件分类的实验中,我们通过对邮件进行处理从而方便特征的提取,通过与词汇表建立映射从而将字母等信息转换为更加适合处理的数字信息,通过训练后得到的分类器对于训练集及测试集的准确率都很高如图15与图16所示。分类器中也可以查看相应的参数,从而得知垃圾邮件的主要预测因素如图17所示,最后我对于其它的一些邮件示例进行预测发现结果均正确,由此可见该分类器模型预测效果不错。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/764722.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARM32day4

VID_20240319_210515 1.思维导图 2.实现三个LED灯亮灭 .text .global _start _start: 使能GPIO外设时钟 LDR R0,0x50000A28 LDR R1,[R0]使能GPIOE ORR R1,R1,#(0X1<<4)使能GPIOF ORR R1,R1,#(0X1<<5) STR R1,[R0]设置引脚状态 LDR R0,0X50006000 LDR R1,[R0…

SQL:窗口函数之OVER()

窗口函数 通用格式 “函数 OVER (PARTITION BY 分组 ORDER BY 排序依据 升降序)”。 这里记录下OVER() 以及搭配LEAD/LAG函数的使用方法&#xff08;执行平台Impala&#xff09; 目录 OVER函数1、不加条件的OVER函数——得到所有的汇总结果2、仅有排序的OVER函数——得到按顺序…

基于NetCoreServer的WebSocket客户端实现群播(学习笔记)

一、NetCoreServer介绍 超快速、低延迟的异步套接字服务器和客户端 C# .NET Core 库&#xff0c;支持 TCP、SSL、UDP、HTTP、HTTPS、WebSocket 协议和 10K 连接问题解决方案。 开源地址&#xff1a;https://github.com/chronoxor/NetCoreServer 支持&#xff1a; Example: TC…

34 vue 项目默认暴露出去的 public 文件夹 和 CopyWebpackPlugin

前言 这里说一下 vue.config.js 中的一些 public 文件夹是怎么暴露出去的? 我们常见的 CopyWebpackPlugin 是怎么工作的 ? 这个 也是需要 一点一点积累的, 因为 各种插件 有很多, 不过 我们仅仅需要 明白常见的这些事干什么的即可 当然 以下内容会涉及到一部分vue-cli,…

Vue2(九):尚硅谷TodoList案例(初级版):组件化编码流程的使用

一、组件化编码流程及资料 百度网盘 请输入提取码 提取码yyds &#xff08;Vue全家桶资料&#xff09; 组件化编码流程分为三步&#xff1a; 二、实现静态组件 1、分析结构 确定组件名称&#xff08;Header,List,Item,Footer&#xff09;和个数&#xff0c;还有嵌套关系(…

阿里云服务器租用一年多少钱?2024年最新阿里云租用价格

2024年阿里云服务器租用费用&#xff0c;云服务器ECS经济型e实例2核2G、3M固定带宽99元一年&#xff0c;轻量应用服务器2核2G3M带宽轻量服务器一年61元&#xff0c;ECS u1服务器2核4G5M固定带宽199元一年&#xff0c;2核4G4M带宽轻量服务器一年165元12个月&#xff0c;2核4G服务…

2016年认证杯SPSSPRO杯数学建模D题(第一阶段)NBA是否有必要设立四分线解题全过程文档及程序

2016年认证杯SPSSPRO杯数学建模 D题 NBA是否有必要设立四分线 原题再现 NBA 联盟从 1946 年成立到今天&#xff0c;一路上经历过无数次规则上的变迁。有顺应民意、皆大欢喜的&#xff0c;比如 1973 年在技术统计中增加了抢断和盖帽数据&#xff1b;有应运而生、力挽狂澜的&am…

Nacos介绍和Eureka的区别

Nacos&#xff08;全称为 Alibaba Cloud Nacos&#xff0c;或简称为 Nacos&#xff09;是一个开源的分布式服务发现和配置管理系统。它由阿里巴巴集团开发并开源&#xff0c;旨在帮助开发人员简化微服务架构下的服务注册、发现和配置管理。 1、Nacos 提供了以下主要功能&#…

WPF 立体Border

WPF 立体Border &#xff0c;用来划分各个功能区块 在资源文件中&#xff0c;添加如下样式代码&#xff1a; <Style x:Key"BaseBorder" TargetType"Border"><Setter Property"Background" Value"White" /><Setter Prop…

如何用java使用es

添加依赖 如何连接es客户端 RestHighLevelClient 代表是高级客户端 其中hostname&#xff1a;es的服务器地址&#xff0c;prot端口号 &#xff0c;scheme&#xff1a;http还是https 如果不在使用es可以进行关闭&#xff0c;可以防止浪费一些资源 java如何创建索引&#xff1…

养好蜘蛛池的方法有哪些?如何正确的养

目前国内大部分正规网络科技公司都没有自己的蜘蛛池&#xff0c;甚至不知道什么是蜘蛛池&#xff0c;更不知道它的作用。 蜘蛛池起源于灰色产业。 它的前身是基于泛站点群体中大量活跃的蜘蛛而诞生的。 为了达到快速收录、快速排名的效果&#xff0c;很多行业都会将网站域名地址…

hyper-v虚拟机使用宿主机usb设备

文章目录 一、修改宿主机组策略二、使用 一、修改宿主机组策略 在宿主电脑上&#xff0c;按 winr 组合键打开运行窗口&#xff0c;输入 gpedit.msc 打开组策略编辑器&#xff0c;依次点击计算机配置- 管理模板- Windows 组件- 远程桌面服务- 远程桌面会话客户端- RemoteFX USB…

5.域控服务器都要备份哪些资料?如何备份DNS服务器?如何备份DHCP服务器?如何备份组策略?如何备份服务器状态的备份?

&#xff08;2.1) NTD(域控数据库&#xff09;备份 &#xff08;2.2&#xff09;DNS备份 &#xff08;2.3&#xff09;DHCP备份 &#xff08;2.4&#xff09;组策略备份 &#xff08;2.5&#xff09;CA证书备份 &#xff08;2.6&#xff09;系统状态备份 &#xff08;2.1)…

如何使用ospf (enps) 简单实践ospf协议

1. OSPF的基本概念 OSPF&#xff08;Open Shortest Path First&#xff0c;开放式最短路径优先&#xff09;是一种广泛应用于TCP/IP网络中的内部网关协议&#xff08;Interior Gateway Protocol, IGP&#xff09;&#xff0c;主要用于在同一自治系统&#xff08;Autonomous Sys…

js工具方法记录

校验数字是否有效的11位手机号 function isValidPhoneNum(value: string) {return /^[1][3,4,5,6,7,8,9][0-9]{9}$/.test(value) }手机号中间4位掩码 function maskPhoneNum(phone: string, space false) {if (!phone) {return }const reg /(\d{3})\d{4}(\d{4})/return pho…

人像抠图HumanSeg——基于大规模电话会议视频数据集的连接感知人像分割

前言 人像抠图将图像中的人物与背景进行像素级别的区分的技术。通过人像分割&#xff0c;可以实现诸如背景虚化、弹幕穿人等各种有趣的功能&#xff0c;为视频通话和影音观看提供更加优质和丰富的体验。由于广泛部署到Web、手机和边缘设备&#xff0c;肖像分割在兼顾分割精度的…

真机笔记(2)项目分析

目录 1. 项目&#xff1a; 2. 网络工程师工作流程 3. 实验 设备命名 登录密码 使用SSH协议 1. 项目&#xff1a; 竞标方&#xff1a;集成商、厂商、代理商、服务商、监理检测公司 在一个网络项目中&#xff0c;不同的角色承担着不同的职责和任务。以下是集成商、厂商、代…

Github多账号切换

在开发阶段&#xff0c;如果同时拥有多个开源代码托管平台的账户&#xff0c;在代码的管理上非常麻烦。那么&#xff0c;如果同一台机器上需要配置多个账户&#xff0c;怎样才能确保不冲突&#xff0c;不同账户独立下载独立提交呢&#xff1f; 我们以两个github账号进行演示 …

ChatGPT智能聊天系统源码v2.7.6全开源Vue前后端+后端PHP

测试环境:Linux系统CentOS7.6、宝塔、PHP7.4、MySQL5.6,根目录public,伪静态thinkPHP,开启ssl证书 具有文章改写、广告营销文案、编程助手、办公达人、知心好友、家庭助手、出行助手、社交平台内容、视频脚本创作、AI绘画、思维导图等功能 ai通道:文心一言、MiniMax、智…

【Linux C | 多线程编程】线程的退出

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; ⏰发布时间⏰&#xff1a; 本文未经允许…