【Python机器学习】朴素贝叶斯——使用朴素贝叶斯过滤垃圾邮件

使用朴素贝叶斯解决一些现实生活中的问题时,需要先从文本内容中得到字符串列表,然后生成词向量。

使用朴素贝叶斯对电子邮件进行分类的过程:

1、收集数据:提供文本文件

2、准备数据:将文本文件解析成词条向量

3、分析数据:检查词条确保解析的正确性

4、训练算法

5、测试算法:构建一个新的测试函数来计算文档集的错误率

6、使用算法:构建一个完整的程序对一组文档进行分类,输出错分的文档。

准备数据:切分文本

对于一个文本字符串,可以使用Python的string.split()方法将其切分。但是这种方法下,标点符号也会被当成词的一部分。可以使用正则表达式来切分句子,其中分隔符是除单词、数字外的任意字符串。比如:

import remySent='This book is the best book on Python on M.L. I have ever laid eyes upon.'
regEx=re.compile('\\W')
listOfTokens=regEx.split(mySent)
print(listOfTokens)

现在得到了一系列词组成的词表,但是里面的空字符串需要去掉。可以计算每个字符串的长度,只返回长度大于0的字符串,并且,句子的第一个单词是大写的,如果目的是句子查找,那么这个特点会很有用,但是这里的文本只看出词袋,所以我们希望所有词的形式都是统一的:

print([tok.lower() for tok in listOfTokens if len(tok)>0])

现在拿一封完整的电子邮件观察实际处理结果:

需要注意的是,由于‘URL:answer.py?hl=en&answer=174623’的一部分,因而会出现en和py这样的单词,当对URL进行切分时,会得到很多词。我们是想去掉这些单词,因此在实现时会过滤掉长度小于3的字符串。在实际的解析程序中,要用更高级的过滤器来对诸如HTML和URL的对象进行处理。

测试算法:使用朴素贝叶斯进行交叉验证

下面将文本解析器集成到一个完整分类器中:

def textParse(bigString):import relistOfTokens=re.split(r'\W',bigString)#小写、切分、长度大于等于3return [tok.lower() for tok in listOfTokens if len(tok)>2]def spamTest():docList=[]classList=[]fullText=[]for i in range(1,126):#打开文件wordList=textParse(open('email/spam/%d.txt' % i).read())#文档列表添加文本docList.append(wordList)#全文本列表增加文档列表fullText.extend(wordList)#列表增加1classList.append(1)wordList=textParse(open('email/ham/%d.txt' % i).read())docList.append(wordList)fullText.extend(wordList)classList.append(0)vocabList=createVocabList(docList)trainingSet=range(50)testSet=[]for i in range(10):#随机构建训练集#random.uniform:范围内随机生成实数randIndex=int(random.uniform(0,len(trainingSet)))#测试集中增加,并在训练集中删除testSet.append(trainingSet[randIndex])del(trainingSet[randIndex])trainMat=[]trainClasses=[]for docIndex in trainingSet:trainMat.append(setOfWords2Vec(vocabList,docList[docIndex]))trainClasses.append(classList[docIndex])p0V,p1V,pSpam=trainNBO(array(trainMat),array(trainClasses))errorCount=0for docIndex in testSet:wordVector=setOfWords2Vec(vocabList,docList[docIndex])#对测试集分类if classifyNB(array(wordVector),p0V,p1V,pSpam) != classList[docIndex]:errorCount=errorCount+1print('错误率:',float(errorCount)/len(testSet))

第一个函数textParse()接受一个大字符串并将其解析为字符串列表。该函数去掉少于两个字符的字符串,并将所有字符串转为小写。

第二个函数spamTest()对贝叶斯垃圾邮件分类器进行自动化处理。导入文件夹spam与ham文件夹下的文本文件,并将它们解析成词列表。之后构建一个测试集与训练集,两个集合中的邮件都是随机选出的。50封电子邮件中,随机选择10封为测试集。分类器所需要的概率计算只利用训练集中的文档来完成。Python变量trainingSet是一个整数列表,其中的值从0到49。测试集外的剩余部分作为测试集的过程称为留存交叉验证。假定现在只完成了一次迭代,那么为了更精确地估计分类器的错误率,就应该进行多次迭代后求出平均错误率。

接下来的for循环遍历训练集的所有文档,对每封邮件基于词汇表并构建词向量。这些词用于计算分类所需的概率。然后遍历测试集,对其中每封邮件进行分类。如果邮件分类错误,则错误数加一,最后给出总的错误百分比。

运行结果:

函数spamTest()会输出在10封随机选择的邮件上的分类错误率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/51772.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Windows】Mountain Duck(FTP服务器管理工具)软件介绍

软件介绍 Mountain Duck是一款基于Cyberduck开发的应用程序,它允许用户通过FTP、SFTP、WebDAV、S3和OpenStack Swift等协议连接到云存储和远程服务器,并在本地文件浏览器中以熟悉的方式访问和管理这些文件。 功能特点 支持多种协议: Mountain Duck支持…

面向对象程序设计(C++)模版初阶

1. 函数模版 1.1 函数模版概念 函数模板代表了一个函数家族,该函数模板与类型无关,在使用时被参数化,根据实参类型产生函数的特定类型版本,可以类比函数参数,函数模版就是将函数参数替换为特定类型版本 1.2 函数模版格…

BUG 太多?苹果罕见“重新推送”ios18 beta 4测试版

在刚刚过去的周末,苹果公司面向开发者,重新发布了 iOS / iPadOS 18 Beta 4 更新,内部版本号从 22A5316j 变为 22A5316k,目前尚不清楚两个 Beta 4 版本更新之间的区别。 此次更新包大小仅为251M左右,是 更新。 对于已经…

精品PPT | 微信云原生大数据平台构建及落地实践.pptx

一、大数据上云概述 1.为什么大数据要上云 2.微信大数据平台架构演进 二、大数据上云基础建设 1.统一编排 2.Pod 设计及大数据配套能力 3.计算组件云环境适配 三、稳定性及效率提升 1.K8S 集群稳定性与弹性配额 2.可观测性与智能运维

基于OpenCV C++的网络实时视频流传输——Windows下使用TCP/IP编程原理

1.TCP/IP编程 1.1 概念 IP 是英文 Internet Protocol (网络之间互连的协议)的缩写,也就是为计算机网络相互连接进行通信而设计的协议。任一系统,只要遵守 IP协议就可以与因特网互连互通。 所谓IP地址就是给每个遵循tcp/ip协议连…

[QT开发_音乐播放器项目笔记01]

目录 一:常用类 26 QByteArray 是 Qt 框架中的一个类,用于处理字节数组。它提供了动态大小的字节数组,可以用于存储和操作二进制数据,比如文件内容、网络数据等。 QT项目记录: 一:常用类 26 QByteArray…

【JavaScript】详解JavaScript语法

文章目录 一、变量和数据类型二、运算符三、条件语句四、循环语句五、函数六、对象和数组七、ES6新特性八、实际应用案例 JavaScript是一门广泛应用于Web开发的编程语言。掌握JavaScript语法是成为前端开发者的第一步。本文将详细介绍JavaScript的基本语法,包括变量…

Python技能达到这个水平,高薪就业不是梦

一,高薪就业的必备基础 要达到高薪就业的水平,Python开发者通常需要具备以下几方面的技能和经验: 如需Python籽料直接戳: 2024年最新python教程全套,学完即可进大厂!(附全套视频 下载&#xf…

软件测试必备 - 14个接口与自动化测试练习网站

随着互联网和移动应用的快速发展,接口和自动化测试的重要性日益凸显。越来越多的企业开始重视API测试,因为它不仅能提升开发效率,还能确保系统的稳定性和安全性。这些练习网站为测试人员提供了宝贵的资源,帮助他们掌握必要的技能,应对日益复杂的测试需求。 在软件测试的世…

【Linux】TCP全解析:构建可靠的网络通信桥梁

文章目录 前言1. TCP 协议概述2. TCP报头结构3. 如何理解封装和解包呢?4. TCP的可靠性机制4.1 TCP的确认应答机制 4.2 超时重传机制5. TCP链接管理机制5.1 经典面试题:为什么建立连接是三次握手?5.2 经典面试题:为什么要进行四次挥…

Java每日一题 ~ 盛最多水的容器

. - 力扣(LeetCode) 1.题目解析 本题的要求就是:给定数组索引之间的差值为宽,元素值中小的为边长求面积。 2.算法分析 思路一:暴力枚举 暴力法的思路是对所有可能的容器组合进行穷举,计算它们能容纳的水…

[硬件]—电感传感器

电感传感器 1.概述 工作基础:电磁感应,即利用线圈自感或互感的改变来实现非电量测量。工作原理: 被测物理量(非电量:位移、振动、流量);线圈自感系数L/互感系数M;电压或电流&#…

0729作业+梳理

一、作业 1.写一个日志文件&#xff0c;将程序启动后的每一秒时间写入到文件中 代码&#xff1a; #include<myhead.h> #include<time.h> //判断原本文件中的行数 int len_txt(FILE *fp) { char buf0; int count 1; while(1) { buffgetc…

计算是守恒与对称的,谋算(算计)是变通与破缺的

计算通常涉及到严格的数学或逻辑规则&#xff0c;这些规则保证了信息或量的守恒和对称性。例如&#xff0c;数学运算如加减乘除都遵循特定的规律&#xff0c;确保了结果的准确性和一致性。相比之下&#xff0c;谋算&#xff08;或称算计&#xff09;更多指策略性的考虑或具有权…

Redis 缓存中间件

目录 概念 安装redis redis基本命令 给redis添加密码 基础数据类型 string类型 list列表类型 set创建&#xff08;一个键对应一个值&#xff09; set 创建数据 get 获取数据 keys * 展示所有的键 exists 判断键值是否存在 type 查看数据的类型 del 删除键 rename…

学习008-02-04-03 Group List View Data(组列表查看数据)

Group List View Data&#xff08;组列表查看数据&#xff09; This lesson explains how to group the Employee List View data by department and position. 本课介绍如何按部门和职位对员工列表视图数据进行分组。 Note Before you proceed, take a moment to review the …

机械学习—零基础学习日志(高数15——函数极限性质)

零基础为了学人工智能&#xff0c;真的开始复习高数 这里我们将会学习函数极限的性质。 唯一性 来一个练习题&#xff1a; 再来一个练习&#xff1a; 这里我问了一下ChatGPT&#xff0c;如果一个值两侧分别趋近于正无穷&#xff0c;以及负无穷。理论上这个极限值应该说是不存…

2024下《系统架构设计师》案例简答题,刷这些就够了!

2024年软考下半年已经越来越近了&#xff0c;不知道今年备考架构的同学们准备得怎么样了呢&#xff1f; 简答题一直是架构拿分的重点区域&#xff0c;对于许多考生来说&#xff0c;也往往是最具挑战性的部分。今天我就把那些重要的案例简答题类型整理汇总给大家&#xff0c;希望…

02 Go语言操作MySQL基础教程_20240729 课程笔记

概述 如果您没有Golang的基础&#xff0c;应该学习如下前置课程。 Golang零基础入门Golang面向对象编程Go Web 基础Go语言开发REST API接口_20240728 基础不好的同学每节课的代码最好配合视频进行阅读和学习&#xff0c;如果基础比较扎实&#xff0c;则阅读本教程巩固一下相…

Qt Designer,仿作一个ui界面的练习(二):部件内容的填充

有了完成了布局的基本框架设计之后&#xff0c;对各个部件逐步完成内容的填充。 一、还是从顶边栏开始&#xff1a; 1、在顶边栏的topLogo里面拖入一个QLabel&#xff08;标签&#xff09;&#xff0c;命名为logoImage&#xff0c;删除标签的文字。 2、右键点击topLogo&#x…