科普文:贝叶斯过滤器判定垃圾邮件

简介

        贝叶斯分类的运作是借着使用标记(一般是字词,有时候是其他)与垃圾邮件、非垃圾邮件的关连,然后搭配贝叶斯推断来计算一封邮件为垃圾邮件的可能性。

        贝叶斯垃圾邮件过滤是非常有威力的技术,可以修改自己以符合个别使用者的需要,并且给予较低的垃圾邮件侦测率,让使用者可接受。

发展历史

        第一个已知使用贝叶斯分类的邮件过滤是Jason Rennie的iFile,在1996年释出。这个程式可以排序邮件并放到目录。第一个关于贝叶斯垃圾邮件过滤的学术出版是由Sahamietal.在1998年所写。之后很快就被应用到商用的垃圾邮件过滤器上。然而,在2002年,Paul Graham大大地加强了假阳性的机率,所以它可以作为一个简单的垃圾过滤器来使用。

        根植于此技术的变种技术相继在许多的研究工作与商业产品上被实作出来。许多流行的邮件客户端都实作了贝叶斯垃圾邮件过滤。使用者也可以安装其他的邮件过滤程式。服务器端的邮件过滤器,像DSPAM、spamassassin、SpamBayes、Bogofilter与ASSP也都利用了贝叶斯邮件过滤技术,有时候这个功能直接内建在邮件服务器软件上。

朴素贝叶斯应用——垃圾邮件过滤_朴素贝叶斯分类器垃圾邮件过滤-CSDN博客

贝叶斯|垃圾邮件过滤器问题 - 知乎

https://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_two.html

https://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html

一般应用程式

 贝叶斯过滤被广泛地使用来鉴别垃圾邮件,但这项技术其实可以用来分类(或丛集)几乎任何种类的资料。它被使用在科学、医学与工程方面。例如普遍用来分类的程式:AutoClass,它可以根据可能非常微小到难以察觉的光谱特征来分类星星。最近甚至有人推测大脑可能也使用贝叶斯方法来为知觉刺激做分类并决定行为回应。

1、设置“先验概率”

        首先,电脑在对收到的邮件进行扫描之前,会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”先验概率。设定双方各占0.5的概率作为先验概率。

2、扫描字句与条件概率设定

        设定一些在垃圾邮件里常见的字句及特征。但需要注意的是,“贴有其他网页的URL链接”这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。实际上,大多垃圾邮件的目的确实是引诱读者访问其他网址,因而附带有URL的链接。因此,如果符合以下稳固关系,即:

        垃圾邮件→URL上有链接

        正常邮件→URL上无链接

        然而遗憾的是,多多少少会有那么几封垃圾邮件中并没有其他链接,而来自朋友和公司的邮件中却附带链接,这就难办了。在这种情况下,就必须使用概率推论相关的“可能性”判断方法,即:

        URL上有链接→可能是垃圾邮件

        URL上无链接→可能是正常邮件

        对于这种“可能性”进行数值评价,需要运用到贝叶斯推理。

        因此,就很有必要设定:垃圾邮件中附带URL的比例,以及正常邮件中附带URL的比例各占多少。为了方便计算,以下采用虚构的数据来进行简单运算。

        附带链接的条件概率

3、根据扫描结果,计算垃圾邮件的后验概率

        过滤器扫描完邮件后得到的结论是“附带链接”。此时,就不必再考虑“无链接”的两种可能性,只需要考虑剩余的两种可能性。

        可能性被限定为两种

        恢复标准化条件(相加之和为1)之后,通过这张图可以计算出后验概率为:

在有链接的情况下,

(垃圾邮件的后验概率):(正常邮件的后验概率)

        =0.5×0.6:0.5×0.2

        =0.6:0.2

        =3:1

        =3/4:1/4

        所以,过滤器判断出

(附带链接的垃圾邮件的后验概率)=3/4=0.75

        在扫描之前,垃圾邮件的概率被设定为0.5;而通过扫描发现链接之后,垃圾邮件的概率上升到了0.75。

扫描前与扫描后

        虽然垃圾邮件的可能性增大,然而,并不能就此判定它就是垃圾邮件。

        例如,尽管在过滤器上设定了“如果垃圾邮件的后验概率超过0.95,就自动把它移到垃圾箱里”,但有可能这封邮件并没有被移动到垃圾箱里,而是被划分到收件箱中。

4、获得第2条信息后,可能性随之变为8种

        即使在获得了“附带链接”的信息之后,也只能初步判断这封邮件极有可能是垃圾邮件,但不能确定它一定会被移动到垃圾箱中。

        因此,过滤器会通过添加其他的信息,再次进行判断。现在我们添加一个条件:把“幽会”一词作为关键词来进行检索。“幽会”一词出现的概率和不出现的概率如下:

        此时,过滤器在扫描邮件时,除了“附带链接”之外,又增加了含有“幽会”一词的条件,通过这两个条件来判别垃圾邮件。

        之前的两种可能性(是否附带链接)各自又分为4种可能性,所以共计有8种可能性,这8种可能性各自的概率如图:

        上述两种情况下,共有8种可能性,每一种的概率分别列出,如下图:

        在这里,类别的概率0.5也要乘进去。原因在于,它是异于独立性而存在的。而这一点是条件概率的特征。

5、从2个信息可以消去不可能的情况

        在设定上述概率的前提下,过滤器对邮件进行扫描,通过检查是否附带“链接”、是否含有“幽会”一词这两个条件,来计算该邮件为垃圾邮件的概率。

        以上8种可能性中,只有最上面的2种有可能是垃圾邮件的。于是,留下最上面的2个,排除掉下面的6个。

扫描之后只剩下两种可能性

        总之,过滤器所检查的邮件分为两种情况,一种是垃圾邮件(附带链接且含有“幽会”),一种是正常邮件(附带链接且含有“幽会”)。两者的比例关系,也就是图中的概率之比。因此,接下来通过标准化条件,可以计算出附带链接且含有“幽会”一词时的后验概率。

        (垃圾邮件的后验概率):(正常邮件的后验概率)

=0.5×0.6×0.4:0.5×0.2×0.05

=0.6×0.4:0.2×0.05

=0.24:0.01

=24:1

=24/25:1/25

        通过标准化条件运算,在附带链接且含有“幽会”一词的情况下,(垃圾邮件的后验概率)=24/25=0.96

        假若在垃圾邮件过滤器上设定一种情况:如果垃圾邮件的后验概率超过0.95,就自动把它移到垃圾箱。那么,在这种情况下,这封邮件就会被移动到垃圾箱,而不会出现在收件箱中。

6、贝叶斯推理的过程总结

        如图所示,使用2条信息推算出的结论,比起仅仅使用1条信息来推算,检索出垃圾邮件的概率会更高。同理,提供的信息越多,检索出的概率越高,推理结果就越精确。

        扫描之前与扫描两次之后

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/860719.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# Onnx Yolov8-OBB 旋转目标检测 行驶证副页条码+编号 检测,后续裁剪出图片并摆正显示

C# Onnx Yolov8-OBB 旋转目标检测 行驶证副页条码编号 检测,后续裁剪出图片并摆正显示 目录 效果 模型信息 项目 代码 下载 效果 模型信息 Model Properties ------------------------- date:2024-06-25T10:59:15.206586 description:…

JavaScript Array(数组)

JavaScript Array(数组) JavaScript 中的 Array(数组)是一种用于存储数据的集合,它允许我们存储多个数据项,并可以通过索引来访问这些数据项。数组是 JavaScript 中非常基础且强大的数据结构,广泛应用于各种编程场景。 数组的创建 在 JavaScript 中,创建数组的方式有…

讯飞星火通过API接入

国内的GPT王者讯飞星火 如果你想暴富 可以关注一下科大讯飞 看看它的股票走势 每次讯飞星火发布新版本的时候 都掀起了一个小涨停 科大讯飞作为国内领先的人工智能企业 常年以来积累的优势 包括智能客服、语音识别、机器翻译等 多场景的大量应用 铺垫了海量的训练数据…

【分布式】Pytorch在多GPU环境的分布式训练中常见问题汇总

文章目录 第一部分:分布式训练的基本概念1. 分布式训练简介2. 关键概念第二部分:环境设置1. 安装和配置2. 初始化进程组第三部分:模型构建与封装1. 构建模型2. 注意事项第四部分:数据处理1. DataLoader2. 数据分割第五部分:训练过程第六部分:调试和优化1. 调试技巧2. 性能…

PostgreSQL 安全性与权限管理(八)

1. 用户和角色管理 1.1 创建角色 在 PostgreSQL 中,角色可以是用户或组的抽象概念,用于管理数据库的访问权限。 1.1.1 创建角色 CREATE ROLE role_name; 1.1.2 赋予角色权限 GRANT permission_type ON object TO role_name; 1.2 用户管理 用户是…

React 19 新特性集合

前言:https://juejin.cn/post/7337207433868197915 新 React 版本信息 伴随 React v19 Beta 的发布,React v18.3 也一并发布。 React v18.3相比最后一个 React v18 的版本 v18.2 ,v18.3 添加了一些警告提示,便于尽早发现问题&a…

PostgreSQL 分区表与并行查询(十)

1. 分区表概述 1.1 什么是分区表 分区表是将大表分割成更小、更可管理的部分的技术。每个分区表都可以单独进行索引和查询,从而提高查询性能和管理效率。 1.2 分区策略 1.2.1 基于范围的分区 按照时间范围或者数值范围进行分区,如按月或按地区。 C…

利用百数应用优化制造细节,提升生产效率的技术实践

制造管理是确保企业高效、高质生产的核心环节,对于提高企业的运营效率、质量控制、成本控制、交货期保障、资源优化、创新能力以及风险管理等方面都具有重要意义,它能帮助企业在激烈的市场竞争中保持领先地位,同时实现资源的有效利用和风险的…

CSS|02 基本选择器

选择器 什么是选择器 选择器是指通过一定的语法规则选取到对应的HTML标记,然后给这个对应的HTML标记设置样式。 选择器分为四大类:基本选择器、复合选择器、 伪类选择器、属性选择器基本选择器通用选择器:将匹配HTML所有标签。不建议使用。…

顺序栈与链式栈

目录 1. 栈 1.1 栈的概念 2. 栈的实现 3. 顺序栈的实现 3.1 顺序栈的声明 3.2 顺序栈的初始化 3.3 顺序栈的入栈 3.4 顺序栈的出栈 3.5 顺序栈获取栈顶元素 3.6 顺序栈获取栈内有效数据个数 3.7 顺序栈判断栈是否为空 3.8 顺序栈打印栈内元素 3.9 顺序栈销毁栈 3…

[数据集][目标检测]鸡蛋缺陷检测数据集VOC+YOLO格式2918张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2918 标注数量(xml文件个数):2918 标注数量(txt文件个数):2918 标注…

什么是大语言模型

前言 自从去年chatgpt横空出世以来,它火爆也让大语言模型这个词变的很流行,到底什么是大语言模型,今天从初学者的角度介绍一下大语言模型的基本概念、组成部分和基本工作流程等。下面的介绍中如果涉及到一些专业术语不太理解,也没…

携程暑期实习一面

携程暑期实习一面 4.7 50min 微核 两段实习时间节点,为什么想这么早去实习。讲一下测试工作的流程是什么样子的对于测试用例方法设计上你了解哪些讲一下你所提到的等价类划分法和边界值分析法的具体概念,还了解哪些方法一个场景,web端或者…

算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 决策树是一种简单直观的机器学习算法,它广泛应用于分类和回归问题中。它的核心思想是将复杂的决策过程分解成一系列简单的决…

AI学习指南机器学习篇-朴素贝叶斯的优缺点

AI学习指南机器学习篇-朴素贝叶斯的优缺点 在机器学习领域,朴素贝叶斯算法是一种常见且有效的分类方法。它基于贝叶斯定理和特征条件独立性假设,广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。然而,朴素贝叶斯算法也存在一些局限性和缺…

【推荐】Prometheus+Grafana企业级监控预警实战

新鲜出炉!!!PrometheusGrafanaAlertmanager springboot 企业级监控预警实战课程,从0到1快速搭建企业监控预警平台,实现接口调用量统计,接口请求耗时统计…… 详情请戳 https://edu.csdn.net/course/detai…

Word页码设置,封面无页码,目录摘要阿拉伯数字I,II,III页码,正文开始123为页码

一、背景 使用Word写项目书或论文时,需要正确插入页码,比如封面无页码,目录摘要阿拉伯数字I,II,III为页码,正文开始以123为页码,下面介绍具体实施方法。 所用Word版本:2021 二、W…

HTTPS 代理的优点和缺点是什么?

HTTPS(超文本安全传输协议)作为一种基于HTTP加上SSL安全层的网络通信协议,已经成为互联网上广泛使用的IP协议之一。它在保证信息安全和隐私方面具有很多优势,但也存在一些缺点。接下来,我们就来探究一下HTTPS协议的优缺…

探索加拿大IT行业的移民优势与职业前景

随着全球化的不断深入,人才流动已成为推动经济发展的重要力量。加拿大以其开放的移民政策和对高技能人才的渴求,成为全球IT专业人士向往的目的地。 一、快速移民通道 加拿大政府高度重视IT行业人才,为IT专业人士提供了快速移民通道。根据最…

Qt篇——获取Windows系统上插入的串口设备的物理序号

先右键【此电脑-管理- 设备管理器-端口(COM和LPT)】中找到我们插入的某个设备的物理序号,如下图红色矩形框出的信息,这个就是已插入设备的物理序号(就是插在哪个USB口的意思)。 在Linux下我们可以通过往/et…