科普文:贝叶斯过滤器判定垃圾邮件

简介

        贝叶斯分类的运作是借着使用标记(一般是字词,有时候是其他)与垃圾邮件、非垃圾邮件的关连,然后搭配贝叶斯推断来计算一封邮件为垃圾邮件的可能性。

        贝叶斯垃圾邮件过滤是非常有威力的技术,可以修改自己以符合个别使用者的需要,并且给予较低的垃圾邮件侦测率,让使用者可接受。

发展历史

        第一个已知使用贝叶斯分类的邮件过滤是Jason Rennie的iFile,在1996年释出。这个程式可以排序邮件并放到目录。第一个关于贝叶斯垃圾邮件过滤的学术出版是由Sahamietal.在1998年所写。之后很快就被应用到商用的垃圾邮件过滤器上。然而,在2002年,Paul Graham大大地加强了假阳性的机率,所以它可以作为一个简单的垃圾过滤器来使用。

        根植于此技术的变种技术相继在许多的研究工作与商业产品上被实作出来。许多流行的邮件客户端都实作了贝叶斯垃圾邮件过滤。使用者也可以安装其他的邮件过滤程式。服务器端的邮件过滤器,像DSPAM、spamassassin、SpamBayes、Bogofilter与ASSP也都利用了贝叶斯邮件过滤技术,有时候这个功能直接内建在邮件服务器软件上。

朴素贝叶斯应用——垃圾邮件过滤_朴素贝叶斯分类器垃圾邮件过滤-CSDN博客

贝叶斯|垃圾邮件过滤器问题 - 知乎

https://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_two.html

https://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html

一般应用程式

 贝叶斯过滤被广泛地使用来鉴别垃圾邮件,但这项技术其实可以用来分类(或丛集)几乎任何种类的资料。它被使用在科学、医学与工程方面。例如普遍用来分类的程式:AutoClass,它可以根据可能非常微小到难以察觉的光谱特征来分类星星。最近甚至有人推测大脑可能也使用贝叶斯方法来为知觉刺激做分类并决定行为回应。

1、设置“先验概率”

        首先,电脑在对收到的邮件进行扫描之前,会为每个类别分配“这封邮件是垃圾邮件还是正常邮件”先验概率。设定双方各占0.5的概率作为先验概率。

2、扫描字句与条件概率设定

        设定一些在垃圾邮件里常见的字句及特征。但需要注意的是,“贴有其他网页的URL链接”这一特征,是电脑判断一封邮件疑似为垃圾邮件的关键点。实际上,大多垃圾邮件的目的确实是引诱读者访问其他网址,因而附带有URL的链接。因此,如果符合以下稳固关系,即:

        垃圾邮件→URL上有链接

        正常邮件→URL上无链接

        然而遗憾的是,多多少少会有那么几封垃圾邮件中并没有其他链接,而来自朋友和公司的邮件中却附带链接,这就难办了。在这种情况下,就必须使用概率推论相关的“可能性”判断方法,即:

        URL上有链接→可能是垃圾邮件

        URL上无链接→可能是正常邮件

        对于这种“可能性”进行数值评价,需要运用到贝叶斯推理。

        因此,就很有必要设定:垃圾邮件中附带URL的比例,以及正常邮件中附带URL的比例各占多少。为了方便计算,以下采用虚构的数据来进行简单运算。

        附带链接的条件概率

3、根据扫描结果,计算垃圾邮件的后验概率

        过滤器扫描完邮件后得到的结论是“附带链接”。此时,就不必再考虑“无链接”的两种可能性,只需要考虑剩余的两种可能性。

        可能性被限定为两种

        恢复标准化条件(相加之和为1)之后,通过这张图可以计算出后验概率为:

在有链接的情况下,

(垃圾邮件的后验概率):(正常邮件的后验概率)

        =0.5×0.6:0.5×0.2

        =0.6:0.2

        =3:1

        =3/4:1/4

        所以,过滤器判断出

(附带链接的垃圾邮件的后验概率)=3/4=0.75

        在扫描之前,垃圾邮件的概率被设定为0.5;而通过扫描发现链接之后,垃圾邮件的概率上升到了0.75。

扫描前与扫描后

        虽然垃圾邮件的可能性增大,然而,并不能就此判定它就是垃圾邮件。

        例如,尽管在过滤器上设定了“如果垃圾邮件的后验概率超过0.95,就自动把它移到垃圾箱里”,但有可能这封邮件并没有被移动到垃圾箱里,而是被划分到收件箱中。

4、获得第2条信息后,可能性随之变为8种

        即使在获得了“附带链接”的信息之后,也只能初步判断这封邮件极有可能是垃圾邮件,但不能确定它一定会被移动到垃圾箱中。

        因此,过滤器会通过添加其他的信息,再次进行判断。现在我们添加一个条件:把“幽会”一词作为关键词来进行检索。“幽会”一词出现的概率和不出现的概率如下:

        此时,过滤器在扫描邮件时,除了“附带链接”之外,又增加了含有“幽会”一词的条件,通过这两个条件来判别垃圾邮件。

        之前的两种可能性(是否附带链接)各自又分为4种可能性,所以共计有8种可能性,这8种可能性各自的概率如图:

        上述两种情况下,共有8种可能性,每一种的概率分别列出,如下图:

        在这里,类别的概率0.5也要乘进去。原因在于,它是异于独立性而存在的。而这一点是条件概率的特征。

5、从2个信息可以消去不可能的情况

        在设定上述概率的前提下,过滤器对邮件进行扫描,通过检查是否附带“链接”、是否含有“幽会”一词这两个条件,来计算该邮件为垃圾邮件的概率。

        以上8种可能性中,只有最上面的2种有可能是垃圾邮件的。于是,留下最上面的2个,排除掉下面的6个。

扫描之后只剩下两种可能性

        总之,过滤器所检查的邮件分为两种情况,一种是垃圾邮件(附带链接且含有“幽会”),一种是正常邮件(附带链接且含有“幽会”)。两者的比例关系,也就是图中的概率之比。因此,接下来通过标准化条件,可以计算出附带链接且含有“幽会”一词时的后验概率。

        (垃圾邮件的后验概率):(正常邮件的后验概率)

=0.5×0.6×0.4:0.5×0.2×0.05

=0.6×0.4:0.2×0.05

=0.24:0.01

=24:1

=24/25:1/25

        通过标准化条件运算,在附带链接且含有“幽会”一词的情况下,(垃圾邮件的后验概率)=24/25=0.96

        假若在垃圾邮件过滤器上设定一种情况:如果垃圾邮件的后验概率超过0.95,就自动把它移到垃圾箱。那么,在这种情况下,这封邮件就会被移动到垃圾箱,而不会出现在收件箱中。

6、贝叶斯推理的过程总结

        如图所示,使用2条信息推算出的结论,比起仅仅使用1条信息来推算,检索出垃圾邮件的概率会更高。同理,提供的信息越多,检索出的概率越高,推理结果就越精确。

        扫描之前与扫描两次之后

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/860719.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C# Onnx Yolov8-OBB 旋转目标检测 行驶证副页条码+编号 检测,后续裁剪出图片并摆正显示

C# Onnx Yolov8-OBB 旋转目标检测 行驶证副页条码编号 检测,后续裁剪出图片并摆正显示 目录 效果 模型信息 项目 代码 下载 效果 模型信息 Model Properties ------------------------- date:2024-06-25T10:59:15.206586 description:…

React 19 新特性集合

前言:https://juejin.cn/post/7337207433868197915 新 React 版本信息 伴随 React v19 Beta 的发布,React v18.3 也一并发布。 React v18.3相比最后一个 React v18 的版本 v18.2 ,v18.3 添加了一些警告提示,便于尽早发现问题&a…

利用百数应用优化制造细节,提升生产效率的技术实践

制造管理是确保企业高效、高质生产的核心环节,对于提高企业的运营效率、质量控制、成本控制、交货期保障、资源优化、创新能力以及风险管理等方面都具有重要意义,它能帮助企业在激烈的市场竞争中保持领先地位,同时实现资源的有效利用和风险的…

顺序栈与链式栈

目录 1. 栈 1.1 栈的概念 2. 栈的实现 3. 顺序栈的实现 3.1 顺序栈的声明 3.2 顺序栈的初始化 3.3 顺序栈的入栈 3.4 顺序栈的出栈 3.5 顺序栈获取栈顶元素 3.6 顺序栈获取栈内有效数据个数 3.7 顺序栈判断栈是否为空 3.8 顺序栈打印栈内元素 3.9 顺序栈销毁栈 3…

[数据集][目标检测]鸡蛋缺陷检测数据集VOC+YOLO格式2918张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2918 标注数量(xml文件个数):2918 标注数量(txt文件个数):2918 标注…

算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全

大侠幸会,在下全网同名「算法金」 0 基础转 AI 上岸,多个算法赛 Top 「日更万日,让更多人享受智能乐趣」 决策树是一种简单直观的机器学习算法,它广泛应用于分类和回归问题中。它的核心思想是将复杂的决策过程分解成一系列简单的决…

【推荐】Prometheus+Grafana企业级监控预警实战

新鲜出炉!!!PrometheusGrafanaAlertmanager springboot 企业级监控预警实战课程,从0到1快速搭建企业监控预警平台,实现接口调用量统计,接口请求耗时统计…… 详情请戳 https://edu.csdn.net/course/detai…

Word页码设置,封面无页码,目录摘要阿拉伯数字I,II,III页码,正文开始123为页码

一、背景 使用Word写项目书或论文时,需要正确插入页码,比如封面无页码,目录摘要阿拉伯数字I,II,III为页码,正文开始以123为页码,下面介绍具体实施方法。 所用Word版本:2021 二、W…

HTTPS 代理的优点和缺点是什么?

HTTPS(超文本安全传输协议)作为一种基于HTTP加上SSL安全层的网络通信协议,已经成为互联网上广泛使用的IP协议之一。它在保证信息安全和隐私方面具有很多优势,但也存在一些缺点。接下来,我们就来探究一下HTTPS协议的优缺…

Qt篇——获取Windows系统上插入的串口设备的物理序号

先右键【此电脑-管理- 设备管理器-端口(COM和LPT)】中找到我们插入的某个设备的物理序号,如下图红色矩形框出的信息,这个就是已插入设备的物理序号(就是插在哪个USB口的意思)。 在Linux下我们可以通过往/et…

【踩坑】修复循环设置os.environ[‘CUDA_VISIBLE_DEVICES‘]无效

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 问题示例 for gpus in [0, 1, 2, 3, 4, 5, 6, 7]:os.environ[CUDA_VISIBLE_DEVICES] gpusprint(torch.cuda.get_device_name(0)) 始终将使用第…

Mac安装多版本node

Mac下使用n模块去安装多个指定版本的Node.js,并使用命令随时切换。 node中的n模块是,node专门用来管理node版本的模块,可以进行node版本的切换,下载,安装。 1.安装n npm install -g n 2.查看版本 n --version 3.展…

动作捕捉与数字人实训室,引领动漫专业创新发展

如今,随着全身动作捕捉设备在动漫行业中的应用越来越重要,传统的教学模式与市场需求逐渐脱节,原有的教学方式和思路急需进行调整。高校通过搭建动作捕捉与数字人实训室,可以使得教学质量和效率大大提升,让学生能够接触…

如何采集拼多多的商品或店铺数据

怎么使用简数采集器批量采集拼多多的商品或店铺相关信息呢? 简数采集器暂时不支持采集拼多多的商品或店铺相关数据,只能采集页面公开显示的信息,谢谢。 简数采集器采集网站文章资讯等数据特别简单高效:只需输入网站网址&#xf…

全景vr交互微课视频开发让学习变得更加有趣、高效

在数字化教育的浪潮中,3D虚拟微课系统操作平台以其独特的魅力和创新的功能,成为吸引学生目光的焦点。这个平台不仅提供了引人入胜的画面和内容丰富的课件,更通过技术革新和制作方式的探索,将课程制作推向了一个全新的高度。 随着技…

HarmonyOS NEXT Developer Beta1配套相关说明

一、版本概述 2024华为开发者大会,HarmonyOS NEXT终于在万千开发者的期待下从幕后走向台前。 HarmonyOS NEXT采用全新升级的系统架构,贯穿HarmonyOS全场景体验的底层优化,系统更流畅,隐私安全能力更强大,将给您带来更高…

基于Cisco的校园网络拓扑搭建

特此说明:请先看评论区留言哦~ 一、基础配置 1.新建拓扑图 2.服务器配置 3.PC端配置 4.核心交换机配置 a.CORE-S1 Switch>enable Switch#configure terminal Switch(config)#hostname CORE-S1 CORE-S1(config)#vlan 10 CORE-S1(config-vlan)#vlan 20 CO…

【zabbix】zabbix 自动发现与自动注册、proxy代理

1、配置zabbix自动发现,要求发现的主机不低于2台 zabbix 自动发现(对于 agent2 是被动模式) zabbix server 主动的去发现所有的客户端,然后将客户端的信息登记在服务端上。 缺点是如果定义的网段中的主机数量多,zabbi…

第1章,物联网模式简介

物联网模式简介 物联网(IoT)在最近几年获得了巨大的吸引力,该领域在未来几年将呈指数级增长。这一增长将跨越所有主要领域/垂直行业,包括消费者、家庭、制造业、健康、旅游和运输。这本书将为那些想了解基本物联网模式以及如何混…

俄罗斯Yandex广告(Yandex ads)怎么做?Yandex广告搭建与效果优化技巧设置终极指南

您可以在Yandex推广中使用移动应用广告来覆盖数百万搜索和Yandex广告网络受众,从而提高应用的盈利能力。为了获得最佳效果,请在设置广告系列时遵循我们的建议。 入门 在 Yandex Direct 中创建广告活动。转到营销活动向导 → 应用安装和应用内转化&…