贝叶斯定理与条件独立假设:朴素贝叶斯分类方法深度解读

今天给大家分享的是朴素贝叶斯算法,这个算法在实际使用中不是很多,因为现在很多算法已经发展的很好,性能上也比朴素贝叶斯算法的好很多,因此在实际中我们其实看到在实际应用中朴素贝叶斯算法的使用已经比较少,即使出现,最终的效果也是不及其他算法的,但是作为简单、基础的算法之一,我们掌握该算法的原理还是非常有必要的,同时在实际论文研究中也经常会使用贝叶斯算法的改进版,所以大家可以多了解了解。

朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。基本的思路就是给定训练数据集,首先基于特征条件独立假设学习输入输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。在介绍朴素贝叶斯算法之前,我们先做一些基础知识的铺垫——贝叶斯定理,该定理汇总比较重要的两个数学公式就是先验概率分布和条件概率分布,先验概率分布公式如下:

条件概率分布如下:

大家可以从公式中可以看出,先验概率分布其实就是训练数据中的不同类别数据占总体数据的比例(在实际中,频率近似概率),条件概率分布就是指在确定数据是某个类别的条件下,样本集X为指定值的概率,条件概率分布中的参数是非常多的,不仅涉及类别,还涉及特征以及特征的不同取值,假设X^{j}表示第j个特征,该特征可能的取值有S_{j},j=1,2.....n,Y表示可取的类别,这样的类别有K个,那么参数个数为K\prod_{j=1}^{n}S_{j},因此在实际中是不可取的。从而产生了朴素贝叶斯算法中对条件概率分布做出的条件独立性假设,如果大家对独立性理解不了的话,请上网搜索答案,条件独立性假设如下:

大家可以将该公式和没有独立的公式进行对比,可以发现,独立之后的结果就是可特征进行了拆分,条件独立假设等于是说分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯算法变得简单,但是会损失一定的分类准确率。

根据训练数据,模型学习到了先验分布和条件独立概率分布,从而可以根据输入的X计算得出后验概率分布P(Y=c_{k}|X=x),该公式表示在知道特征X的情况下,类别为c_{k}的概率,因此我们将该结果最大的类输出即可。后验概率公式为:

再结合特征条件独立性假设,公式变换为:

综上,朴素贝叶斯分类器可以表示为:

该公式表示我们将数据特征X使用朴素贝叶斯算法公式计算了在不同类别上的后验概率,最终选择这些概率中最大的一个概率,将其对应的类别输出,即判定为特征X对应的类别,在该公式中由于分母都是相同的,分母为什么是相同的,大家可以去网上查看简化版的好理解,实际在计算不同类别的时候,大家分母上的计算都是使用了所有的类别和所有的特征进行计算,因此在分母结果都是一样,从而该公式可以简化为:

 大家可能会比较好奇,为什么这里需要使用后验概率最大化来选择类结果,后验概率最大化代表类什么实际含义以及这个选择是怎么来的?大家如果学习过其他算法其实都了解,每一种算法都会有一个目标函数,朴素贝叶斯算法也不例外,假设存在一个0-1损失函数,表达式为:

 期望风险函数为:

取条件期望得:

 

我们的目标就是追求期望损失最小话,从而可得 :

 我相信大家对这几个等式应该还是比较好理解,可能稍微有难度就是第二等式,为什么直接将损失函数转换为类别不等的条件概率,是因为在上一个式子损失函数中,只有类别不等的时候我们才会存在损失函数同时损失函数为1,因此,我们下面直接转换成在确定样本X的条件下,类别不等的概率,最终的结果就转换成我们前面说的后验概率最大化,从而我们后验概率最大化是为了追求我们期望损失最小化得出来的。

朴素贝叶斯算法的总结如下:

我先使用简单直观的理解给大家讲解一下朴素贝叶斯算法的流程,后续将会使用一个实际案例给大家展示,我们首先计算先验概率,即不同类别在总数据中所占比例,接着,计算条件独立概率分布,即在不同类别下,不同特征取某个特征值的概率,遍历所有类别、所有特征以及所有特征取值, 最后新的输入数据,计算其所有特征后验概率,将最大后验概率最大的类别作为该数据的类别。  

fbsrestecgoutput
101
011
000
010

以上是给出的训练数据,前两列代表特征,最后一列代表分类,我们将会给出测试集数据(1,1)作为案例用于算法测试,算法运行结果如下:

从计算数据可以看出,最终的结果判定为1类别。在这个实际计算过程中,大家看到了以上我们使用极大似然估计得出的概率可能为0,为了处理这种情况,于是对朴素贝叶斯算法进行了改进,得到了贝叶斯估计,条件概率的贝叶斯估计概率公式为:

 和朴素贝叶斯算法相比就是在分子分母上加上了一个正数\lambda>=0,确保了计算出的概率不会等于0,当\lambda==0时就是朴素贝叶斯使用的极大似然估计,当\lambda==1时就是拉普拉斯平滑,贝叶斯估计的先验分布为:

大家也可以根据贝叶斯定理的前验分布和条件概率分布求出某个数据特征的后验概率,从而可以得出数据的类别,大家可以指定\lambda==1,即拉普拉斯平滑系数计算一下上面的案例,这里我就不再计算结果了,以上就是贝叶斯算法相关全部内容,大家如果对其他内容感兴趣,关注公众号“明天科技屋”, 更多精彩内容为您推荐!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/713525.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HotFix原理学习 IL2CPP 学习

原文链接:Unity 游戏用XLua的HotFix实现热更原理揭秘-CSDN博客 本文通过对XLua的HoxFix使用原理的研究揭示出来这样的一套方法。这个方法的 第一步:通过对C#的类与函数设置Hotfix标签。来标识需要支持热更的类和函数。第二步:生成函数连接器…

好视通视频会议系统存在任意文件读取漏洞复现 [附POC]

漏洞简介 好视通视频会议是由深圳市华视瑞通信息技术有限公司开发,其在国内率先推出了3G互联网视频会议,并成功应用于SAAS领域。 资产 FOFA:app"好视通-视频会议" POC GET /register/toDownload.do?fileName../../../../../../../../../.…

代码随想录-回溯算法

组合 //未剪枝 class Solution {List<List<Integer>> ans new ArrayList<>();Deque<Integer> path new LinkedList<>();public List<List<Integer>> combine(int n, int k) {backtracking(n, k, 1);return ans;}public void back…

MySql安全加固:可信IP地址访问控制 设置密码复杂度

MySql安全加固&#xff1a;可信IP地址访问控制 & 设置密码复杂度 1.1 可信IP地址访问控制1.2 设置密码复杂度 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 1.1 可信IP地址访问控制 当您在创建用户时使用’%作为主机部分&#xff0c;…

java数据结构与算法刷题-----LeetCode437. 路径总和 III(前缀和必须掌握)

java数据结构与算法刷题目录&#xff08;剑指Offer、LeetCode、ACM&#xff09;-----主目录-----持续更新(进不去说明我没写完)&#xff1a;https://blog.csdn.net/grd_java/article/details/123063846 文章目录 1. 深度优先2. 前缀和 1. 深度优先 解题思路&#xff1a;时间复…

kibana7.17.7 将数据导出csv文件

配置kibana文件 首先先配置kibana.yaml内容如下&#xff0c;这里假设我的服务器ip地址为192.168.130.128&#xff0c;elasticsearch的ip地址为&#xff1a;192.168.130.129:9200&#xff0c;192.168.130.130:9200&#xff1a; server.host: "192.168.130.128" serv…

Mac 以SH脚本安装Arthas

SH脚本安装Aethas curl -L https://alibaba.github.io/arthas/install.sh | sh安装脚本说明 示例源文件&#xff1a; #! /bin/bash# temp file of as.sh TEMP_ARTHAS_FILE"./as.sh.$$"# target file of as.sh TARGET_ARTHAS_FILE"./as.sh"# update timeo…

Android挖取原图手指触点区域RectF(并框线标记)放大到ImageView宽高与矩阵mapRadius,Kotlin

Android挖取原图手指触点区域RectF(并框线标记)放大到ImageView宽高与矩阵mapRadius&#xff0c;Kotlin 这里 Android挖取原图中心区域RectF(并框线标记)放大到ImageView宽高&#xff0c;Kotlin-CSDN博客 实现的是把原图中心区域的一片小图挖取出来放大放到下面的ImageView里面…

if语句用法

if语句是单条件分支语句 定义&#xff1a;根据一个条件来控制程序执行流程(如图3.2)。 语法格式&#xff1a; if&#xff08;表达式&#xff09;{ 若干语句 } ★注意★&#xff1a; ① 表达式的值必须是boolean 型&#xff1b; ② 不能用0代表false&#xff1b;用1代表 true&am…

德人合科技 | —数据泄露可能会对公司造成哪些影响?

数据泄露可能会对公司造成多方面的影响&#xff0c;以下是一些可能的影响&#xff1a; 财务损失&#xff1a;数据泄露可能导致公司遭受财务损失。攻击者可能会盗取公司的敏感信息&#xff0c;如客户信息、银行账户信息、商业机密等&#xff0c;并利用这些信息进行欺诈、盗窃等非…

本地maven库缓存导入私库

为了加速编译代码&#xff0c;想将本地maven缓存导入内网私库使用。 脚本网上搜的 #!/bin/bash # copy and run this script to the root of the repository directory containing files # this script attempts to exclude uploading itself explicitly so the script name …

高效备考2024年AMC10:吃透2000-2023年1250道AMC10真题

距离2024年AMC10的比赛只有8个月多一点的时间了&#xff0c;如何备考AMC10美国数学竞赛最有效&#xff1f;参加AMC10竞赛是否一定要参加机构的培训班&#xff1f;吃透历年真题是有效的自学、了解AMC10和备考策略之一。事实上&#xff0c;网络上有很多关于AMC10的学习资源&#…

Github 2024-03-02 开源项目日报Top9

根据Github Trendings的统计&#xff0c;今日(2024-03-02统计)共有9个项目上榜。根据开发语言中项目的数量&#xff0c;汇总情况如下&#xff1a; 开发语言项目数量非开发语言项目2Rust项目1JavaScript项目1Shell项目1C项目1TypeScript项目1C#项目1Python项目1 任天堂Switch模…

决定西弗吉尼亚州地区版图的关键历史事件

决定西弗吉尼亚州地区版图的关键历史事件&#xff1a; 1. 内部分裂与美国内战&#xff1a; - 在1861年美国内战爆发时&#xff0c;弗吉尼亚州作为南方邦联的一员宣布退出美利坚合众国。然而&#xff0c;弗吉尼亚州西部的一些县由于经济结构&#xff08;主要是农业非依赖奴隶制…

Redis 存储原理和数据模型

redis 是不是单线程 redis 单线程指的是命令处理在一个单线程中。主线程 redis-server&#xff1a;命令处理、网络事件的监听。 辅助线程 bio_close_file&#xff1a;异步关闭大文件。bio_aof_fsync&#xff1a;异步 aof 刷盘。bio_lazy_free&#xff1a;异步清理大块内存。io_…

一种基于三角剖分划分白区范围的白平衡算法

常规的白平衡算法中,一般会通过标准色温的R/G-B/G建议色温坐标系,然后在该坐标系中设定白区范围,对落入到白区范围的R/G/B进行加权统计处理,输出给到软件进行白平衡的增益计算。 所介绍的这篇专利利用三角剖分的算法,在划定的白区范围内,利用各个标准色温光源下所标定的白…

STM32------分析GPIO寄存器

一、初始LED原理图 共阴极led LED发光二极管&#xff0c;需要有电流通过才能点亮&#xff0c;当有电压差就会产生电流 二极管两端的电压差超过2.7v就会有电流通过 电阻的作用 由于公式IV/R 不加电阻容易造成瞬间电流无穷大 发光二极管工作电流为10-20MA 3.3v / 1kΩ 3.…

C#中什么是非托管代码?托管代码和非托管代码有什么区别

在C#中&#xff0c;托管代码和非托管代码是两种不同类型的代码&#xff0c;它们在内存管理和执行环境上有所不同。 托管代码&#xff08;Managed Code&#xff09;&#xff1a; 托管代码是由.NET运行时&#xff08;CLR&#xff0c;Common Language Runtime&#xff09;管理和执…

新能源汽车产业架构设计与实现:引领未来出行新风向

随着环保意识的增强和能源结构的转型&#xff0c;新能源汽车产业正迅速崛起成为汽车行业的新宠。构建一个完善的新能源汽车产业架构对于推动产业发展、提升竞争力至关重要。本文将从设计原则、关键技术、产业生态等方面&#xff0c;探讨如何设计与实现新能源汽车产业架构。 ##…

那些壁纸,不只是背景

1、方小童在线工具集 网址&#xff1a; 方小童 该网站是一款在线工具集合的网站&#xff0c;目前包含PDF文件在线转换、随机生成美女图片、精美壁纸、电子书搜索等功能&#xff0c;喜欢的可以赶紧去试试&#xff01;