朴素贝叶斯分类算法

1.分类算法

分类算法是有监督学习的一个核心问题,他从数据中学习一个分类决策函数或分类模型,对新的输入进行预测,输出变量取有限个离散值。

🌍分类算法的内容是要求给定特征,让我们得出类别。

那么如何由指定特征,得到我们最终的类别呢,每一个不同的分类算法,对应着不同的核心思想。

以下是一些常见的分类算法:

  1. 逻辑回归 (Logistic Regression):

    用于二分类问题,通过逻辑函数将输入映射到0和1之间的概率。
  2. K近邻算法 (K-Nearest Neighbors, KNN):

    基于输入数据点在特征空间中的邻近程度,将其分为最接近的K个邻居的多数类别。
  3. 决策树 (Decision Trees):

    基于对输入数据进行递归分割,以最小化混淆或不确定性,从而创建树状结构来进行分类。
  4. 随机森林 (Random Forest):

    通过集成多个决策树,每个树的投票决定最终的分类结果,提高模型的鲁棒性和泛化能力。
  5. 支持向量机 (Support Vector Machines, SVM):

    构建一个超平面,最大化两个类别之间的间隔,用于二分类和多分类问题。
  6. 朴素贝叶斯 (Naive Bayes):

    基于贝叶斯定理,假设输入特征之间是相互独立的,通过计算后验概率进行分类。
  7. 神经网络 (Neural Networks):

    通过多个神经元和层的组合,学习非线性关系,适用于复杂的问题和大规模数据。
  8. 梯度提升机 (Gradient Boosting Machines):

    通过逐步构建多个弱分类器(通常是决策树),每个都纠正前一个的错误,从而提高整体模型性能。
  9. Adaboost (Adaptive Boosting):

    类似于梯度提升,但是每个弱分类器的权重是根据前一个分类器的性能来调整的。
  10. XGBoost (Extreme Gradient Boosting):

    是一种梯度提升算法的变种,通过更加高效的实现和正则化技术,提高了性能。

选择合适的分类算法通常取决于数据的性质、问题的复杂程度以及模型的性能要求。在实际应用中,往往需要尝试多种算法,并通过交叉验证等技术来评估它们的性能。


朴素贝叶斯

 1.数学基础

先验概率(Prior Probability)

  • 先验概率是在考虑任何新观测数据之前,基于先前的知识或信仰,对事件发生的概率的初始估计。这是对事件的主观先验信仰或经验的量化体现。

  • 记作 P(A),表示事件 A 在考虑新的观测数据之前的概率。先验概率可以基于领域专家的经验、历史数据或任何相关信息。

🌍先验概率,就是由以往的数据分析所得。

后验概率(Posterior Probability)

  • 在观测到新数据之后,通过贝叶斯定理计算得到的更新概率,即在考虑了先验概率的基础上,考虑新的观测数据后事件发生的概率。

  • 记作 P(A|B),表示在给定观测数据 B 的情况下,事件 A 发生的概率。这是基于新的数据调整过的概率。

🌍后验概率,在得到信息之后重新加以修正得到的概率。

2.叶斯决策论

2.1 贝叶斯定理

其中:

  • P(A∣B) 是后验概率,表示在给定观测到 B 的情况下,事件 A 发生的概率。
  • P(B∣A) 是似然度,表示在事件 A 发生的情况下观测到 B 的概率。
  • P(A) 是先验概率,表示在考虑观测数据 B 之前事件 A 发生的概率。
  • P(B) 是边缘似然度,表示观测到数据 B 的概率。
  1. 先验概率 P(A): 在考虑观测到任何新数据 B 之前,我们对事件 A 的初始信仰,即在没有新证据的情况下,事件 A 发生的概率。

  2. 似然度 P(B∣A): 在事件 A 发生的条件下,观测到数据 B 的概率。这描述了事件 A 对观测数据 B 的影响。

  3. 边缘似然度 P(B): 观测到数据 B 的概率,考虑所有可能的事件。它是一个归一化因子,确保后验概率 P(A∣B) 在所有可能的事件 A 下加和为1。

  4. 后验概率 P(A∣B): 在观测到数据 B 之后,事件 A 发生的概率。这是通过将先验概率与新的证据(似然度)结合起来得到的。

2.2 贝叶斯决策论

【贝叶斯决策论】:是一种基于贝叶斯统计学的决策方法,它通过考虑先验概率、似然度以及决策损失来做出最优决策。这种方法可以应用于各种决策问题,包括分类、回归和其他决策场景。

通俗理解:

【贝叶斯决策】 在贝叶斯决策理论中,我们希望选择那个最小化总体期望损失的决策。决策损失的期望值通过对所有可能状态的加权平均来计算,其中权重是先验概率。

🌍我们的任务是寻找一个判定标准,以最小化总体期望损失。 

决策过程:

  1. 计算后验概率: 使用贝叶斯定理计算在给定观测数据的情况下,每个可能状态的后验概率。

  2. 计算期望损失: 对于每种可能的决策,计算总体期望损失。

  3. 选择最小化期望损失的决策: 选择那个使期望损失最小的决策,即选择总体期望损失最小的决策。


专业解释:

贝叶斯决策论(Bayesian decision theory)是在概率框架下实施决策的基本方法。

在分类问题情况下,在所有相关概率都已知的理想情形下,贝叶斯决策考虑如何基于这些概率和误判损失来选择最优的类别标记。 

【解读】: 

N种可能的类别标记,分别为 c_1,c_2,...c_N

\lambda _{ij}是将一个样本分错类后产生的损失。

一个事件为将真实标记为c_j的样本误分类为c_i,它的总体期望损失是R(c_i|X)=【如上那堆式子】

(其实也就是这个事件发生的概率 x 这个事件的损失值)

🌍我们的任务是寻找一个判定准则 h 来使总体期望损失最小。

【解读】:

 对每个样本而言,如果判定准则h能够使这个样本的条件风险最小化,则总体风险也将被最小化。

然后就有了贝叶斯判定准则,也就是 在每个样本上选择使条件风险最小的类别样本 标记。

 【解读】:

首先是损失\lambda _{ij}的计算:如果i=j,则损失记为0,否则损失记为1。

然是条件风险的计算,

2.3 应用

贝叶斯公式:

扩展如下:

用下面这个例子来解释:

一对男女朋友,男生向女生求婚,男生的五个特点分别是不帅,不高,没有上进心,性格不好,家境贫寒,请你判断一下女生是嫁还是不嫁?

这是一个典型的分类问题,转为数学问题就是比较p(嫁|(不帅,不高,没有上进心,性格不好,家境贫寒))与p(不嫁|(不帅,不高,没有上进心,性格不好,家境贫寒))的概率,谁的概率大,我们就能给出嫁或者不嫁的答案!

这里我们联系朴素贝叶斯公式:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/650030.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++】入门基础

前言:C是在C的基础之上,容纳进去了面向对象编程思想,并增加了许多有用的库,以及编程范式等。熟悉C语言之后,对C学习有一定的帮助,因此从今天开始们将进入C的学习。 💖 博主CSDN主页:…

如何阅读xml电子发票

xml电子发票是官方给出的电子存档的文件格式,本质是文本,所以文件很小,大量发票存储,能够更加凸显优势。 但是xml电子发票不方便阅读,因为里面是xml格式,对于财务人员来讲,看“代码”简直太难了…

Linux报 “no route to host” 异常 ping: sendmsg: No route to host

公司有台服务器迁移机房后跟另一台服务器相互ping不通,但是两台服务器都能上网能ping其他机器,其他机器都能ping通这两台服务器。检查两台服务器没有防火墙规则拦截,交换机上也没检查到acl过滤。 下图是迁移机房的服务器ping截图 下图是nfs服…

【云原生】认识docker容器操作命令

目录 一、容器操作命令 1、创建容器 2、删除容器以及停止容器运行 3、查看容器的运行状态 4、查看容器的详细信息 5、将容器的文件传输到宿主机以及将宿主机的文件传输到容器中 6、批量删除容器 7、进入容器 二、容器的迁移 1、先在容器中创建测试文件 2、将容器存储…

Scrum敏捷研发管理全流程/scrum管理工具

Leangoo领歌是一款永久免费的专业的敏捷开发管理工具,提供端到端敏捷研发管理解决方案,涵盖敏捷需求管理、任务协同、进展跟踪、统计度量等。 Leangoo领歌上手快、实施成本低,可帮助企业快速落地敏捷,提质增效、缩短周期、加速创新…

【详解】贪吃蛇游戏----上篇(介绍控制台和API等知识)

目录 知识点: Win32 API 宽字符的打印 控制台操作: (1)调整控制台大小 (2)控制台屏幕上的坐标COORD GetStdHandle GetConsoleCursorInfo CONSOLE_CURSOR_INFO SetConsoleCursorInfo SetConsoleC…

Cesium工具应用

文章目录 0.引言1.场景截图2.卷帘对比3.反选遮罩4.鹰眼视图5.指南针与比例尺6.坐标测量7.距离测量8.面积测量9.热力图10.视频投影11.日照分析12.淹没分析13.通视分析14.可视域分析15.缓冲区分析16.地形开挖17.要素聚合18.开启地下模式19.开启等高线20.坡度坡向21.填挖方量计算2…

排序(插入排序)

现在,我们学习了之前数据结构的部分内容,即将进入一个重要的领域:排序,这是一个看起来简单,但是想要理清其中逻辑并不简单的内容,让我们一起加油把! 排序的概念及其运用 排序的概念 排序&…

解释性人工智能(XAI)—— AI 决策的透明之道

在当今数字化时代,人工智能(AI)已经成为我们生活中不可或缺的一部分。AI 系统的决策和行为对我们的生活产生了深远的影响,从医疗保健到金融服务再到自动驾驶汽车。 然而,有时候 AI 的决策似乎像黑盒子一样难以理解&am…

[C#]winform部署yolov5实例分割模型onnx

【官方框架地址】 https://github.com/ultralytics/yolov5 【算法介绍】 YOLOv5实例分割是目标检测算法的一个变种,主要用于识别和分割图像中的多个物体。它是在YOLOv5的基础上,通过添加一个实例分割模块来实现的。 在实例分割中,算法不仅…

Redis2-事务 连接Java 整合springboot 注解缓存

一、订阅和发布 Redis 发布订阅 (pub/sub) 是一种消息通信模式:发送者 (pub) 发送消息,订阅者 (sub) 接收消息。 Redis 客户端可以订阅任意数量的频道。 Redis的发布和订阅 客户端订阅频道发布的消息 频道发布消息 订阅者就可以收到消息 发布订阅的代…

ENVI下基于知识决策树提取地表覆盖信息

基于知识的决策树分类是基于遥感影像数据及其他空间数据,通过专家经验总结、简单的数学统计和归纳方法等,获得分类规则并进行遥感分类。分类规则易于理解,分类过程也符合人的认知过程,最大的特点是利用的多源数据。 决策树分类主要的工作是获取规则,本文介绍使用CART算法…

NQA测试机制—UDP Jitter测试

概念 UDP Jitter是以UDP报文为承载,通过记录在报文中的时间戳信息来统计时延、抖动、丢包的一种测试方法。Jitter(抖动时间)是指相邻两个报文的接收时间间隔减去这两个报文的发送时间间隔。 UDP Jitter测试的过程如下: 1. 源端&a…

shell编程之循环语句与函数

一 echo命令 echo -n 表示不换行输出 echo -e 表示输出转义符 常用的转义符 二 date date查看当前系统时间 -d 你描述的日期,显示指定字符串所描述的时间,而非当前时间 %F 完整日期格式,等价于 %Y-%m-%d % T 时间(24小时…

1.26学习总结

连通性判断 DFS连通性判断步骤: 1.从图上任意一点u开始遍历,标记u已经走过 2.递归u的所有符合连通条件的邻居点 3.递归结束,找到了的所有与u的连通点,就是一个连通块 4.然后重复这个步骤找到所有的连通块 BFS连通性判断步骤…

linux 查看zookeeper server运行版本号

zookeeper版本查看运行命令:echo stat|nc localhost 2181 显示如下图所示: Zookeeper version: 3.4.5-cdh6.3.2--1, built on 11/08/2019 13:15 GMT Clients: /127.0.0.1:44814[0](queued0,recved1,sent0) Latency min/avg/max: 0/0/0 Received: 9 Se…

防火墙的NAT

目录 1. NAT 概念解析 2. 配置NAT策略: 1. NAT 概念解析 静态NAT --- 一对一 动态NAT --- 多对多 NAPT --- 一对多的NAPT --- easy ip --- 多对多的NAPT 服务器映射 源NAT --- 基于源IP地址进行转换。我们之前接过的静态NAT,动态NAT,NAPT都属…

*【艺恩娱数】Python爬虫+数据分析可视化中国影院票房*¶

文章目录 一、记得登入才能看到所有的数据二、使用步骤艺恩数据可视化艺恩影院票房Top10艺恩影院票房销售额对比艺恩影院票房省份人次分析艺恩影院场次top10榜单 这个里面的影院名称,省份,城市,票房,场次,人次&#xf…

ESXI 本地和虚拟机之间可以自由复制和粘贴

文章目录 ESXI 本地和虚拟机之间可以自由复制和粘贴 ESXI 本地和虚拟机之间可以自由复制和粘贴 web访问esxi,然后: 1、右击新建的虚拟机,确保是在关机状态下,点击编辑设置 2. 找到 虚拟机选项→高级→常规→配置参数 3、点击添加…

Unity3d C#实现三维场景中图标根据相机距离动态缩放功能

前言 如题的需求,其实可以通过使用UI替代场景中的图标来实现,不过这样UI的处理稍微麻烦,而且需要在图标上添加粒子特效使用SpriteRender更方便快捷。这里就根据相机离图标的位置来计算图标的缩放大小即可。这样基本保持了图标的大小&#xf…