Python 全栈体系【四阶】(十二)

第四章 机器学习

十五、朴素贝叶斯

朴素贝叶斯是一组功能强大且易于训练的分类器,它使用贝叶斯定理来确定给定一组条件的结果的概率,“朴素”的含义是指所给定的条件都能独立存在和发生。朴素贝叶斯是多用途分类器,能在很多不同的情景下找到它的应用,例如垃圾邮件过滤、自然语言处理等。

1. 概率

1.1 定义

概率是反映随机事件出现的可能性大小。随机事件是指在相同条件下,可能出现也可能不出现的事件。例如:

(1)抛一枚硬币,可能正面朝上,可能反面朝上,这是随机事件。正/反面朝上的可能性称为概率;

(2)掷骰子,掷出的点数为随机事件。每个点数出现的可能性称为概率;

(3)一批商品包含良品、次品,随机抽取一件,抽得良品/次品为随机事件。经过大量反复试验,抽得次品率越来越接近于某个常数,则该常数为概率。

我们可以将随机事件记为 A 或 B,则 P(A), P(B)表示事件 A 或 B 的概率。

1.2 联合概率与条件概率
1.2.1 联合概率

指包含多个条件且所有条件同时成立的概率,记作 P ( A , B ) P ( A , B ) P(A,B) ,或 P ( A B ) P(AB) P(AB),或 P ( A ⋂ B ) P(A \bigcap B) P(AB)

1.2.2 条件概率

已知事件 B 发生的条件下,另一个事件 A 发生的概率称为条件概率,记为: P ( A ∣ B ) P(A|B) P(AB) p(下雨|阴天)

1.2.3 事件的独立性

事件 A 不影响事件 B 的发生,称这两个事件独立,记为:

P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B)

因为 A 和 B 不相互影响,则有:

P ( A ∣ B ) = P ( A ) P(A|B) = P(A) P(AB)=P(A)

可以理解为,给定或不给定 B 的条件下,A 的概率都一样大。

1.3 先验概率与后验概率
1.3.1 先验概率

先验概率也是根据以往经验和分析得到的概率,例如:在没有任何信息前提的情况下,猜测对面来的陌生人姓氏,姓李的概率最大(因为全国李姓为占比最高的姓氏),这便是先验概率。

1.3.2 后验概率

后验概率是指在接收了一定条件或信息的情况下的修正概率,例如:在知道对面的人来自“牛家村”的情况下,猜测他姓牛的概率最大,但不排除姓杨、李等等,这便是后验概率。

1.3.3 两者的关系

事情还没有发生,求这件事情发生的可能性的大小,是先验概率(可以理解为由因求果)。事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小,是后验概率(由果求因)。先验概率与后验概率有不可分割的联系,后验概率的计算要以先验概率为基础。

2. 贝叶斯定理

2.1 定义

贝叶斯定理由英国数学家托马斯.贝叶斯 (Thomas Bayes)提出,用来描述两个条件概率之间的关系,定理描述为:

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A|B) = \frac{P(A)P(B|A)}{P(B)} P(AB)=P(B)P(A)P(BA)

其中, P ( A ) P(A) P(A) P ( B ) P(B) P(B)是 A 事件和 B 事件发生的概率。 P ( A ∣ B ) P(A|B) P(AB)称为条件概率,表示 B 事件发生条件下,A 事件发生的概率。推导过程:

P ( A , B ) = P ( B ) P ( A ∣ B ) P ( B , A ) = P ( A ) P ( B ∣ A ) P(A,B) =P(B)P(A|B)\\ P(B,A) =P(A)P(B|A) P(A,B)=P(B)P(AB)P(B,A)=P(A)P(BA)

其中 P ( A , B ) P(A,B) P(A,B)称为联合概率,指事件 B 发生的概率,乘以事件 A 在事件 B 发生的条件下发生的概率。因为 P ( A , B ) = P ( B , A ) P(A,B)=P(B,A) P(A,B)=P(B,A), 所以有:

P ( B ) P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P(B)P(A|B)=P(A)P(B|A) P(B)P(AB)=P(A)P(BA)

两边同时除以 P(B),则得到贝叶斯定理的表达式。其中, P ( A ) P(A) P(A)是先验概率, P ( A ∣ B ) P(A|B) P(AB)是已知 B 发生后 A 的条件概率,也被称作后验概率。

2.2 贝叶斯定理示例

【示例一】计算诈骗短信的概率

事件概率表达式
所有短信中,诈骗短信5%P(A)= 0.05
所有短信中,含有“中奖”两个字4%P(B)= 0.04
所有短信中,是诈骗短信,并且含有“中奖”两个字50%P(B|A) = 0.5

求:收到一条新信息,含有“中奖”两个字,是诈骗短信的概率?

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) / P ( B ) = 0.05 ∗ 0.5 / 0.04 = 0.625 P(A|B) = P(A) P(B|A) / P(B) = 0.05 * 0.5 / 0.04 = 0.625 P(AB)=P(A)P(BA)/P(B)=0.050.5/0.04=0.625

【示例二】计算喝酒驾车的概率

事件概率表达式
所有客人中,驾车20%P(A)= 0.2
所有客人中,喝酒10%P(B)= 0.1
所有客人中,开车并且喝酒5%P(B|A)= 0.05

求:喝过酒仍然会开车的人的比例是多少?

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) / P ( B ) = 0.2 ∗ 0.05 / 0.1 = 0.1 P(A|B) = P(A) P(B|A) / P(B) = 0.2 * 0.05 / 0.1 = 0.1 P(AB)=P(A)P(BA)/P(B)=0.20.05/0.1=0.1

【示例三】

假设一个学校中 60%的男生 和 40%的女生

女生穿裤子的人数和穿裙子的人数相等

所有的男生都穿裤子,一个人随机在远处眺望,看一个穿裤子的学生。

请问这个学生是女生的概率:

p(女) = 0.4

p(裤子|女) = 0.5

p(裤子) = 0.8

P(女|裤子) = 0.4 * 0.5 / 0.8 = 0.25

P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A|B) = \frac{P(A)P(B|A)}{P(B)} P(AB)=P(B)P(A)P(BA)

3. 朴素贝叶斯分类器

3.1 分类原理

朴素贝叶斯分类器就是根据贝叶斯公式计算结果进行分类的模型,“朴素”指事件之间相互独立无影响。例如:有如下数据集:

TextCategory
A great game(一个伟大的比赛)Sports(体育运动)
The election was over(选举结束)Not sports(不是体育运动)
Very clean match(没内幕的比赛)Sports(体育运动)
A clean but forgettable game(一场难以忘记的比赛)Sports(体育运动)
It was a close election(这是一场势均力敌的选举)Not sports(不是体育运动)

求:”A very close game“ 是体育运动的概率?数学上表示为 P(Sports | a very close game)​。根据贝叶斯定理,是运动的概率可以表示为:

P ( S p o r t s ∣ a v e r y c l o s e g a m e ) = P ( a v e r y c l o s e g a m e ∣ s p o r t s ) ∗ P ( s p o r t s ) P ( a v e r y c l o s e g a m e ) P(Sports | a \ very \ close \ game) = \frac{P(a \ very \ close \ game | sports) * P(sports)}{P(a \ very \ close \ game)} P(Sportsa very close game)=P(a very close game)P(a very close gamesports)P(sports)

不是运动概率可以表示为:

P ( N o t S p o r t s ∣ a v e r y c l o s e g a m e ) = P ( a v e r y c l o s e g a m e ∣ N o t s p o r t s ) ∗ P ( N o t s p o r t s ) P ( a v e r y c l o s e g a m e ) P(Not \ Sports | a \ very \ close \ game) = \frac{P(a \ very \ close \ game | Not \ sports) * P(Not \ sports)}{P(a \ very \ close \ game)} P(Not Sportsa very close game)=P(a very close game)P(a very close gameNot sports)P(Not sports)

概率更大者即为分类结果。由于分母相同,即比较分子谁更大即可。我们只需统计”A very close game“ 多少次出现在 Sports 类别中,就可以计算出上述两个概率。但是”A very close game“ 并没有出现在数据集中,所以这个概率为 0,要解决这个问题,就假设每个句子的单词出现都与其它单词无关(事件独立即朴素的含义),所以,P(a very close game)可以写成:

P ( a v e r y c l o s e g a m e ) = P ( a ) ∗ P ( v e r y ) ∗ P ( c l o s e ) ∗ P ( g a m e ) P(a \ very \ close \ game) = P(a) * P(very) * P(close) * P(game) P(a very close game)=P(a)P(very)P(close)P(game)

P ( a v e r y c l o s e g a m e ∣ S p o r t s ) = P ( a ∣ S p o r t s ) ∗ P ( v e r y ∣ S p o r t s ) ∗ P ( c l o s e ∣ S p o r t s ) ∗ P ( g a m e ∣ S p o r t s ) P(a \ very \ close \ game|Sports)= \\ P(a|Sports)*P(very|Sports)*P(close|Sports)*P(game|Sports) Pa very close gameSports)=P(aSports)P(verySports)P(closeSports)P(gameSports)

统计出“a", “very”, “close”, "game"出现在"Sports"类别中的概率,就能算出其所属的类别。

具体计算过程如下:

  • 第一步:计算总词频:Sports 类别词语总数 11,Not Sports 类别词语总数 9

  • 第二步:计算每个类别的先验概率

    # Sports和Not Sports概率
    P(Sports) = 3 / 5 = 0.6
    P(Not Sports) = 2 / 5 = 0.4# Sports条件下各个词语概率
    P(a | Sports) = (2 + 1) / (11 + 14) = 0.12
    P(very | Sports) = (1 + 1) / (11 + 14) = 0.08
    P(close | Sports) = (0 + 1) / (11 + 14) = 0.04
    P(game | Sports) = (2 + 1) / (11 + 14) = 0.12# Not Sports条件下各个词语概率
    P(a | Not Sports) = (1 + 1) / (9 + 14) = 0.087
    P(very | Not Sports) = (0 + 1) / (9 + 14) = 0.043
    P(close | Not Sports) = (1 + 1) / (9 + 14) =  = 0.087
    P(game | Not Sports) = (0 + 1) / (9 + 14) = 0.043
    

    其中,分子部分加 1,是为了避免分子为 0 的情况;分母部分都加了词语总数 14,是为了避免分子增大的情况下计算结果超过 1 的可能。

  • 第三步:将先验概率带入贝叶斯定理,计算概率:

    • 是体育运动的概率:

      P ( a v e r y c l o s e g a m e ∣ S p o r t s ) = P ( a ∣ S p o r t s ) ∗ P ( v e r y ∣ S p o r t s ) ∗ P ( c l o s e ∣ S p o r t s ) ∗ P ( g a m e ∣ S p o r t s ) = 0.12 ∗ 0.08 ∗ 0.04 ∗ 0.12 = 0.00004608 P(a \ very \ close \ game|Sports)= \\ P(a|Sports)*P(very|Sports)*P(close|Sports)*P(game|Sports)= \\ 0.12 * 0.08 * 0.04 * 0.12 = 0.00004608 Pa very close gameSports)=P(aSports)P(verySports)P(closeSports)P(gameSports)=0.120.080.040.12=0.00004608

      • 不是体育运动的概率:

    P ( a v e r y c l o s e g a m e ∣ N o t S p o r t s ) = P ( a ∣ N o t S p o r t s ) ∗ P ( v e r y ∣ N o t S p o r t s ) ∗ P ( c l o s e ∣ N o t S p o r t s ) ∗ P ( g a m e ∣ N o t S p o r t s ) = 0.087 ∗ 0.043 ∗ 0.087 ∗ 0.043 = 0.000013996 P(a \ very \ close \ game|Not \ Sports)= \\ P(a|Not \ Sports)*P(very|Not \ Sports)*P(close|Not \ Sports)*P(game|Not \ Sports)= \\ 0.087 * 0.043 * 0.087 * 0.043 = 0.000013996 Pa very close gameNot Sports)=P(aNot Sports)P(veryNot Sports)P(closeNot Sports)P(gameNot Sports)=0.0870.0430.0870.043=0.000013996

    • 分类结果:P(Sports) = 0.00004608 , P(Not Sports) = 0.000013996, 是体育运动。
3.2 实现朴素贝叶斯分类器

在 sklearn 中,提供了三个朴素贝叶斯分类器,分别是:

  • GaussianNB(高斯朴素贝叶斯分类器):适合用于样本的值是连续的,数据呈正态分布的情况(比如人的身高、城市家庭收入、一次考试的成绩等等)
  • MultinominalNB(多项式朴素贝叶斯分类器):适合用于大部分属性为离散值的数据集
  • BernoulliNB(伯努利朴素贝叶斯分类器):适合用于特征值为二元离散值或是稀疏的多元离散值的数据集

该示例中,样本的值为连续值,且呈正态分布,所以采用 GaussianNB 模型。代码如下:

# 朴素贝叶斯分类示例
import numpy as np
import sklearn.naive_bayes as nb
import matplotlib.pyplot as mp# 输入,输出
x, y = [], []# 读取数据文件
with open("../data/multiple1.txt", "r") as f:for line in f.readlines():data = [float(substr) for substr in line.split(",")]x.append(data[:-1])  # 输入样本:取从第一列到倒数第二列y.append(data[-1])  # 输出样本:取最后一列x = np.array(x)
y = np.array(y, dtype=int)# 创建高斯朴素贝叶斯分类器对象
model = nb.GaussianNB()
model.fit(x, y)  # 训练# 计算显示范围
left = x[:, 0].min() - 1
right = x[:, 0].max() + 1buttom = x[:, 1].min() - 1
top = x[:, 1].max() + 1grid_x, grid_y = np.meshgrid(np.arange(left, right, 0.01),np.arange(buttom, top, 0.01))mesh_x = np.column_stack((grid_x.ravel(), grid_y.ravel()))
mesh_z = model.predict(mesh_x)
mesh_z = mesh_z.reshape(grid_x.shape)mp.figure('Naive Bayes Classification', facecolor='lightgray')
mp.title('Naive Bayes Classification', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x, grid_y, mesh_z, cmap='gray')
mp.scatter(x[:, 0], x[:, 1], c=y, cmap='brg', s=80)
mp.show()

执行结果:

在这里插入图片描述

4. 总结

4.1 什么是朴素贝叶斯

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。“朴素”的含义为:假设问题的特征变量都是相互独立地作用于决策变量的,即问题的特征之间都是互不相关的。

4.2 朴素贝叶斯分类的特点
4.2.1 优点
  • 逻辑性简单
  • 算法较为稳定。当数据呈现不同的特点时,朴素贝叶斯的分类性能不会有太大的差异。
  • 当样本特征之间的关系相对比较独立时,朴素贝叶斯分类算法会有较好的效果。
4.2.2 缺点
  • 特征的独立性在很多情况下是很难满足的,因为样本特征之间往往都存在着相互关联,如果在分类过程中出现这种问题,会导致分类的效果大大降低。
4.3 什么情况下使用朴素贝叶斯

根据先验概率计算后验概率的情况,且样本特征之间独立性较强。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/616685.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

完整的模型验证套路

读取图片 from PIL import Imageimg_path "../Yennefer_of_Vengerberg.jpg" image Image.open(img_path) print(image)转换成灰度图(可选) image image.convert(L) image.show()转换成RGB格式 image image.convert(RGB)因为png格式是四…

基础数据结构之堆栈

堆栈的定义、入栈、出栈、查询栈顶 #include <stdio.h> #include <stdlib.h>typedef int DataType;// 定义栈节点结构体 struct StackNode;struct StackNode {DataType data; // 节点数据struct StackNode* next; // 指向下一个节点的指针 };// 定…

SpringMVC ResponseEntity常见使用场景

ResponseEntity 作为 Spring MVC controller层 的 HTTP response&#xff0c;包含 status code, headers, body 这三部分。 正常场景 RestController Slf4j public class SearchController {AutowiredUserService userService;RequestMapping(value "/getAllStudents4&…

Mixtral 8X7B MoE模型基于PAI的微调部署实践

作者&#xff1a;熊兮、求伯、一耘 引言 Mixtral 8x7B 是Mixtral AI最新发布的大语言模型&#xff0c;在许多基准测试上表现优于 GPT-3.5&#xff0c;是当前最为先进的开源大语言模型之一。阿里云人工智能平台PAI是面向开发者和企业的机器学习/深度学习平台&#xff0c;提供了…

FAST OS DOCKER 可视化Docker管理工具

介绍 FAST OS DOCKER 界面直观、简洁&#xff0c;非常适合新手使用&#xff0c;方便大家轻松上手 docker部署运行各类有趣的容器应用&#xff0c;同时 FAST OS DOCKER 为防止服务器负载过高&#xff0c;进行了底层性能优化&#xff1b;其以服务器安全为基础&#xff0c;对其进…

基于springboot+vue药店管理系统

摘要 药店管理系统的设计和应用在当前社会背景下具有巨大的实际意义和社会价值。随着医药行业的不断发展和社会健康水平的提高&#xff0c;药店作为医疗服务的一部分&#xff0c;其管理方式也需要不断创新与优化。该系统的研究不仅关系到单一药店的运营效率&#xff0c;更涉及到…

HBuilder/HBuilderX 运行APP

安装adb https://developer.android.com/tools/releases/platform-tools?hlzh-cn 配置环境变量 测试是否配置成功 adb version HBuilder/HBuilderX 配置路径 数据线连接手机 运行即可 未检测到设备排查 真机运行常见问题run | uni-app官网

多维时序 | Matlab实现GRO-CNN-LSTM-Attention淘金算法优化卷积神经网络-长短期记忆网络结合注意力机制多变量时间序列预测

多维时序 | Matlab实现GRO-CNN-LSTM-Attention淘金算法优化卷积神经网络-长短期记忆网络结合注意力机制多变量时间序列预测 目录 多维时序 | Matlab实现GRO-CNN-LSTM-Attention淘金算法优化卷积神经网络-长短期记忆网络结合注意力机制多变量时间序列预测效果一览基本介绍程序设…

Openstack组件glance对接swift

2、glance对接swift &#xff08;1&#xff09;可直接在数据库中查看镜像存放的位置、状态、id等信息 &#xff08;2&#xff09;修改glance-api的配置文件&#xff0c;实现对接swift存储&#xff08;配置文件在/etc/glance/glance-api.conf&#xff0c;建议先拷贝一份&#x…

每日一题——LeetCode1103.分糖果 ||

方法一 个人方法&#xff1a; 有多少人就创建多大的数组并把数组的所有元素初始化为0&#xff0c;只要还有糖果&#xff0c;就循环给数组从头到尾添加糖果&#xff0c;每次分的糖果数递增1&#xff0c;最后可能刚好分完也可能不够&#xff0c;不够就还剩多少给多少。 var dis…

麒麟操作系统缓存rpm包,制作离线yum源

缓存rpm包&#xff0c;以make为例 mkdir -p /data/yum yumdownloader --resolve --destdir/data/yum make制作离线yum包 yum install createrepo -y cd /data/yum createrepo .写yum配置文件/etc/yum.repos.d/local.repo [local-repo] namelocal-repo baseurlfile:///data/…

x-cmd pkg | pypinyi - 汉字拼音转换工具

目录 简介首次用户功能特点相关工具进一步探索 简介 pypinyin 是一个汉字拼音转换工具&#xff0c;支持多种词库&#xff0c;多种输出格式&#xff0c;支持自定义词组拼音库或单字拼音库。 首次用户 使用 x env use pypinyin 即可自动下载并使用 在终端运行 eval "$(cur…

freemarker导出word文件实现动态列合并

程序员的公众号&#xff1a;源1024&#xff0c;获取更多资料&#xff0c;无加密无套路&#xff01; 最近整理了一份大厂面试资料《史上最全大厂面试题》&#xff0c;Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 …

如何在Linux部署OpenGauss数据管理系统并实现固定公网地址访问

文章目录 前言1. Linux 安装 openGauss2. Linux 安装cpolar3. 创建openGauss主节点端口号公网地址4. 远程连接openGauss5. 固定连接TCP公网地址6. 固定地址连接测试 前言 openGauss是一款开源关系型数据库管理系统&#xff0c;采用木兰宽松许可证v2发行。openGauss内核深度融合…

Visual Studio中项目添加链接文件

这个需求在VS里面使用还真不多见&#xff0c;只是最近在做项目的版本编号的时候遇到一个头大的问题&#xff0c;我一个解决方案下面有几十个类库&#xff0c;再发布的时候这几十个类库的版本号必须要统一&#xff0c;之前我们都是在单个的AssemblyInfo.cs里面去改相关的信息&am…

flask框架基本使用

一、使用pycharm创建项目 1.创建项目 2.调整默认终端 3.打开虚拟终端 打开终端可以看出使用的是p1的虚拟机终端了 4.pyCharm小技巧 在flask种输入一个完整并且存在的函数名称或者类明&#xff0c; 然后 Alt 回车&#xff0c;pycharm可以自动导包&#xff0c;不用在手动在代…

Go并发快速入门:Goroutine

Go并发&#xff1a;Goroutine 1.并发基础概念&#xff1a;进程、线程、协程 (1) 进程 可以比作食材加工的一系列动作 进程就是程序在操作系统中的一次执行过程&#xff0c;是由系统进行资源分配和调度的基本单位&#xff0c;进程是一个动态概念&#xff0c;是程序在执行过程…

jmeter--3.使用提取器进行接口关联

目录 1. 正则表达式提取器 1.1 提取单个数据 1.2 名词解释 1.3 提取多个数据 2. 边界值提取器 2.2 名词解释 3. JSON提取器 3.1 Json语法 3.2 名词解释 3.3 如果有多组数据&#xff0c;同正则方式引用数据 1. 正则表达式提取器 示例数据&#xff1a;{"access_to…

C语言指针相关知识(初阶)

目录 指针是什么 指针变量的大小 指针和指针类型 指针类型的意义 野指针 指针运算 指针-整数 指针-指针 指针的关系运算 指针和数组 二级指针 二级指针定义 指针数组 指针数组的定义 指针是什么 如下图所示&#xff08;右侧编号为内存地址&#xff09;&#xff1…

C++多线程学习[二]:线程的传参以及传参的一些坑

一、线程的传参 #include<iostream> #include<thread> #include<string> using namespace std; void threadtest(int a,double b,string str) {this_thread::sleep_for(100ms);cout << a << " " << b << " " &…