机器学习 | 贝叶斯方法

        不同于KNN最近邻算法的空间思维,线性算法的线性思维,决策树算法的树状思维,神经网络的网状思维,SVM的升维思维。

        贝叶斯方法强调的是 先后的因果思维。

        监督式模型分为判别式模型和生成式模型。

        

        判别模型和生成模型的区别:

                判别式模型:输入一个特征X可以直接得到一个y。

                生成式模型:上来先学习一个联合概率分布 p(x,y),

                                        再用他根据贝叶斯法则求条件概率密度分布。

                                        —— 没有决策边界的存在

        判别式数据对于数据分布特别复杂的情况,比如文本图像视频;

        而生成式模型对于数据有部分特征缺失的情况下效果更好,

        而且更容易添加数据的先验知识 p(x)

        


1、核心思想和原理

贝叶斯公式

        建立了四个概率分布之间的关系,已知变量 X 和 未知变量(模型参数)w 之间的计算关系

        假定 X 表示数据,W 表示模型的参数

        Likelihood翻译成可能性或者是似然函数,最大似然估计指的就是这个

        

        以下图中 s 表示状态, o 表示观测。

        

参数估计

        1、最大似然估计 MLE

        2、最大后验估计 MAP

        3、贝叶斯估计


2、朴素贝叶斯分类

        我们知道分类问题是 给定特征 X,输出分类标记 y

        

        那么朴素贝叶斯方法是如何由指定特征得到分类类别的呢?

        2.1、举个栗子

                 

                能不能直接根据这些经验(上面的数据),来判断一个境外人员有没有得新冠呢?

                —— 转换为数学语言即

                

                比较难求的显然就是 Likelihood,所以朴素贝叶斯假设特征之间相互独立。

                

                根据中心极限定理,频率就等于概率,虽然这里数据没有那么多,也一样可以这么算

                

                


2.2、朴素贝叶斯分类及其代码实现

  • 逻辑简单,易于实现
  • 效率高,时空开销小
  • 条件独立假设不成立则分类效果一般
  • 适用于特征相关性较小时

 代码实现:

import numpy as np
X = [[1,0,0,1],[0,1,0,0],[1,1,0,0],[0,1,2,0],[1,0,0,0],[1,0,0,0],[1,1,2,1],[0,1,1,0],[1,1,1,0],[0,0,2,0],[1,1,0,1],[1,1,0,1]]y = [0,0,1,1,0,0,1,1,1,1,0,0]t=[[0,0,0,1]]
from sklearn.naive_bayes import BernoulliNB
bnb = BernoulliNB()
bnb.fit(X,y)
bnb.predict_proba(t)
array([[0.875, 0.125]])


2,3、朴素贝叶斯家族

         

2.3.1、伯努利朴素贝叶斯与多项式朴素贝叶斯

        伯努利分布(两点分布、0-1分布)

                属于离散型概率分布

                伯努利分布公式:

                        

                伯努利实验 —— 例如抛硬币。

        二项式分布和多项式分布

                二项式分布:伯努利实验重复n次。

                n = 1的二项式分布就是伯努利分布。

                多项式分布:抛硬币改为掷骰子。

        伯努利朴素贝叶斯:每个特征都服从伯努利分布的一种贝叶斯分类器

                适用于二分类离散变量。

                特征的条件概率服从伯努利分布:

                        

                        xi 表示第 i 哥特征维度,y 表示观测道德类别。

                特征可选值大于两个时可用多项式分布。

                

2.3.2、 高斯朴素贝叶斯

        


2.4、分类器效果对比

from sklearn.datasets import load_irisiris = load_iris()
X = iris.data
y = iris.target
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=0)
from sklearn.naive_bayes import BernoulliNB
nb = BernoulliNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.23684210526315788
print(iris.DESCR)
.. _iris_dataset:Iris plants dataset
--------------------**Data Set Characteristics:**:Number of Instances: 150 (50 in each of three classes):Number of Attributes: 4 numeric, predictive attributes and the class:Attribute Information:- sepal length in cm- sepal width in cm- petal length in cm- petal width in cm- class:- Iris-Setosa- Iris-Versicolour- Iris-Virginica:Summary Statistics:============== ==== ==== ======= ===== ====================Min  Max   Mean    SD   Class Correlation============== ==== ==== ======= ===== ====================sepal length:   4.3  7.9   5.84   0.83    0.7826sepal width:    2.0  4.4   3.05   0.43   -0.4194petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)============== ==== ==== ======= ===== ====================:Missing Attribute Values: None:Class Distribution: 33.3% for each of 3 classes.:Creator: R.A. Fisher:Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov):Date: July, 1988The famous Iris database, first used by Sir R.A. Fisher. The dataset is taken
from Fisher's paper. Note that it's the same as in R, but not as in the UCI
Machine Learning Repository, which has two wrong data points.This is perhaps the best known database to be found in the
pattern recognition literature.  Fisher's paper is a classic in the field and
is referenced frequently to this day.  (See Duda & Hart, for example.)  The
data set contains 3 classes of 50 instances each, where each class refers to a
type of iris plant.  One class is linearly separable from the other 2; the
latter are NOT linearly separable from each other... topic:: References- Fisher, R.A. "The use of multiple measurements in taxonomic problems"Annual Eugenics, 7, Part II, 179-188 (1936); also in "Contributions toMathematical Statistics" (John Wiley, NY, 1950).- Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis.(Q327.D83) John Wiley & Sons.  ISBN 0-471-22361-1.  See page 218.- Dasarathy, B.V. (1980) "Nosing Around the Neighborhood: A New SystemStructure and Classification Rule for Recognition in Partially ExposedEnvironments".  IEEE Transactions on Pattern Analysis and MachineIntelligence, Vol. PAMI-2, No. 1, 67-71.- Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule".  IEEE Transactionson Information Theory, May 1972, 431-433.- See also: 1988 MLC Proceedings, 54-64.  Cheeseman et al"s AUTOCLASS IIconceptual clustering system finds 3 classes in the data.- Many, many more ...
from sklearn.naive_bayes import GaussianNB
nb = GaussianNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
1.0
from sklearn.naive_bayes import CategoricalNB
nb = CategoricalNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.8947368421052632
from sklearn.naive_bayes import MultinomialNB
nb = MultinomialNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.5789473684210527
from sklearn.naive_bayes import ComplementNB
nb = ComplementNB()
nb.fit(X_train, y_train)
nb.score(X_test, y_test)
0.5789473684210527


2.5、多项式朴素贝叶斯代码实现

        

纯文本数据不能直接传入模型,需要进行特征抽取。

Chapter-10/10-6 多项式朴素贝叶斯代码实现.ipynb · 梗直哥/Machine-Learning - Gitee.com


3、优缺点和使用条件

朴素贝叶斯优点

        过程简单速度快。

        对多分类问题言样有效。

        分布独立假设下效果好。

        贝叶斯思想光芒万丈,先验打开“扇大门。(拓展 变分)

朴素贝叶斯缺点

        条件独立假设在现实中往往很难保证。

        只适用于简单比大小问题。

        如果个别类别概率为0,则预测失败。(平滑技术解决)。

        条件概率和先验分布计算复杂度较高,高维计算困难。

适用条件

        文本分类/垃圾文本过滤/情感判别。

        多分类实时预测。

        推荐系统、与 协同过滤 一起。

        复杂问题建模。

         


参考

 Machine-Learning: 《机器学习必修课:经典算法与Python实战》配套代码 - Gitee.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/232385.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode刷题-树】--257.二叉树的所有路径

257.二叉树的所有路径 方法:深度优先搜索 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* TreeNode() {}* TreeNode(int val) { this.val val; }* TreeNode(int val, T…

win环境下启动kafka Port already in use: 6688; nested exception is

背景 zk启动成功后,接下来启动kafka,再启动kafka后一直说端口被占用。 端口占用解决办法: netstat -aon|findstr 9092 taskkill -f -pid 7780 杀掉后,再次启动kafka时,问题并未解决 后来修改了批处理文件kafka-run-class.bat中…

深度剖析知识图谱:方法、工具与实战案例

💂 个人网站:【 海拥】【神级代码资源网站】【办公神器】🤟 基于Web端打造的:👉轻量化工具创作平台💅 想寻找共同学习交流的小伙伴,请点击【全栈技术交流群】 知识图谱作为一种强大的知识表示和关联技术&am…

SAP 特殊采购类80简介

前面我们已经测试特殊采购类40、70,我们今天测试一下特殊采购类80。 特殊采购类80:在替代工厂生产,在成品层维护特殊采购类,需求和收货在计划工厂完成,成品生产和组件采购在生产工厂完成。 80采购类也是我们在SAP系统中实现跨工厂需求传递的一种方式。它具有传递方式简单、…

Python tkinter控件全集之组合选择框 ttk.ComboBox

Tkinter标准库 Tkinter是Python的标准GUI库,也是最常用的Python GUI库之一,提供了丰富的组件和功能,包括窗口、按钮、标签、文本框、列表框、滚动条、画布、菜单等,方便开发者进行图形界面的开发。Tkinter库基于Tk for Unix/Wind…

Sui限定版冬季任务来袭,100万份礼物和50万SUI在等你!

在这个渐趋寒冷但节日氛围却日渐浓厚的冬日,Mysten Labs非常高兴地向大家宣布,限定版冬季任务已于北京时间12月19日凌晨3点正式启动啦!这次冒险任务充满刺激,奖励丰厚,快来Mysten Labs任务网站体验吧! 对于…

查看git的帮助信息

说明 在cmd窗口、或者git Bash shell下执行git --help或者git -h命令&#xff0c;可以查看git的帮助信息。 执行git <command> --help命令可以查看某个命令的帮助信息&#xff0c;其中<command>表示某个具体的命令。 示例1&#xff1a;在git Bash shell下运行git…

Linux文本三剑客grep练习

1、显示/etc/rc.d/rc.sysinit文件中以不区分大小的h开头的行&#xff1b; [rootshell ~]# grep "^[hH]" /etc/rc.d/rc.rc.sysinit [rootshell ~]# grep -i "h" /etc/rc.d/rc.sysinit 2、显示/etc/passwd中以sh结尾的行; [rootshell ~]# grep "sh$&quo…

windows10 固定电脑IP地址操作说明

windows10 固定电脑IP地址操作说明 一、无线网络的IP地址设置方法二、有线网络的IP地址设置方法 本文主要介绍&#xff0c;windows10操作系统下&#xff0c;不同的网络类型&#xff0c;对应的电脑IP地址设置方法。 一、无线网络的IP地址设置方法 在桌面右下角&#xff0c;点击…

A01、深入了解性能优化

1、常用性能评价/测试指标 1.1、响应时间 提交请求和返回该请求的响应时间之间使用的时间&#xff0c;一般比较关注平均响应时间。常用操作的响应时间列表&#xff1a; 操作响应时间打开一个站点几秒数据库查询一条记录&#xff08;有索引&#xff09;十几毫秒机械磁盘一次寻…

2023年超声波清洗机实测!清洁力强的超声波清洗机到底如何选择?

超声波清洗机对眼镜党来说是再熟悉不过的一款清洁设备&#xff0c;每次眼镜只要脏了就会第一时间想到拿去眼镜店去清洗&#xff0c;眼镜店老板数分钟就给自己解决了&#xff0c;不需要自己动手去清洗。随着科技的发展&#xff0c;超声波清洗机已经开始慢慢衍生到家里也能看到它…

vs code(Visual Studio Code)使用Remote SSH插件连接不上,反复输入密码

使用Remote SSH插件连接不上&#xff0c;反复输入密码问题解决分为两步 1&#xff0c;点击此处 可以得到配置文件的存放目录&#xff0c;进入硬盘这个目录 打开这个文件&#xff0c;知道你服务器的所在行ip&#xff0c;整行删掉&#xff0c;尝试再次连接 2&#xff0c;如果1不…

【DOM笔记二】操作元素(修改元素内容,修改常见元素/表单元素/元素样式属性,排他思想,自定义属性操作,应用案例!)

文章目录 4 操作元素4.1 修改元素的内容4.2 修改常见元素的属性案例&#xff1a;分时问候 4.3 修改表单元素属性案例&#xff1a;登录时隐藏/显示密码 4.4 修改元素样式属性4.4.1 行内样式操作 element.style案例1&#xff1a;关闭二维码广告案例2&#xff1a;遍历精灵图案例3&…

python之pyQt5实例:二维码生成与读取

目录 1、显示逻辑 2、业务逻辑 二维码的产生历史可以追溯到20世纪80年代。当时&#xff0c;日本Denso Wave公司为了追踪汽车零部件的运输和销售情况&#xff0c;开发了一种能够存储大量信息的条形码&#xff0c;这就是二维码的前身。到了20世纪90年代&#xff0c;随着手机和照…

深入探索Qt 6.3:全面了解新特性及应用技巧

学习目标&#xff1a; 帮助读者深入了解Qt 6.3的新特性&#xff0c;并提供相关应用技巧&#xff0c;以帮助他们更好地应用Qt 6.3进行开发 学习内容&#xff1a; Qt 6.3的新特性概述&#xff1a;介绍Qt 6.3相对于之前版本的改进和新增的功能&#xff0c;如模块的增减、性能优化…

WarAgent使用多智能体理解人类历史和预防未来国际冲突

我们能否避免历史十字路口上的战争&#xff1f;这个问题已经被个人、学者、政策制定者和组织在人类历史中追寻了很长时间。在这项研究中&#xff0c;我们尝试根据人工智能&#xff08;AI&#xff09;和大型语言模型&#xff08;LLM&#xff09;的最新进展来回答这个问题。 本文…

【C语言】自定义类型:结构体深入解析(一)

&#x1f308;write in front :&#x1f50d;个人主页 &#xff1a; 啊森要自信的主页 ✏️真正相信奇迹的家伙&#xff0c;本身和奇迹一样了不起啊&#xff01; 欢迎大家关注&#x1f50d;点赞&#x1f44d;收藏⭐️留言&#x1f4dd;>希望看完我的文章对你有小小的帮助&am…

微博被封禁如何解决

1.电脑搜索互联网信息投诉平台&#xff0c;点击我要投诉 2.找到互联网企业&#xff0c;选择新浪微博 3.然后填写个人信息&#xff0c;这里正常填写就行 4.填写信息 5.截图 6.成功

响应式布局2:手写响应式导航栏(BootStrap实现以及原生实现)

1.响应式导航栏介绍 响应式导航栏是一种在不同设备和屏幕尺寸下自适应布局和显示的导航栏。它可以根据用户所使用的设备&#xff08;如桌面电脑、平板电脑或手机&#xff09;自动调整其外观和交互方式&#xff0c;以提供更好的用户体验。 pc端&#xff1a; 手机端&#xff1a…

嵌入式开发行业会不会也变成java行业?

今日话题&#xff0c;嵌入式开发行业会不会也变成java行业&#xff1f;关于嵌入式行业的未来&#xff0c;与一些人的担忧不同&#xff0c;它并不会内卷化&#xff0c;而是具有相对稳定性的领域。嵌入式开发在制造业等重要第二产业中扮演着关键角色&#xff0c;这些领域的稳定性…