Naive Bayes Classifier - 朴素贝叶斯分类器

Naive Bayes Classifier - 朴素贝叶斯分类器

简介

在机器学习中,朴素贝叶斯分类器是一系列基于“贝叶斯原理”和“特征之间独立分布假设”的概率分类器的总称。把它的名称分成两部分来看,一部分是“贝叶斯”对应的是“贝叶斯原理”;另一部分对应的是“朴素 Naive” 对应的是 “特征之间独立分布假设”,因为在现实世界里这明显是一个过于简单的假设。

自20世纪50年代以来, 朴素贝叶斯一直受到广泛的研究。它是在1960s,作为一种流行的文本分类方法进入人们的视野。经过适当的预处理, 它在文本分类领域甚至可以与更高级的算法(比如svm)取得相当的水平; 在自动医疗诊断中也有发现其应用价值。

数学原理

朴素贝叶斯本质上是一个条件概率模型,他首先要解决的问题是求出某个状态X=(x1,…,xn)X=(x_1, \dots, x_n)X=(x1,,xn)下,发生事件CkC_kCk的概率。数学表达式如下:
p(Ck∣x1,…,xn)p(C_k \mid x_1, \dots, x_n) p(Ckx1,,xn)
根据“贝叶斯原理”,上述表达式可以转化成如下表达式,其中X=(x1,…,xn)X=(x_1, \dots, x_n)X=(x1,,xn):

对于给定的x来说,p(x)其实是一定的,可以理解为是个常数。那么说明我们要求解的是上述等式的分子,分子可以用如下联合概率(joint probability)表达式表示:
p(Ck,x1,…,xn)p(C_k , x_1, \dots, x_n) p(Ck,x1,,xn)
根据条件概率定义,可以使用链式法则作如下推导:

到了这个时候,该’Naive Bayes’里的Naive出来表演了,Naive指的是简单,朴素:假设X=(x1,…,xn)X=(x_1, \dots, x_n)X=(x1,,xn)里的所有xix_ixi相互独立。
根据这个前提假设我们可以知道:

因此,我们要求解的问题可以表达如下,其中∝\propto表示成正比:

可以进一步表达如下,其中

截止目前以上讨论的都是 Naive Bayes 概率模型的推导问题,离我们要讨论的 Naive Bayes Classifier 还差一步。要形成一个完整的 Naive Bayes Classifier,我们还需要一个判定法则。最通常用的一个法则是最大概率法则(MAP rule);

结合如上法则,我们可以形成一个完整的 Naive Bayes Classifier 了。

不同的 Naive Bayes Classifier 的不同之处主要体现在其对 P(xi∣y)P(x_i \mid y)P(xiy) 的假设上,比如说 ‘Gaussian Naive Bayes’ 的假设是,P(xi∣y)P(x_i \mid y)P(xiy) 服从高斯分布:

P(xi∣y)=12πσy2exp⁡(−(xi−μy)22σy2)P(x_i \mid y) = \frac{1}{\sqrt{2\pi\sigma^2_y}} \exp\left(-\frac{(x_i - \mu_y)^2}{2\sigma^2_y}\right)P(xiy)=2πσy21exp(2σy2(xiμy)2)

在训练一个 “Gaussian Naive Bayes Classifier” 的时候,我们的目的是计算出 y 的mean(μy\mu_yμy)和std(σy2\sigma^2_yσy2)。

优劣势讨论

朴素贝叶斯是一种基于概率理论的分类算法,其代码实现和训练都比较简单,需要计算量较少。尽管它对于特征相互独立这一假设不太符合实际,但是却使其在在实际中更加实用。特征间关系的解耦,使得我们可以独立地研究每个特征相对于类别的分布,有效避免了‘维度灾难’(即需要处理的数据量随着特征数量(维度)的增加呈指数级地增长)。

另一方面,尽管朴素贝叶斯在分类领域的效果不错,是处理分类问题的一把好手,但却不能准确预测事务的概率,它的机制设计是通过概率之间的比较输出结果,更关注的是相对的大小。

参考文献

维基百科 - Naive Bayes Classifier

scikit-learn - 1.9. Naive Bayes

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/530452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PL/SQL Developer调试Oracle存储过程

1,选中存储过程,右键,点击Edit,会打开一个窗口,提示错误信息2,添加debug information3,开始调试4,点击调试窗口上面的按钮进行调试

TCP三次握手和四次挥手以及11种状态

TCP三次握手和四次挥手以及11种状态 1、三次握手 置位概念:根据TCP的包头字段,存在3个重要的标识ACK、SYN、FIN ACK:表示验证字段 SYN:位数置1,表示建立TCP连接 FIN:位数置1,表示断开TCP连…

计算机网络体系结构——各层的功能

OSI七层架构 物理层主要功能:实现比特流的透明传输。基本单位:比特。 数据链路层主要功能 :封装成帧 。把帧从原MAC传到目的MAC(相邻节点之间帧的透明传输) 差错检测 循环冗余检测法。只检测有没有比特错误&#xf…

HTTP报文分析

一、HTTP请求报文解剖 HTTP请求报文由3部分组成(请求行请求头请求体): 下面我们基于socket编写一个简单的HTTP server import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.IOException; import java.io.Inp…

SSM框架整合一(springmvc+spring+mybatis+maven+tomcat)

一,环境说明 jdk1.7.0_07(cmd命令行输入java -version查看),点击下载 eclipse Kepler Service Release 2 apache-maven-3.3.9(cmd命令行输入mvn -v查看),点击下载 apache-tomcat-7.0.52,点击下载 mysql-5.5.28-winx64&#xff0c…

如何在windows机器上安装apache ab

为什么要使用apache ab,apache ab的是用来干嘛的,apache ab的命令? 如果您是来找上面这些问题的答案,那么请立刻关掉当前页面,因为这篇文章是纯粹的安装教程,避免浪费时间。 一,安装环境 win…

低版本Eclipse如何快速设置黑色主题

低版本的Eclipse(例如Kepler Service Release 2),没有自带的黑色主题,并且在线安装黑色主题会报错 去网上找了一圈结果都是骗人的,这个时候别着急,只需三个简单的步骤即可完成黑色主题配置。 下面是设置完…

eclipse中配置jad反编译插件

1 下载Eclipse支持jad插件的jar包 将下载得到的net.sf.jadclipse_3.3.0.jar放到eclipse》plugins目录下 2 eclipse配置jad插件 下载jad.exe 3 设置文件关联

SpringCloud学习之路(一)-简单Demo

首先,我们先在C:\Windows\System32\drivers\etc路径下的hosts最后添加两个地址用于模拟服务端以及消费端的IP 127.0.0.1 dept-8001.com #微服务端127.0.0.1 client.com #消费端 SpringCloud的一个最基础Demo,本地真实模拟环境(服务的创建者以及消费者),这是我们Demo截图: 分为一…

eclipse工作区打不开的解决方案

今天上班的时候发现eclipse打开总是闪退,刚开始以为是eclipse的问题,后来才发现是工作区的问题。 分享出来,希望能够帮助遇到同样问题的人。 1 设置询问打开的工作区 eclipse安装目录\configuration\.settings\org.eclipse.ui.ide.prefs&a…

解决debug JDK source无法查看局部变量的问题

首先进入传送门:https://blog.csdn.net/majian_1987/article/details/51273609 进行上面的操作之后,这个时候我们来debug一下jdk源码,发现可以查看局部变量。但是这时候又发现一个问题,在我自己的代码里按住ctrl鼠标左键单击无法…

配置JAVA开发环境

1、首先去Oracle官方网站下载所需版本的JDKhttp://java.sun.com/products/archive/,然后安装,其实只需要安装jdk就可以了,不需要安装jre 2、按照后配置环境变量JAVA_HOME 然后在path最前面添加%JAVA_HOME%\bin; 3、cmd中输入java -version,提…

【JAVA基础篇】集合框架

一、集合框架图 Java集合框架主要包含两种类型的容器,一是集合(Collection),存储元素集合,二是图(Map),存储键(key)-值(value)对.Collection接口下面有两个重要的子接口List和Set,再下面是一些抽象类,最后是…

【JAVA基础篇】对象初始化过程

我们都知道,创建对象是由 new关键字调用构造方法 返回类实例(实际上还可以通过反射来创建实例)。 例如 : Person jack new Person(); 这句话到底做了什么事情呢 ? 其实就是讲对象的初始化过程。 1、 new 用到了Person.class,所…

eclipse指定JDK版本启动,解决version XXX of the JVM is not suitable for this product.Version:XXX 问题

问题描述:启动eclipse时,提示version 1.7.0 of the JVM is not suitable for this product.Version:1.8 or greater is required. 原因分析:原因是我的笔记本安装了多个JDK版本,但是现在我的JAVA_HOME配置的是jdk1.7的路径&#x…

【JAVA基础篇】IO流

一、流的概念 “对语言设计人员来说,创建好的输入/输出系统是一项特别困难的任务。” ――《Think in Java》 无论是系统、还是语言的设计中IO的设计都是异常复杂的。面临的最大的挑战一般是如何覆盖所有可能的因素,我们不仅仅要考虑文件、…

【JAVA基础篇】运算符

一、表达式 表达式由运算符和操作数组成 例如: 5 num1 num1num2 sumnum1num2 二、运算符分类 算数运算符、赋值运算符、关系运算符、逻辑运算符、条件运算符、位运算符 三、算数运算符 四、赋值运算符 格式:变量表达式 例如:int n3…

a4纸网页打印 table_打印模板不愁人,你还在打印单调的A4纸吗?

软件介绍早在几年前,社会上就已经开始了数字化、无纸化的推广,但是就算再怎么无纸化,纸张还是有它必要的存在,在工作、学习过程中,打印的需求也必不可少的。但是一般的打印都是比较平庸的,要做会议记录&…

上证指数30年k线图_技术预判2020:上证指数要突破3500点才会“井喷”

2019年的行情很快就要收官了,截止目前,上证指数今年的涨幅是20.5%,不过可能有部分投资者今年的收益率还没达到大盘指数的平均水平。不管怎样,今年很快就要翻篇了,关键是看2020年股市能不能迎来更好的行情了。而总结得失…

的优缺点_浅谈桉木家具的优缺点

家具现在的材质是有很多的,木质的,石材的,还有真空充气的,都是很不错的类型。桉木家具是现在很多人都喜欢的一种材质,但是很多人对桉木家具的优缺点不是很清楚,为了能够让大家更加清楚的了解桉木家具&#…