【重版】朴素贝叶斯与拣鱼的故事

重版公告

由于小夕之后要讲的好几篇文章要基于这一篇的知识,但是以前写的的这篇文章对朴素贝叶斯的讨论不够深入,又不值得再额外写一篇朴素贝叶斯啦,因此本文重版了以前的文章《朴素贝叶斯》。与旧版相比,新版对基础知识的讲解进行了大幅更新,并加入了一些更深的讨论和结论,并重新进行了排版。

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先,暂且不管贝叶斯是什么意思,朴素这个名字放在分类器中好像有所深意。

一查,发现这个分类器的英文是“Naïve Bayes”。Naïve(读作“哪义务”)即幼稚的、天真的(但是总不能叫“幼稚贝叶斯”阿),Bayes即贝叶斯。那么这里的Naïve/朴素,是什么意思呢?其实就是代表着简化问题复杂度,像一个小孩子一样,不考虑复杂的东西。

Naive

一句话描述Naïve的意思就是“特征独立性假设”。详细的说,这里的独立性假设一般是指“条件独立性假设“,但是在处理序列问题时(比如文本分类、语音识别),还经常用到“位置独立性假设”,分别是什么意思呢?

条件独立性假设 {

如果我们要识别一个人的性别,要用到“身高”和“体重”这两个特征。所以这里的类别y为男/女,特征X=[x1=身高  x2=体重]。

我们知道,“身高”和“体重”明明是有关系的,比如身高1米8的人是不太可能体重低于100斤的,但是在朴素贝叶斯分类器的眼里,身高和体重没有关系。即令 x1=身高为180cm , x2=体重为50kg ,则:

意思即一个人身高为180cm且体重为50kg的概率就等于一个人为180cm的概率乘以一个人为50kg的概率。虽然一个人为180cm的概率很大(比如一个男孩子),一个人为50kg的概率也很大(比如一个女孩子),但是人的身高为180cm且体重为50kg的概率很小。但是在贝叶斯的条件独立性假设下,x1与x2相互独立,故是直接将这两个大概率相乘的,故算出来的概率肯定远大于实际值。

总结,朴素贝叶斯模型会假设特征向量的各个维度间相互独立(毫无关系)。即“条件独立性假设”。

}

位置独立性假设{ 

位置独立性假设一般不会提,但是如果要用朴素贝叶斯模型解决序列化的分类问题时,就必须引入这个假设了。

位置独立性的意思是对于序列中各个位置的特征向量,完全忽略其位置信息。举个栗子,比如在文本挖掘中,“我|喜欢|狗”中有三个特征向量,即分别为向量“我”、向量“喜欢”、向量“狗”,如果我们按照先后顺序来考虑这三个特征的话,就能得出你喜欢狗这个事实。但是如果按照“狗”“喜欢”“我”这样的顺序的话,得到的意思就完全变了。显然,这里各个特征向量之间的先后顺序(即位置)对于语义相关的分类任务而言是很重要的。然而,朴素贝叶斯的假设就是位置之间是独立的,即完全抛弃序列的位置信息。因此在朴素贝叶斯看来,“我|喜欢|狗”与“狗|喜欢|我”是同一个分类任务。

}

 

好,朴素的意思我们懂了,那么核心就是贝叶斯了。

Bayes

显然,在统计理论中,与贝叶斯最相关的就是贝叶斯定理,也叫贝叶斯公式。不用管能不能看懂,先贴出通用形式的公式:

 

我们把公式里的事件A看作样本特征为某值,该值用X表示。把B看作分类目标的类别为某值,该值用y表示。然后就会发现非常非常简单啦,如下:

所以呢,这个公式的意思就是:

公式左边:已知样本特征的值为X的情况下,目标类别为y的概率(即,专业说法叫后验概率)就等于

公式右边:什么都不知道的情况下,目标类别为y的概率(即,专业说法叫类别y的先验概率)乘以已知目标类别是y的情况下,特征的值为X的概率(即,专业说法叫似然函数)。再除以什么都不知道的情况下,特征的值为X的概率(即,专业说法叫特征X的先验概率,也有的叫证据)。

 

诶?细心的读者有没有发现什么呢?相信此时肯定已经有人激动了!我们这里看一个栗子,引入更深的讨论。

 

就是这个栗子。

 

 

其实是下面的栗子啦( ̄∇ ̄)。

 

假如小夕捕获了一批鱼,这批鱼中只有黑鱼和三文鱼。虽然小夕并不认识这两种鱼,但是小夕有设备可以测量出每条鱼肚皮的亮度等级(比如最白为10级,最黑为1级)。然后有一位好心的粉丝送给了小夕一批标好类别的黑鱼和三文鱼。那么小夕借助上面这些已经知道的东西,用朴素贝叶斯分类器来给小夕捕的那些鱼的类别贴标签,从而分拣出三文鱼和黑鱼,要怎么做呢?

拣鱼

诶?这里不是说鱼肚皮的亮度等级都能测出来嘛?那鱼肚皮的亮度等级不就是一个特征咯,每条鱼测出来的亮度等级不就是特征的值嘛,即X。而黑鱼和三文鱼就是我们要分类的目标,记为类别c0和类别c1。有没有灵光一现?

对!还记得贝叶斯定理的等式左边的的意思吗?假如某条鱼测得的亮度等级为2,那么我们只需要计算并比较  与  的大小不就可以啦!肯定是值更大的,也就是概率更大的,就是我们要输出的类别呀!专业说法叫取最大后验概率。

 

那么怎么计算呢?显然就是用等式右边那三坨(噗,好不文明的说)。为了方便阅读,在这里再贴一遍。

 

 

首先,右边这三坨中,除号底下的代表特征取某值的概率,然而我们要预测某一条鱼的类别,显然这条鱼的特征的值我们已经知道了,即定值,因此不管是求  也好,求   也好,  是相同的值,对于比较这两个概率的大小没有任何帮助。因此干脆不计算了。

然后,这三坨中的  代表某类别的先验概率,怎么计算得到呢?还记得粉丝给了小夕一堆鱼吗?那我们直接用这一堆鱼来近似得到  不就可以啦!

按照概率论的大数定律的意思,当样本足够多时,样本的统计比率就可以近似真实概率。回想一下抛10000次均匀硬币时会有接近5000次正面向上,由此得到正面向上的概率为0.5

因此,假如粉丝给了小夕10000条鱼,其中3000条是黑鱼,7000条是三文鱼,那显然  ,同理  。看, 解决了吧。

 

三坨中的最后一坨,  怎么得到呢?也很轻松啊,同样是利用粉丝给的10000条鱼,小夕用设备将这10000条鱼的亮度等级测出来后,只需要从每个类别的鱼群中,统计一下特征X的每个取值下的鱼数量占该类别的鱼总数的比率就好啦。

比如黑鱼有3000条,其中亮度等级为8的鱼一共有1000条,那么  。同理可以得到其他  的值啦。

 

至此,等式右边全都解决了,因此等式左边也能比较大小了。所以对于下面这种情况的话(粉丝给了小夕100来条鱼用于训练分类器):

 

 

小夕做好的朴素贝叶斯分类器肯定会将亮度等级小于的鱼都认为是三文鱼(在此情况下,类别判定为三文鱼的概率总是比黑鱼的概率大),反之都认为是黑鱼。

等等,问题出现了,我们知道,的点就是相等的点。但是,朴素贝叶斯在计算这两个值的时候,算出来的真的是这两个值吗?

到底是什么

还记不记得,前文中,我们在计算等式左边的时候,忽略了等式后边的这一项!再把公式搬过来:


也就是说,贝叶斯分类器在计算每个类别的“后验概率”的时候,实际上计算出的并不是后验概率!由于只计算了,因此得到的结果实际上是!!!

是什么呢?有概率论基础的同学应该知道,这个就是y与X的联合概率,也就是,也就是X与y共同发生的概率。

所以说,朴素贝叶斯分类器的核心虽然是贝叶斯公式,但是其计算某样本的各类别的可能性时,实际上计算出的不是各类别的后验概率,而是各类别y与该样本特征X的联合概率

这一结论有什么用呢?以后就有用啦~而且至关重要哦。

等等,还有个问题,到目前为止,都没有用到文章开头写的条件独立性假设啊?这个假设有什么用呢?

多维特征

当然啦,这个假设本质上的意思就是忽略X各个维度之间的相关性,因此当X有多维特征时,就派上用场啦。

比如小夕又买了个尺子,可以测量鱼身的长度。

 

这时特征 X=[x1(亮度) x2(身长)] 了。这时唯一的影响就是在计算等式右边的这个  时,按照独立性假设展开成  就可以啦。看吧,naïve一些还是可以避免很多麻烦的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2022,这些国之重器让人眼前一亮!

来源:新华社2022即将收官这一年我们有许多难忘的回忆回顾,是为了更好出发我们将这一年各领域走过的壮阔征程制作成了精美的系列海报第一期让我们来看看那些让人眼前一亮的国之重器它们——上天入海!乘风破浪!贯通聚能!…

逻辑回归与朴素贝叶斯的战争

0一起走过的首先,小夕带领大家回顾一下文章《逻辑回归》、《Sigmoid与Softmax》、《朴素贝叶斯》中的几点内容,这几点内容也是本文的前置知识:1. 逻辑回归模型的表达式(假设函数):,其中。2. 逻辑回归模型本质上是二类分…

OpenAI年底上新,单卡1分钟生成3D点云,text-to 3D告别高算力消耗时代

来源:大数据文摘授权转载自HyperAI超神经作者:三羊OpenAI 年底冲业绩,半个多月前发布的 ChatGPT 广大网友还没玩明白,近日又悄么发布了另一利器--可以依据文本提示,直接生成 3D 点云的 PointE。text-to-3D:…

机器学习相关从业者如何兼顾理论与工程能力

理论与工程首先,小夕说一下自己目前对理论与工程的理解吧,这也是小夕当前研究理论和熟练工程时主要的出发点。(仅为个人思考,请勿当成真理理论注重的是学科中各个知识点的大一统,将各种散乱的算法、现象、技巧来归结到…

万字拆解!追溯ChatGPT各项能力的起源

导语一篇十分深度剖析GPT系列模型的文章,作者翻译成了中文,在这里分享给大家。来源:李rumor作者:符尧, yao.fued.ac.uk,爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学与 彭昊&#xff0…

用excel做数据分析

我们先来看看某公司全国产品销售的报表(截取了部分) 某公司全国产品销售的报表通过货品销售数据案例,需反映如下结果: 货品销售情况货品交货情况销售货品结构构成货品销售区域构成货品按时交货与合格品综合评价 我们使用 excel 进…

消失了一周的小夕在玩什么啦?

啊,你们的小夕回来啦~有没有被吓到( ̄∇ ̄)0小夕在玩什么小夕,终于,在今天,把,各种deadline,完成了(Д )首先,小夕要像大家深深的说一声谢谢啦。好多天没有打开订阅号的后台…

第四届泰迪杯数据挖掘大赛

<script src"//g.alicdn.com/aliyun/goldeneye-deploy/0.0.1/static/goldeneye.js"></script> <link rel"stylesheet" href"//at.alicdn.com/t/font_422887_vrqbpml6oos.css"><!--top-header begin-->云栖社区博客问答聚…

一般化机器学习与神经网络

0前言机器学习的初学者很容易被各种模型搞得晕头转向。如果扎进各种模型的细节无法自拔的话&#xff0c;可能很难发现一般化的框架。如果你觉得神经网络是非常不同的机器学习模型&#xff0c;如果你觉得神经网络的各种新名词让你觉得这完全就是一片新天地&#xff0c;那么可能你…

扩散模型再发力!图灵奖得主Hinton团队提出:图像和视频全景分割新框架

来源&#xff1a;机器之心作者&#xff1a;Ting Chen 等 编辑&#xff1a;赵阳本文的创新点一方面在于能够在大型全景掩码上训练扩散模型&#xff0c;一方面在于可以同时适配图片和流媒体场景。全景分割是一项基本的视觉任务&#xff0c;该任务旨在为图像的每个像素指定语义标…

经典的K-means聚类算法

原理部分主要来自大牛zouxy09和trnadomeet两个人的博客&#xff1b;后面的代码详细讲解为自己精心编写 一、概述 非监督学习的一般流程是&#xff1a;先从一组无标签数据中学习特征&#xff0c;然后用学习到的特征提取函数去提取有标签数据特征&#xff0c;然后再进行分类器的训…

《Cell》发现免疫系统的“武器研发实验室”

来源&#xff1a;生物通如果B细胞是免疫系统的兵工厂&#xff0c;制造抗体来中和有害的病原体&#xff0c;那么被称为生发中心的微小生物结构就是它的武器开发设施。.淋巴结的生发中心簇充满了成熟的B细胞(红色)&#xff0c;点缀着进化程度较低的B细胞(绿色)。 如果B细胞是免…

机器学习从理论到工程的第一步-编程语言篇

前言在文章《机器学习从业者如何兼顾理论与工程》中&#xff0c;小夕对编程语言的选择进行了小小建议。鉴于有些同学对小夕建议的“主python&#xff0c;辅C&#xff0c;备用matlab和java”疑问较大&#xff0c;小夕在此详细解释一下&#xff0c;也欢迎大家补充新观点哦。为什么…

聚类算法当中的K-means算法如何去做天猫淘宝的推广任务

5 人赞同了该回答figure data-size"normal">data-size"normal">这个入口是全网人气新品池&#xff0c;我们今天所获取到的数据都是来源于这里。无论是C店还是B店&#xff0c;统统都有机会进来。这个平台最有价值的数据&#xff0c;就是可以告诉我们自…

通过双重众包预测 RNA 降解的深度学习模型

编辑 | 萝卜皮基于信使 RNA (mRNA) 的药物具有巨大的潜力&#xff0c;正如它们作为 COVID-19 疫苗的快速部署所证明的那样。然而&#xff0c;mRNA 分子的全球分布受到其热稳定性的限制&#xff0c;这从根本上受限于 RNA 分子对称为在线水解的化学降解反应的固有不稳定性。预测 …

线性代数应该这样讲(一)

前言小夕为什么要讲线性代数呢&#xff1f;因为有人已经做了机器学习一段时间了&#xff0c;竟然认为矩阵就是用来存储数据的。小夕表示非常震惊。而深刻透彻的理解核函数、PCA、LSI、谱聚类等以空间映射为理论核心的机器学习理论时&#xff0c;靠大学里教的那一套线性代数&…

震惊!丧心病狂的夕小瑶推出新一轮写作计划!

时至今日&#xff0c;距离小夕发布的第一篇正式文章已经过去整三个月啦。今天又回头看了一下自己写的第一篇文章&#xff0c;不禁有点感慨“文风”变了这么多&#xff0c;甚至有点受不了第一篇文章中的萌气了\(//∇//)\然后文章还写的不怎么样。。。虽然第一篇文章写的好差&…

LeCun预言的自监督模型来了:首个多模态高性能自监督算法,语音、图像文本全部SOTA...

来源&#xff1a;机器之心编辑&#xff1a;nhyilin人类似乎对不同的学习模式有着相似的认知&#xff0c;机器也应该如此&#xff01;>>>>自监督学习能在各种任务中学习到分层特征&#xff0c;并以现实生活中可使用的海量数据作为资源&#xff0c;因此是走向更通用人…

史上最清楚的BP算法详解

前馈神经网络 在文章《逻辑回归到神经网络》&#xff08;以下简写《LR到NN》&#xff09;中&#xff0c;小夕为大家描述了一个从逻辑回归延伸到神经网络的过程。在《一般化机器学习与神经网络》中&#xff0c;小夕阐述了神经网络的一般性。这一篇会完全进入神经网络的状态&…

基于主动学习算法减少人工标注量,提升文本标注效率的方案探究

基于主动学习算法减少人工标注量&#xff0c;提升文本标注效率的方案探究阅读 451收藏 232018-06-26原文链接&#xff1a;yq.aliyun.comOPPO技术开放日第三期&#xff0c;未来的探索 AI&AR的实践应用juejin.im项目地址: https://github.com/crownpku/Chinese-Annotator 自…