0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先,暂且不管贝叶斯是什么意思,朴素这个名字放在分类器中好像有所深意。

一查,发现这个分类器的英文是“Naïve Bayes”。Naïve(读作“哪义务”)即幼稚的、天真的(但是总不能叫“幼稚贝叶斯”阿),Bayes即贝叶斯。那么这里的naïve是什么意思呢?其实就是代表着简化问题复杂度,像一个小孩子一样,不考虑复杂的东西。

一句话描述naïve就是“特征独立性假设”。详细的说,这里的独立性有两个意思,一个是“条件独立性“,一个是“位置独立性”,分别是什么意思呢?

如果我们要识别一个人的肖像,要用到“身高”和“体重”这两个特征。然而“身高”和“体重”明明是有关系的,身高1米8的人是不太能体重低于100斤的,但是在朴素贝叶斯分类器的眼里,身高和体重没有关系。这个例子的数学表达就是P(B|A)=P(A)*P(B),意思即特征A与特征B相互独立(毫无关系)。这种假设就叫“条件独立性假设”。

位置独立性的意思是先考虑特征A再考虑特征B,跟先考虑特征B再考虑特征A所带来的结果是完全一样的。很好理解,比如在文本挖掘中,“我|喜欢|狗”中有三个特征,分别是“我”“喜欢”“狗”,如果我们按照先后顺序来考虑这三个特征的话,就能得出你喜欢狗这个事实。但是如果按照“狗”“喜欢”“我”这样的顺序的话,得到的意思就完全变了。显然,这里各个特征之间的先后顺序,即位置是很重要的。然而,朴素贝叶斯的假设就是位置之间是独立的,即毫无关系的。因此在朴素贝叶斯看来,“我|喜欢|狗”与“狗|喜欢|我”是同一个分类任务。

好,朴素的意思我们懂了,那么核心就是贝叶斯了。

显然,在统计理论中,与贝叶斯最相关的就是贝叶斯定理,也叫贝叶斯公式。不用管能不能看懂,先贴公式:

公式

这个公式看似有点绕,其实如果我们把公式里的A看作我们已经知道的特征的值,(注意这里我们仅仅考虑一个特征,即仅考虑用一个特征对目标进行分类的任务)把B看作分类目标的一个类别,就会发现非常非常简单啦。所以呢,这个公式的意思就是,已知特征的值为A的情况下,目标类别为B的概率(P(B|A))就等于已知目标类别是B的情况下,特征的值为A的概率(P(A|B))乘以什么都不知道的情况下,目标类别为B的概率(P(B),专业说法叫B的先验概率),再除以什么都不知道的情况下,特征的值为A的概率。

诶?细心的读者有没有发现什么呢?相信此时肯定已经有人激动了!我们这里看一个栗子。

就是这个栗子。

这里写图片描述

哈哈,是下面的栗子啦。

假如小夕捕获了一批鱼,这批鱼中只有黑鱼和三文鱼。虽然小夕并不认识这两种鱼,但是小夕有设备可以测量出每条鱼肚皮的亮度等级(比如最白为10级,最黑为1级。然后有一位好心的粉丝送给了小夕一批标好类别的黑鱼和三文鱼。那么小夕借助上面这些已经知道的东西,用朴素贝叶斯分类器来给小夕捕的那些鱼的类别贴标签,怎么做呢?

诶?这里不是说鱼肚皮的亮度等级都能测出来嘛?那鱼肚皮的亮度等级不就是一个特征咯,每条鱼测出来的亮度等级不就是特征的值嘛。有没有灵光一现?

对!还记得贝叶斯定理的等式左边的P(B|A)的意思吗?假如某条鱼测得的亮度等级为2,那么我们只需要计算并比较 P(类别=黑鱼|特征=2) 与 P(类别=三文鱼|特征=2) 的大小不就可以啦!肯定是值更大的,也就是概率更大的,就是我们要输出的类别呀!专业说法叫取最大后验概率。

那么怎么计算呢?显然就是用等式右边那三坨(噗,好不文明的说)。为了方便阅读,在这里再贴一遍。

这里写图片描述

首先,这三坨中,除号底下的P(A)代表特征取某值的概率,然而我们要预测某一条鱼的类别,显然这条鱼的特征的值我们已经知道了,即定值,因此不管是求 P(类别=黑鱼|特征=2) 也好,求 P(类别=三文鱼|特征=2) 也好, P(A) 是相同的值,对于比较这两个概率的大小没有任何帮助。因此干脆不计算了。

然后,这三坨中的 P(B) 代表 P(类别取某类) ,也就是某类别的先验概率,怎么计算得到呢?还记得粉丝给了小夕一堆鱼吗?那我们直接用这一堆鱼来近似得到 P(B) 不就可以啦!

(按照概率论的大数定律的意思,当样本足够多时,样本的统计比率就可以近似真实概率。回想一下抛10000次均匀硬币时会有接近5000次正面向上,由此得到正面向上的概率为0.5)
因此,假如粉丝给了小夕10000条鱼,其中3000条是黑鱼,7000条是三文鱼,那显然 P(黑鱼)=3000/10000=0.3 ,同理 P(三文鱼)=0.7 。看,P(B) 解决了吧。

三坨中的最后一坨, P(A|B) ,也就是 P(特征为某值|已知类别为某类) 怎么得到呢?也很轻松啊,同样是利用粉丝给的10000条鱼,小夕用设备将这10000条鱼的亮度等级测出来后,只需要从每个类别的鱼群中,统计一下特征的每个取值下的鱼占该类别的鱼总数的比率就好啦。

比如黑鱼有3000条,其中亮度等级为8的鱼一共有1000条,那么 P(特征=8|类别=黑鱼)=1000/3000=0.3 。同理可以得到其他 P(A|B) 的值啦。

至此,等式右边全都解决了,因此等式左边也能算出来了。所以对于下面这种情况的话(粉丝给了小夕100来条鱼):

这里写图片描述

小夕做好的朴素贝叶斯分类器肯定会将亮度等级小于x*的鱼都认为是三文鱼(在此情况下,类别判定为三文鱼的概率总是比黑鱼的概率大),反之都认为是黑鱼。

那么我们也发现了,诶?这样的话,对于亮度等级为4-7之间的鱼,很难判定呀。怎么办呢?当然是增加特征啦!比如小夕又买了个尺子,可以测量鱼身的长度。

诶?那两个特征的情况下,怎么做呢?还记得本文开头时提到的独立性假设吗,就在这里派上用场了。对于多个特征的情况,只需要分别计算出每个特征的情况,然后将这些情况直接相乘就ok了~

也就是假设A为特征集合,包含M和N这两个特征,那么只需要将等式右边的这个 P(A|B) 展开成 P(M|B)*P(N|B) 就可以啦,也就是只需要在代码里迭代一下可以啦。看吧,naïve一点是可以避免很多麻烦的。

加上鱼长这个特征后,可能就成这样子了。

这里写图片描述

看,一下子好分多了吧~这样出来的朴素贝叶斯分类器的精度就高多啦。至此小夕成功完成了拣鱼任务!

喜欢小夕的文章可以关注小夕的微信订阅号“夕小瑶的卖萌屋”哦,这里的干货很好吃O(∩_∩)O

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481279.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你可以在虚拟世界里过上美好生活吗?

来源:混沌巡洋舰时间来到 2095 年。地球表面满目疮痍,核战争和气候变化引发一场灾难。你只能过着困苦的生活,躲避匪帮,避开地雷。你的主要愿望就是活下去。或者,你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库,一般选择web of science 核心文集 第二步:在更多设置中选择web of science 第三步:点击被引频次后面的数字 第四部:点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项:web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想,被陶哲轩和他的博士后破解了!此前陶哲轩在博客上发了个小预告,就已经有不少人赶来围观:看起来是个大新闻。现在,不少人期待的正式版论文,终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库(Chinese Science Citation Database,简称CSCD) 2 3 4 5 6点击详细信息进入下面的页面,可判断文档是否属于核心期刊!

《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐:“学姐学姐,EM算法是什么呢?”学姐回答:“EM算法啊,就是解决包含隐变量的参数估计问题。”小夕:然后小夕去问一位做工程的学长:“学长学长,EM算…

2022年诺贝尔物理学奖的科学内涵辨识

|作者:葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖,被一些人误解为证明了量子纠缠现象。实际上,包括爱因斯坦本人都承认量子纠缠,关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…

机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》中,小夕用优(恐)雅(怖)的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢&#xff…

暑期实习NLP算法岗面经总结

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农​关注他488 人赞同了该文章写在前面,从三月份开始找实习到现在正好两个月,这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司,本着从小公司…

机器学习助力更好理解水的行为

来源:科技日报作者:刘霞为从理论上理解各种物质开辟更多途径科技日报北京12月19日电 (记者刘霞)美国一个研究团队在最新一期《物理评论快报》上刊发论文称,他们借助机器学习技术来理解水在零下100℃的行为。最新研究不…

期望最大化(EM)算法真如用起来那么简单?

声明:本文改编自订阅号“夕小瑶的卖萌屋”中的 《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》、《机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)》。前言小夕曾经问一位做机器学习理论的学姐&#xff…

预测更准确,使用机器学习改进化学品的毒性评估

编辑 | 绿萝从命运和毒性的角度来看,人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数,人们对其环境归宿或毒性知之甚少。通过实验填补这些数据空白是不可能的&#xff0c…

如何优雅的追到女神夕小瑶

如果,你不小心迷恋上了小夕… 路人某:“没有如果” 捕获小夕的游戏 如果现实世界中,迷恋上小夕以后,你想捕获小夕。那么发现从上帝视角来看的话,你有下面好多条路几条路达成目标( ̄∇ ̄) 然而你并…

文本相似度-相似度度量

NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背景知识统计语言模型n-gram模型词向量主题模型LSAPLSALDA应用Word2Vec神经网络语言模…

《科学》封面文章AlphaCode的重大意义及其思考

来源:陈德旺科学网博客链接地址:https://blog.sciencenet.cn/blog-57940-1368420.html程序员,虽然戏称程序猿,其实是一个高薪高智商工作,需要对问题的理解力、解决问题的创造性,还需要熟悉掌握编程语言。这…

深度学习可以与大数据分手吗?

小夕:hi,路人~你知道机器学习中数据的维度太高会带来什么问题吗?路人己:此时,如果样本量不足,会容易过拟合啊~小夕:为什么呢?路人己:这还有为什么?小夕&#…

集群化:中国基础研究发展模式的转型方向

来源:《学术前沿》作者:李侠2020年,科技部等五部门联合制定《加强“从0到1”基础研究工作方案》,旨在贯彻落实《国务院关于全面加强基础科学研究的若干意见》,其中明确指出,切实解决我国基础研究缺少“从0到…

各种损失函数比较-带你斩获offer

损失函数(Loss function)是用来估量你模型的预测值 f(x)f(x)值。2. 常用损失函数 常见的损失误差有五种: 1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 2. 互…

如果你跟夕小瑶恋爱了...(上)

如果...如果...有一天...你追到了女神夕小瑶...并且与她恋爱了...(想说“没有如果”的路人请自觉狗带( ̄∇ ̄))小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情:化妆-吃饭-聊天-自习-上课-要…

「返老还童」梦想成真?「NMN教父」争议研究将登陆科学顶刊

来源:机器之心逆转衰老,我们终于有了新方法?一项为时13年的研究最近又有了新的突破,事关人类最在意的问题:衰老理论。12月19日,哈佛大学遗传学教授David Sinclair在社交网络上宣布有关人类衰老研究的最新突…

对抗思想与强化学习的碰撞-SeqGAN模型原理和代码解析

GAN作为生成模型的一种新型训练方法,通过discriminative model来指导generative model的训练,并在真实数据中取得了很好的效果。尽管如此,当目标是一个待生成的非连续性序列时,该方法就会表现出其局限性。非连续性序列生成&#x…