李航《统计学习方法》-----朴素贝叶斯

朴素贝叶斯法naïve Bayes,在naïve的中间字母上其实有两个点,查了一下才发现是法语中的分音符,在发音过程中发挥作用。但这不是重要的,重要的是在这种学习方法中贝叶斯承担了什么样的角色。

首先简单证明一下贝叶斯公式。联合概率Joint probabilities是可逆的,只要同时满足两个条件就可以,无所谓先满足哪个条件,所以可以有两种写法,都是利用了条件概率Conditionalprobabilities和乘法,因为条件概率就是满足条件之后另外一个事件的概率,这时候再乘条件满足的概率,结果就是联合概率。在最后贝叶斯公式的分母中,P(A)称作先验概率,也称作边际概率Marginal probabilities,一般通过全概率公式求出。

提到贝叶斯定理,就必须要提到贝叶斯学派才能了解这种方法的思想,与其对应的是频率学派。频率学派认为模型的参数是固定的,只不过是未知的,实验次数大到一定程度,频率会稳定于一个固定值,即概率。具体主要通过似然函数求解,如最大似然估计MLE;而贝叶斯是从数据出发,认为参数也是随机变量,拥有概率分布,通过后验概率计算,如最大后验概率MAP,旧的后验会成为新的先验,如此重复下去。贝叶斯学派加入了先验概率,靠谱的先验概率可以使含有随机噪声的数据更加健壮。可以把频率学派中的最大似然看作各种猜测先验概率相等的特殊情况。

我们会发现,频率学派和贝叶斯学派都不约而同地提到了模型,而模型正好是统计机器学习的三要素之一。朴素贝叶斯法,顾名思义,选择了贝叶斯方法构造分类器。输入依然是特征向量x,输出是类标记y。我们希望通过训练数据学习联合概率分布P(X,Y),这说明朴素贝叶斯属于生成模型。具体又是学习y的先验概率和条件概率P(x|y)。既然已经有训练数据,特征和对应的标签类别是已知的,所以根据统计可以很容易地知道y的先验概率。而条件概率就比较棘手了,因为特征空间通常是高维的,所以在已知某个类别下的条件概率有好多个,所以我们做了一个特别重要的假设,叫做条件独立性假设:在类确定的条件下,用于分类的特征是条件独立的。这一假设使得模型包含的条件概率的数量大为减少,简化了学习和预测,缺点是分类的性能不一定很高。

下面还是从三要素的方法研究一下朴素贝叶斯:

模型

前面已经提到了,朴素贝叶斯是生成模型,这是因为它会对联合概率密度P(X,Y)进行估计。具体模型由条件概率表示,所以还属于概率模型(由决策函数表示的模型为非概率模型)。在参考链接3中有这么一句话:贝叶斯非参数模型中的参数数量可以随着数据增大或者减小以适应模型的变化。比较流行的贝叶斯非参数模型还有高斯回归过程,隐含狄利克雷分布(LDA)。选择贝叶斯作为模型是因为我们可以考虑先验概率,特殊的,先验概率相等时,只能依靠似然函数。

策略

我们知道,策略有两种,分别是经验风险最小化和结构风险最小化,前者认为平均损失最小化的模型是最优模型,后者在经验风险最小化的同时还要防止过拟合。从这个角度看,因为极大似然方法因为认为模型参数是固定不变的,就很容易过拟合,而朴素贝叶斯方法选择了最大后验概率作为策略,选择0-1函数作为损失函数。按照书中的推导,为了使期望风险最小化,应该使已知输入特征的后验概率最大化。所以朴素贝叶斯的策略应该是结构风险最小化的策略,先验概率表示了模型的复杂度。

学习方法

方法主要是先估算出先验概率和条件概率,取使得后验概率最大时的y作为输出。根据根据方法采用的是贝叶斯估计还是极大似然函数,又分为两种方法。极大似然估计比较简单,就是利用统计的频率作为概率。但使用极大似然估计可能会出现所要估计的概率值为0的情况,可以采用贝叶斯估计避免。具体来说,对先验概率P(Y),分母和分母分别在极大似然估计的统计上加常数lamda和K*lamda,K表示分类标签数。对条件概率P(X|Y),分子和分母分别加lamda和S*lamda,S代表特征空间的维数。我们常取lamda=1,这是称作拉普拉斯平滑(Laplace smoothing)。

下面再回顾一下信号检测与估计课程中的贝叶斯估计。

至于为什么把它叫做贝叶斯估计,是因为可以根据贝叶斯公式把联合概率密度重写,将问题转换为使条件平均代价最小。

接下来就主要看代价函数的选取,当代价函数选择平方损失函数时,就是最小均方误差估计。当代价函数选择0-1损失函数时,是最大后验估计。估计量使得其后验概率最大。

当代价函数选择绝对损失函数时,贝叶斯估计就是条件中值估计,估计量是随机参数变量的条件中值。

三种代价函数下的贝叶斯估计可以是统计的:当被估计量的后验概率密度函数是高斯型的,三种代价函数下的估计量相同。这就是最佳估计的不变性。

在通信的译码中也有贝叶斯的应用。最小错误概率准则(采用0-1损失函数),即最大后验概率准则。当所有可能消息序列的先验概率相等,最大后验概率准则又等价于最大似然译码准则。在输入不等概分布时采用最大似然译码准则的平均错误概率不是最小。

Refernence:

  1. 伯乐电影院 http://blog.jobbole.com/111399/
  2. 频率贝叶斯https://blog.csdn.net/u012116229/article/details/24636001
  3. 中文分词https://blog.csdn.net/fnqtyr45/article/details/79338829
  4. 译码https://max.book118.com/html/2016/1214/71919163.shtm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IEEE专访李开复:人类已打开潘多拉盒子,封堵AI变革只会徒劳

来源:《IEEE Spectrum》摘要:近期,李开复新书《AI未来》在美国同样反响不俗。在荣登多个排行榜后,IEEE旗下《IEEE Spectrum》,对李开复进行了专访,谈到了众多当前AI领域最受关注的话题。而且从《IEEE Spect…

Rand函数使用和对补码的理解

下面是在牛客网看到的一道题; //假设这n个数的序号依次为0,1,2,...,n-1,数组名为num void knuth1(int* pNum, int m, int n){srand((unsigned int)time(0));for (int i0; i<n; i){if (rand()%(n-i) < m)//rand()%(n-i)的取值范围是[0, n-i&#xff09;{cout << p…

深度学习巨头Yoshua Bengio清华演讲: 深度学习通往人类水平人工智能的挑战

来源&#xff1a;专知摘要&#xff1a;2018年11月7日晚&#xff0c;被称为“深度学习三巨头”之一的蒙特利尔大学计算机科学与运算研究系教授Yoshua Bengio在清华大学做了《深度学习抵达人类水平人工智能所面临的挑战&#xff08;Challenges for Deep Learning towards Human-L…

了解GAN网络

GAN网络&#xff0c;第一次听说它就不明觉厉。其他网络都是对输入图像进行某种处理&#xff0c;得到某种特定的输出。而GAN网络居然可以“无中生有”&#xff0c;无论是去除马赛克&#xff0c;还是换脸&#xff0c;还是对灰度图像上色&#xff0c;都显得不可思议&#xff0c;怎…

新能源汽车:大变革催生十万亿市场空间

来源&#xff1a;新时代证券&#xff08;开文明&#xff09;新能源汽车发展空间巨大&#xff0c;随着新能源汽车性能提升以及痛点的改善&#xff0c;新能源汽车带来的冲击越来越大&#xff0c;渗透率随之提升。根据BNEF预测&#xff0c;到2025年全球新能源汽车的销量将达到1100…

dlib+vs2013+opencv实现人脸特征点检测

刷知乎的时候发现dlib做特征点检测和人脸识别的效果都好于OpenCV&#xff0c;就想着动手玩一下。没想到也是遇坑重重。 首先&#xff0c;在官网 install命令和setup.py文件进行安装时报错&#xff0c;先是报错cmake没有找到&#xff0c;添加了环境变量之后仍然报错c11需要在vs…

对号入座,看看未来几年机器人是否会取代你的工作

来源&#xff1a;资本实验室摘要&#xff1a;面对未来&#xff0c;你是否准备好了&#xff1f;“机器是否会取代人类的工作”是当前讨论最多的话题之一。这主要源自于近几年以人工智能为代表的新技术的快速发展与商业化。尽管各研究机构的预测数据有所不同&#xff0c;但相同的…

冈萨雷斯《数字图像处理》读书笔记(十一)——表示和描述

虽然不是专门研究图像分割的&#xff08;峰兄才是&#xff09;&#xff0c;但多少接触了一点&#xff0c;并且图像分割是图像处理中的最为复杂的&#xff0c;通过图像分割可以很好地认识图像处理的好多方法。今天看的是边界追踪和链码的表示。网易计算机视觉工程师的第一道选择…

细胞内钾多钠少——原初生物的第三大遗迹?

来源&#xff1a;科学网在我们每日的饮食中&#xff0c;食盐&#xff08;氯化钠&#xff09;是少不了的&#xff0c;难以想象我们怎么能够每天吃完全没有盐味的食物。不仅人类如此&#xff0c;许多动物&#xff0c;例如食草的动物如牛和羊&#xff0c;也会主动寻找土表盐粒。我…

冈萨雷斯《数字图像处理》读书笔记(九)——形态学图像处理

形态学来自于生物学&#xff0c;研究动植物的形态和结构。运用在图像中可提取如边界、骨架和凸壳。初学形态学都是在二值化的图像上研究&#xff0c;之后可以扩展到灰度图像。 膨胀和腐蚀 数学形态学与集合论分不开&#xff0c;因为形态学中的操作是基于两个集合的&#xff0…

云计算行业现状及未来发展趋势

来源&#xff1a;国元证券、乐晴智库摘要&#xff1a;按照服务类型云计算被分为IaaS、PaaS、SaaS。▌云计算产业链构成按照服务类型云计算被分为IaaS、PaaS、SaaS。IaaS基础设施及服务:IaaS主要提供计算基础设施服务&#xff0c;主要包括CPU、内存、存储、网络、虚拟化软件、分…

冈萨雷斯《数字图像处理》读书笔记(三)——空间滤波

滤波这个词来源于频域处理&#xff0c;因为它的目的就是针对频率分量而言的&#xff0c;滤除一定的频率分量。但其实滤波在时域&#xff08;图像中对应为空域&#xff09;中也可以完成相应的操作&#xff0c;比如低通滤波器滤除了代表细节的高频分量&#xff0c;我们可以直接在…

WinInet:HTTPS 请求出现无效的证书颁发机构的处理

首先&#xff0c;微软提供的WinInet库封装了对网页访问的方法。 最近工作需要从https服务器获取数据&#xff0c;都知道https和http网页的访问方式不同&#xff0c;多了一道证书认证程序&#xff0c;这样就使得https在请求起来比http要复杂的多&#xff1b;好在&#xff0c;Win…

热度下的冷思考——智能眼镜到底有没有前途?

来源&#xff1a;环球网我们曾期望Google眼镜能够成为革命性的新产品&#xff0c;因为它某种程度上实现了大家对未来的幻想。然而Google眼镜作为概念产品虽然有趣&#xff0c;但它仍然太不成熟&#xff0c;而且因为存在侵犯隐私的可能还被大众抵触&#xff0c;更重要的是它花去…

TFRecords文件的存储与读取

将cats和dogs两个文件夹各1000张图片存储为&#xff1a;train.tfrecords#将图片文件生成train record import os import tensorflow as tf from PIL import Image #生成cats和dogs的record文件 path./data/train filenamesos.listdir(path) writertf.python_io.TFRecordWriter(…

对比激光SLAM与视觉SLAM:谁会成为未来主流趋势?

来源&#xff1a;智车科技摘要&#xff1a;SLAM&#xff08;同步定位与地图构建&#xff09;&#xff0c;是指运动物体根据传感器的信息&#xff0c;一边计算自身位置&#xff0c;一边构建环境地图的过程&#xff0c;解决机器人等在未知环境下运动时的定位与地图构建问题。目前…

链表中的指针

中期答辩改在了国庆之后&#xff0c;终于有时间可以看看剑指offer了。在看到单向链表的部分&#xff0c;对指针&#xff0c;尤其是头指针有点疑惑。首先容易理解的是链表的节点是一个结构体&#xff0c;该结构体包含一个数据&#xff08;一般是int型&#xff09;&#xff0c;还…

实现TFrecords文件的保存与读取

import os import cv2 import numpy as np import tensorflow as tf """ 将train文件夹下的cats和dog文件夹处理成train.tfrecords放在train文件夹里 """ #将图片的路径和对应的标签存储在list中返回 def deal(dir):images []temp []for root,…

工具推荐-css3渐变生成工具

今天工作用到了css3渐变&#xff0c;但是写起来才发现太麻烦了&#xff0c;而却很浪费时间&#xff0c;所以在这里向大家推荐一个在线的css3 渐变生成工具 地址是&#xff1a;http://www.colorzilla.com/gradient-editor/ 这个工具是可视化视图&#xff0c;用起来就和photoshop…

神经网络相关的笔试题目集合(一)

在找工作的过程中发现好多公司没有专门的、传统的图像处理岗位&#xff0c;所以只能参加算法类的笔试甚至AI类的笔试。在AI的笔试中几乎全是关于神经网络的问题&#xff0c;其实也都是很基础的一些问题&#xff0c;如果事先做了准备&#xff0c;可以从容应对。而对于我这种从传…