【机器学习】Bagging和Boosting的区别(面试准备)

Baggging 和Boosting都是模型融合的方法,可以将弱分类器融合之后形成一个强分类器,而且融合之后的效果会比最好的弱分类器更好。

Bagging:

先介绍Bagging方法:

Bagging即套袋法,其算法过程如下:

  1. 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)

  2. 每次使用一个训练集得到一个模型,k个训练集共得到k个模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)

  3. 对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(所有模型的重要性相同)

Boosting:

      AdaBoosting方式每次使用的是全部的样本,每轮训练改变样本的权重。下一轮训练的目标是找到一个函数f 来拟合上一轮的残差。当残差足够小或者达到设置的最大迭代次数则停止。Boosting会减小在上一轮训练正确的样本的权重,增大错误样本的权重。(对的残差小,错的残差大)

      梯度提升的Boosting方式是使用代价函数对上一轮训练出的模型函数f的偏导来拟合残差。

Bagging,Boosting二者之间的区别

Bagging和Boosting的区别:

1)样本选择上:

Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。

Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。

2)样例权重:

Bagging:使用均匀取样,每个样例的权重相等

Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。

3)预测函数:

Bagging:所有预测函数的权重相等。

Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。

4)并行计算:

Bagging:各个预测函数可以并行生成

Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。

5)为什么说bagging是减少variance(方差),而boosting是减少bias(偏差)??

这个很重要 

通常来说bagging,之所以进行bagging,是希望模型能够具有更好的鲁棒性,也就是稳定性,希望避免过拟合,显然这就是在减少variance。

boosting是在优化loss function损失函数--- L2正则,在降低loss,那么很显然,这在很大程度上是减少bias。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python中的循环结构

循环结构 循环结构可以减少源程序重复书写的工作量(代码量),用来描述重复执行某段算法的问题,这是程序设计中最能发挥计算机特长的程序结构。 Python中循环结构分为两类,分别是 while 和 for .. in while 格式1: num1,num2 3…

线性判别结合源码分析LDA原理

1. LDA的思想 LDA线性判别分析也是一种经典的降维方法,LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA的思想可以用一句话概括,就是“投影后类内方…

RIFF文件规范

RIFF文件规范Peter Lee 2007-10-02 摘要:RIFF全称为资源互换文件格式(Resources Interchange File Format),RIFF文件是windows环境下大部分多媒体文件遵循的一种文件结构,常见的如WAV文件、AVI文件等。RIFF可以看成一种…

FB宣布将回购60亿美元股票 首席会计官将离职

11月19日消息,据美国媒体报道,Facebook宣布将回购60亿美元股票,回购计划将在明年第一季度开始实施。另外,该公司还宣布首席会计官贾斯艾特瓦尔将离职。 短期回购股票可使Facebook赢得时间,缓解投资长期项目如Instagram…

2017小目标

最美人间四月天,没有三月的傲寒,没有五月的燥热,桃花刚偷去了红,杨柳在风中扭着腰,樱花正开的烂漫。工作繁忙之余。做一下深呼吸,沾衣欲湿杏花雨,吹面不含杨柳风。不知不觉2017第一季度已经结束…

【机器学习】feature_importances_ 参数源码解析

在用sklearn的时候经常用到feature_importances_ 来做特征筛选,那这个属性到底是啥呢。 分析源码发现来源于每个base_estimator的决策树的 feature_importances_ 由此发现计算逻辑来源于cython文件,这个文件可以在其github上查看源代码 而在DecisionTree…

流行视频格式讲解

转自 豪杰技术 http://www.herosoft.com 流行视频格式讲解 *. MPEG/.MPG/.DAT MPEG也是Motion Picture Experts Group 的缩写。这类格式包括了 MPEG-1, MPEG-2 和 MPEG-4在内的多种视频格式。MPEG-1相信是大家接触得最多的了,因为目前其正在被广泛地应用在 VCD…

欧盟通过最新《数据保护法》

欧洲议会近日通过了最新的《数据保护法》,用以保护消费者的数据和隐私。该法案是数字时代的首个新规,取代了一套20年前的、在互联网发展初期阶段构想的规则。新规规定,当企业所拥有的消费者相关数据遭遇黑客攻击等泄露事件后,消费…

ajax 长轮询

未完成,因为需要换成webscoket来做,该ajax长轮询有待完善 function poll(){$.ajax({type:"POST",url:"ajax",async:true,data:{"receiverType":"single","receiverId":"${receiverId}",&qu…

python中变量的作用域

变量的作用域 变量的作用域就是指变量的有效范围。 变量按照作用范围分为两类,分别是 全局变量 和 局部变量。 全局变量:在函数外部声明的变量就是全局变量 有效范围:全局变量在函数外部可以正常使用。全局变量在函数内部也可以正常使用(需要…

【机器学习】 关联规则Apriori和mlxtend——推荐算法

引入: 啤酒与尿布的故事 关联规律挖掘:从交易数据中发现:买了X 还会买Y 的规则 关联规律挖掘‘购物篮分析’Market Basket Analysis(MBA) 关联规律->应用于推荐系统 1. 关联规则代码演示 使用的是mlxtend.frequent…

预防和检测如日中天?事件响应表示不服

近些年,企业安全工作的关注点,一直聚焦在如何预防黑客攻击。但是,频发的大型跨国企业的数据泄露事件表明,即使是对网络安全更为重视,同时也投入了更多成本的金融业,也明白了“无论做了怎样的安全防护&#…

python中的内部函数和闭包函数

内部函数 在函数内部声明的函数就是内部函数。 格式: def 函数名():局部变量...def 内部函数名():Python功能代码...示例: def funName():name dragon#定义一个内部函数def inner():print(我是内部函数)‘’‘注释: 1.内部函数的本质就是局…

【机器学习】K-Means(非监督学习)学习及实例使用其将图片压缩

非监督学习之k-means K-means通常被称为劳埃德算法,这在数据聚类中是最经典的,也是相对容易理解的模型。算法执行的过程分为4个阶段。 1、从数据中选择k个对象作为初始聚类中心; 2、计算每个聚类对象到聚类中心的距离来划分; 3、再次计算…

CloudCC CRM:物联网必将成为CRM的推动力

CRM热门话题背后的主要推动力包括云、社交、移动和大数据,CloudCC CRM认为物联网必将成为CRM的推动力,也就是传感器将事物连接到互联网,创建之前我们从未想到的新型服务。 社交:在销售、市场和客户服务部门,营销人员正…

关于Video Renderer和Overlay Mixer

原文作者: 陆其明 整理日期: 2004/12/27 大家知道,Video Renderer (VR)是接收RGB/YUV裸数据,然后在显示器上显示的Filter。为提高计算机画图性能,根据你计算机显卡的能力,VR会优先使用DirectDraw以及Overlay表面;如果…

【tensorflow】tensorflow -gpu安装及jupyter环境更改

tensorflow -gpu安装 首先,安装Anoconda 1. 官网下载点我:2.安装 点击 python 3.6 version自动下载x64版,下载好之后,然后安装。 如图,打上勾之后,一路next3.打开终端 1)输入conda –-version …

张震博士:SDT是未来安防发展方向

如何挖掘安防大数据价值是未来发展方向 发展实践证明,科技强警已经成为未来发展的必然选择,发展科技强警,必须用技术实力说话。作为科技强警的重要组成部分,安防视频非常重要,但是,目前,安防视频…

关于虚拟机第二块网卡eth1(仅主机模式)的配置问题

这里发生了一个想不明白的事情,我的真机的网卡上面并没有192.168.100.0网段的网卡 但是我在虚拟机上面添加了一块网卡(仅主机模式)eth1 并配置为192.168.100.60(配置文件已经写好) 开机却能用eth1连接上xhell&#xff…

【机器学习】朴素贝叶斯介绍及实例--对短信进行二分类 使用多项式分布

贝叶斯 首先什么是贝叶斯? 一个例子,现分别有 A、B 两个容器,在容器 A 里分别有 7 个红球和 3 个白球,在容器 B 里有 1 个红球和 9 个白球,现已知从这两个容器里任意抽出了一个球,且是红球,问这…