bagging算法_集成算法——三个“臭皮匠”级算法优于一个“诸葛亮”级算法

最近在打算法竞赛的时候用到了集成算法,效果还不错,索性就总结了一篇集成算法的文章,希望能帮到正在转行的数据分析师们。集成算法核心思想集成算法的核心思想是通过构建并结合多个学习器来完成学习任务,也就是通俗意义上的三个“臭皮匠”顶个“诸葛亮”。关注问题:1、如何产生一组“个体学习器”?2、如何利用某种策略将“个体学习器”结合起来?集成算法种类根据个体学习器的生成方式,最常用的集成算法可以分为两大类,即个体学习器间存在强依赖关系(多项式学习算法)必须串行生成的序列化算法【Boosting方法,代表算法:Adaboost算法Boosting tree】,以及个体学习器之间不存在强依赖关系,通过并行生成的集成算法【bagging方法,代表算法:随机森林(Randon Forest)Bagging1、算法原理:
  • 从原始样本集中抽取训练集。每轮从原始样本集中使用Bootstraping的方法抽取n个训练样本(在训练集中,有些样本可能被多次抽取到,而有些样本可能一次都没有被抽中)。共进行k轮抽取,得到k个训练集。(k个训练集之间是相互独立的)
  • 每次使用一个训练集得到一个模型,k个训练集共得到k个模型。(注:这里并没有具体的分类算法或回归方法,我们可以根据具体问题采用不同的分类或回归方法,如决策树、感知器等)
  • 对分类问题:将上步得到的k个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(所有模型的重要性相同)
2、采样策略:自助采样法,有放回抽样n次得到样本量为n的训练样本集用于每次基分类器的训练3、基学习器组合策略:对于分类问题,基分类器采用投票法得到结果,对于回归问题,通过对基分类器的预测值取平均值得到结果。4、算法步骤:c991600d814e14b8ea8d0dc0c412ad69.png4、随机森林4.1算法原理:以决策树作为基学习器构建bagging集成,并在决策树的训练过程中引入随机属性选择。4.2随机性:随机森林的随机性体现在样本的随机性和特征选择的随机性Boosting1、算法原理:通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提升分类性能。大多数的提升方法都是改变训练数据的概率分布(权值),针对不同的训练数据分布调用弱分类算法学习一系列弱分类器。2、Adaboost2.1算法原理:
  • 提高前一轮弱分类器错误分类样本的权值,降低正确分类样本的权值
  • 弱分类器的组合,采用加权多数表决的方法,具体地,加大分类误差小的弱分类器的权值,使其在表决中起大作用,减小分类误差大的弱分类器权值
2.2算法步骤:e9e9a26c03e051a2fd7bcef222975446.png2.3机器学习视角的解释:ModelSet:加法模型,基学习模型的线性组合LossFunction:指数损失函数【分类问题】优化策略:前向分步算法3、提升树3.1核心思想:以分类树或回归树为基本分类器的提升方法,加法模型,与前向分步算法,以决策树为基分类器的提升方法,串联决策树模型,第一个决策树拟合具体数学,以后的决策树拟合前一个决策树的残差。3.2算法步骤:f992cfb346ea44c99f88f9ddff16c679.png3.3机器学习视角的解释:ModelSet:加法模型,基学习模型的线性组合LossFunction:指数损失函数【分类问题】、平方误差损失函数【回归问题】优化策略:前向分步算法常见面试问题1、bagging与boosting的区别
  • 样本选择上:Bagging:训练集是在原始集中有放回选取的,从原始集中选出的各轮训练集之间是独立的。Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权重发生变化。而权值是根据上一轮的分类结果进行调整。
  • 样例权重:Bagging:使用均匀取样,每个样例的权重相等Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。
  • 预测函数:Bagging:所有预测函数的权重相等。Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。
  • 并行计算:Bagging:各个预测函数可以并行生成
Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。2、随机森林与GDBT(提升树)的区别:
  • 随机森林采用的bagging思想,而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该算法对训练集训练t轮,每次训练后,对训练失败的样例赋以较大的权重),因此Boosting的分类精度要优于Bagging。Bagging的训练集的选择是随机的,各训练集之间相互独立,弱分类器可并行,而Boosting的训练集的选择与前一轮的学习结果有关,是串行的。
  • 组成随机森林的树可以是分类树,也可以是回归树;而GBDT只能由回归树组成。
  • 组成随机森林的树可以并行生成;而GBDT只能是串行生成。
  • 对于最终的输出结果而言,随机森林采用多数投票等;而GBDT则是将所有结果累加起来,或者加权累加起来。
  • 随机森林对异常值不敏感;GBDT对异常值非常敏感。
  • 随机森林对训练集一视同仁;GBDT是基于权值的弱分类器的集成。
  • 随机森林是通过减少模型方差提高性能;GBDT是通过减少模型偏差提高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244504.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机u盘驱动坏了如何的修复,U盘识别不了,小编教你U盘识别不了怎么修复

最近收到一个用户的提问,他说新买了了一个U盘,用了没几天,就发现电脑识别不了U盘。不像是U盘坏了,相信用过u盘的朋友遇到过U盘无法识别的情况吧,对于怎么解决这个问题,每个人都各有说辞,各种方案…

python读取html_从零开始的Python爬虫教程(一):获取HTML文档

前言:在上一节从零开始的Python爬虫教程(零):粗识HTML结构中,粗略给大家介绍了一下HTML文档,是为了在接下来的教程中让大家更容易理解和掌握。在接下来的教程中,需要大家提前安装python3.x版本,…

cmd长ping记录日志和时间_四个网络命令ping、arp、tracert、route的详细用法

网络相关的从业人员,都需要面对检测和解决网络故障的各种问题,实际案例中因为网络导致的故障也是最多的,今天我们和大家一起来学习一下解决网络故障时使用最多的四个网络命令。希望对大家以后的实际工作中的故障排除起到作用。1、Ping命令的用…

计算机d盘给c盘,win10 c盘与d盘都是主分区如何将d盘空间分给c盘

在安装win10系统的时候,用户都喜欢将硬盘分为多个主分区盘符,可是在使用过程中,发现win10系统中c盘空间越来越小,因此就想要将d盘空间分一些给c盘,那么win10系统c盘与d盘都是主分区时如何将d盘空间分给c盘呢&#xff1…

大学计算机用的笔记本,推荐一款大学生用笔记本电脑

现在的大学生,基本上都会购买一台适合适合自己的电脑。但是市面上那么多品牌,要怎么选择呢?下面是小编整理的详细内容,一起来看看吧!大学生用笔记本电脑推荐一、惠普ENVY 13这款惠普笔记本电脑只有13英寸,外…

数字图像处理技术详解程序_大学专业详解系列135——数字媒体技术(工学学士)...

数字媒体技术(工学学士)毕业生应具备的知识和能力(1)系统掌握数字媒体技术专业的基本理论、基础知识和基本技能;(2)掌握数字影视技术、数字影视制作技术的理论与方法,能熟练运用拍摄、编辑、特效制作等技巧创作数字影视作品;(3)掌握网络传播的…

乐高收割机器人_乐高圣诞45002作品来啦!——驯鹿拉雪橇、圣诞树、圣诞棒棒糖...

圣诞节快乐圣诞系列作品第五弹来袭大家好我是zfeng老师,今天我们继续来圣诞节系列作品吧!有粉丝朋友留言说希望出一起用百变工程系列积木搭建的圣诞主题作品,今天它来了,wedo、ev3的作品也已经安排接下来会陆续更新。闲话不多说啦…

w7系统关闭打印服务器,w7打印后台处理程序服务总是自动停止如何解决【照片】...

今天我要向您介绍的是,此w7打印后台处理程序服务始终会自动停止. 怎么解决呢?如何解决此问题,我将向您介绍具体的解决方案.计算机系统推荐下载: 雨林木风win7系统下载具体解决方案:1. 打印机服务启动设置开始打印服务要启动和查看打印服务&am…

域服务器怎么修改管理员密码,域服务器更改客户端管理员的密码

域服务器更改客户端管理员的密码 内容精选换一换管理员应定期修改Kerberos管理员“kadmin”的密码,以提升系统运维安全性。修改此用户密码将同步修改OMS Kerberos管理员密码。已在集群内的任一节点安装了客户端,并获取此节点IP地址。cd /opt/hadoopclien…

.classpath文件有什么用_干货分享:Windows目录结构剖析,C盘目录常见文件夹都有什么用?...

我们天天和文件夹打交道,但是有好多的碍眼的文件夹我们能不能删除呢,来看看今天的文章。先问一个问题,你对你电脑的文件系统了解多少?很多人只管用,但是有些时候,想要自己清理一下文件的时候,不…

手机型号云服务器,手机型号查询接口

手机型号查询接口 内容精选换一换通过调用云手机服务提供的接口,您可以完整地使用云手机的所有功能。例如查询云手机列表、重启云手机、为云手机推送文件。华为云帮助中心,为用户提供产品简介、价格说明、购买指南、用户指南、API参考、最佳实践、常见问…

python counter_教你Python的collections.Counter类型

collections.Counter 类型可以用来给可散列的对象计数,或者是当成多重集合来使用 —— 多重集合就是集合里的元素可以出现多次1。collections.Counter 类型类似于其它编程语言中的 bags 或者 multisets2。(1)基本用法counter collections.Counter([生物, 印记, 考古…

华为云classroom应用_华为任正非:将来所有应用都会长在云土地上,但现在还不是...

IT之家1月1日消息 昨日,华为心声社区公开了任正非 11 月 4 日在企业业务及云业务汇报会上的讲话。任正非表示,将来所有应用都会长在云土地上,但现在还不是,如何建成 “黑土地”是华为努力的任务,应一步一步来。IT之家了…

java不同进程的相互唤醒_Java线程生命周期与状态切换

前提最近有点懒散,没什么比较有深度的产出。刚好想重新研读一下JUC线程池的源码实现,在此之前先深入了解一下Java中的线程实现,包括线程的生命周期、状态切换以及线程的上下文切换等等。编写本文的时候,使用的JDK版本是11。Java线…

32查运行内存的map文件_linux内存管理

概念先行先理解内存管理中的几个概念:内存,主存,缓存,外存,虚拟内存,物理内存,虚拟地址,物理地址外存:计算机的外部存储,比如硬盘(机械硬盘、固态硬盘、混合硬盘)&#x…

react usecontext_鬼才!我居然把 Vue3 的原理用到了 React 上?

前言vue-next是Vue3的源码仓库,Vue3采用lerna做package的划分,而响应式能力vue/reactivity被划分到了单独的一个package中。如果我们想把它集成到React中,可行吗?来试一试吧。使用示例话不多说,先看看怎么用的解解馋吧…

微信多开txt_在电脑上怎么实现微信多开的效果

现在越来越多的年轻人在电脑办公的时候,不止有一个微信号,由于工作、家庭等各方面因素,想自己能在一个电脑上打开多个微信怎么办?下面小编就把自己的所学分享给大家一.首先在电脑桌面上新建一个txt文本文件,把这个文档…

vue slot scope使用_20、slot插槽的用法

重点:单个插槽、具名插槽、作用域插槽的用法;访问插槽的方法。其实本小白对插槽理解的还不深,哪些场景会经常用到插槽也不了解。但是本着“大胆猜测”的理念,我的猜测如下:假设有 父组件A,有 子组件B、子组…

python工作目录_如何使用python 3获取当前工作目录?

When I run the following script in IDLE import os print(os.getcwd()) I get output as D:\testtool but when I run from cmd prompt, I get c:\Python33>python D:\testtool\current_dir.py c:\Python33 How do I get same result which I got using IDLE ? 解决方案 …

flutter刷新页面_用Flutter实现58App的首页

背景Flutter作为全新跨平台应用框架,在页面渲染和MD开发上优势明显,可谓是业界一枝独秀。正好最近有这样的一个机会学习Flutter开发,我们便尝试用它开发一个MD风格的较复杂页面,来比较跟原生应用开发的优势。也是想通过对新框架的…