第七章:集成学习(利用AdaBoost元算法...)

---恢复内容开始---

  集成学习其实不能算一个算法,应该算是一种框架,集百家之长。集成算法具体有Bagging与Boosting两种大类。两者区别:

  1)Bagging是并行的,它就好比找男朋友,美女选择择偶对象的时候,会问几个闺蜜(几个算法)的建议,最后选择一个综合得分最高的一个作为男朋友。bagging中目前最流行的是随机森林;

      Boosting是串行的,它就好比追女友,3个帅哥追同一个美女,第1个帅哥失败->(传授经验:姓名、家庭情况) 第2个帅哥失败->(传授经验:兴趣爱好、性格特点) 第3个帅哥成功。boosting中目前比较流行的是AdaBoosting.

  2)Bagging是几个不同的分类器都决策后,对结果进行投票决定(票数多的),或者取平均等等。这里不同的分类器有两种方法产生,第一,用不同的算法,比如一个用决策树,一个用kNN;第二,相同的算法,比如都是决策树,但是训练集不同,也就是说每次从训练集中抽不同的部分给不同的分类器模型去训练。这样又有两种情况,一种是有放回的抽取,一种是无放回的抽取。一般用第二种方法。

    Boosting是几个分类器串行训练,Bagging中训练集的权重是相同的,但是Boosting中是不同的。第一个分类器训练后,将错误的训练集中错误的部分进行加大权重。依此类推,其实它就是不断改变将训练集分块(对错分块),改变权重。

 

  下面主要介绍随机森林与AdaBoosting算法。

  随机森林(random forest,RF)其具体原理与自写模块看这里。下面主要说一下用sklearn中的随机森林模块:

  还是与前几章一样用iris数据集分类举例,(ps:sklearn中不仅有随机森林分类模块RandomForestClassifier,也有回归RandomForestRegressor,调参参不多):

调试时发现,这里的参数n_estimators=150对结果影响很大很大,而且就算是相同的参数,这次运行结果准确率是100%,下一次说不定是95%。下面具体说一下RandomForestClassifier()中的参数。

详细参看这里。

 

  下面是AdaBoosting的介绍,具体的自写模块与原理看这里,下面用sklearn中的AdaBoosting解决书中病马预测的例子:

结果与逻辑回归那一章的结果差不多,不过这里参数比较难调。AdaBoostClassifier()函数中有五个参数要调,第一个参数base_estimator如果选择决策数DecisionTreeClassifier,它里面又有好几个参数。具体调参与介绍可以看这里。

 

补充一下:

书中最后不了一个非均衡分类问题(在分类器训练时,正例数目和反例数目不相等(相差很大)或者发生在正负例分类错误的成本不同的时候。)怎么办?看这里

 

 

 

 

 

 

 

 

 

 

---恢复内容结束---

转载于:https://www.cnblogs.com/maxiaonong/p/10034155.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-3难以复现,为什么说PyTorch走上了一条“大弯路”?

来源:OneFlow 投稿责编:欧阳姝黎2020 年,最轰动的 AI 新闻莫过于 OpenAI 发布的 GPT-3 了。它的1750亿参数量及其在众多NLP任务上超过人类的出众表现让人们开始坚信:大模型才是未来。但与之带来的问题是,训练超大模型所…

生小兔问题

生小兔问题🐰 本文研究生小兔问题。使用代数模型,在考虑生育情况变化的情况下,求解兔子/白鼠的数目变化。 第1章 问题重述 生小兔问题 兔子出生后能够存活12个月,从第7月开始生小兔,7、8两月每对兔子生1对小兔/月&am…

光刻机龙头ASML回应韩国建厂:无需过度解读

来源: 深城物联近期,韩国在半导体领域的动作不小。先是韩国总统文在寅公开宣布韩国将斥资4500亿美元建设全球最大芯片制造基地,之后韩国又向全球光刻机龙头大厂阿斯麦(ASML)抛出了橄榄枝,请ASML在韩国建立再…

Spring入门之一-------实现一个简单的IoC

一、场景模拟 public interface Human {public void goHome();} Human:人类,下班了该回家啦public interface Car {void start();void stop();void turnLeft();void turnRight();} Car:汽车,可以启动、停止、左转、右转public cla…

常染色体的隐性疾病数学建模(代数模型)

常染色体的隐性疾病数学建模(代数模型) 摘要:本文研究随交配代数的增长,常染色体隐性疾病的基因分布变化问题。使用代数模型,在正常人不与显性患者交配,但隐性患者可与正常人、隐性患者交配的情况下时&…

一文拆解中国火星车着陆全过程

天问一号着陆器降落火星(艺术图)来源: 深城物联 经过惊心动魄的九分钟,中国首个火星车祝融号成功穿越火星大气层,着陆于火星北半球的乌托邦平原南端。自此,继苏联和美国之后,中国成为了第三个成…

第二章 物理层 4 奈氏准则和香农定理 [计算机网络笔记]

第二章 物理层 4 奈氏准则和香农定理 本笔记参考书目: 计算机网络(第8版)谢希仁2021王道计算机网络视频公开课 本节重点: 奈氏准则和香农定理的计算/适用范围 转载请注明文章来源! 失真 失真的影响因素&#xff1…

谈谈数学之现在与未来

文章来源:好玩的数学来源:《数学教学通讯》2005年3月(上半月)(总第220期)作者:王元(中国科学院数学与系统科学研究院)数学科学是什么?我们首先谈谈数学科学是…

SQL Server创建Job, 实现执行相同脚本而产生不同作业计划的探究

1 . 背景描述 本公司的SQL Server 服务器近百台,为了收集服务器运行的状态,需要在各个实例上部署监控Job,将收集到的信息推送到中央管理服务器。 收集的信息主要包括:慢查询、阻塞、资源等待、Connection_Trace log 、Job执行状态…

基于线性常微分方程的我国某省艾滋病传播的数学模型建立和预测分析

基于线性常微分方程的我国某省艾滋病传播的数学模型建立和预测分析 如有错误,欢迎指正!转载需注明出处和作者信息!©️Sylvan Ding 摘要 艾滋病(AIDS)又称获得性免疫缺陷综合征,由人类免疫缺陷病毒&…

神经网络的持续终身学习综述论文

来源:专知人和高级动物在整个生命中不断获取、微调和转让知识和技能。这种能力,称为lifelong learning,是由一系列神经认知机制协调的过程,这些机制共同促进了sensorimotor技能的发展以及对长期记忆的巩固和检索。因此对于计算系统…

Pensando Distributed Services Architecture [Pensando 分布式服务架构] - 翻译

Pensando Distributed Services Architecture [Pensando 分布式服务架构] - 翻译 转载需注明文章出处:©️ Sylvan Ding Source: M. Galles and F. Matus, “Pensando Distributed Services Architecture” in IEEE Micro, vol. 41, no. 02, pp. 43-49, 2021. D…

反思脑机接口技术:机器真的能控制我们的大脑吗?

来源:AI科技评论作者:R. Douglas Fields编译:陈彩娴猛烈的公牛在冲锋的途中锁定了双腿。它将双蹄扎进地下,在与之搏斗的人类参赛选手被刺伤之前停了下来。这个人类参赛选手不是职业斗牛士,而是一名西班牙神经科学家&am…

C4.5决策树生成算法完整版(Python),连续属性的离散化, 缺失样本的添加权重处理, 算法缺陷的修正, 代码等

C4.5决策树生成算法完整版(Python) 转载请注明出处:©️ Sylvan Ding ID3算法实验 决策树从一组无次序、无规则的事例中推理出决策树表示的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较并根据不同的属性值判断从…

缅怀袁隆平院士:一颗稻谷里的爱国情怀

来源:科学网5月22日,《中国科学报》从中国工程院获悉,“共和国勋章”获得者、中国工程院院士袁隆平,因多器官功能衰竭,于2021年5月22日13时07分在长沙逝世,享年91岁。袁隆平对于国人来说,袁隆平…

k-Means——经典聚类算法实验(Matlab实现)

聚类算法—k-Means实验 k-平均(k-Means),也被称为k-均值,是一种得到最广泛使用的聚类算法[1]. k-Means算法以k为参数,把n个对象分为k个簇,使得簇内具有较高的相似度。 实验目的 了解常用聚类算法及其优缺…

这5个数学猜想最早在30年前提出,如今AI证明它们都错了

来源:AI科技评论编译:琰琰编辑:青暮近日,以色列特拉维夫大学研究团队在预印论文库提交了一篇名为“Constructions in combinatorics via neural networks“的论文,在这篇论文中,研究人员通过机器学习算法证…

Java AQS 核心数据结构-CLH 锁及优化

Java AQS 核心数据结构-CLH 锁 什么是CLH锁 CLH 锁是对自旋锁的一种改进,有效的解决了以上的两个缺点。 第一个是锁饥饿问题。在锁竞争激烈的情况下,可能存在一个线程一直被其他线程”插队“而一直获取不到锁的情况。第二是性能问题。在实际的多处理上…

M/M/m排队模型 (单队列多服务台并联服务模型)数学建模: 基于生灭过程的理论计算和基于事件推进的Matlab模拟仿真思路

M/M/m排队模型 (单队列多服务台并联服务模型) 数学建模: 基于生灭过程的理论计算和基于事件推进的Matlab模拟仿真思路 原创文章,转载文章请注明出处:©️Sylvan Ding 🎉🎉🎉 摘要 本文研究M/M/m单队列多服务台并…

用物理学来为生命技术及制度的演化找出规律-读《为什么世界不会失控》

来源:混沌巡洋舰物理学的规律是最底层的最永恒的,但能够对抗变化,维持自身结构的活系统,其规律则是最丰富的。“The physics of life”这本书,则是用能量的产生和耗散为视角,解释一切活系统,包括…