集成方法Ensemble Method(bagging, AdaBoost)

1 主要思想

  • 将原始数据分成几个组
  • 训练一组分类器,里面有很多种弱分类器
  • 每个分类器的标签看作一次投票,投票最多的标签为最终标签

其架构如下所示:

2 为什么集成方法可行

假设这里有25个训练的弱分类器,且这些分类器独立工作,不会相互影响。

每一个分类器的出错率 \varepsilon =0.35

集成分类器的最终做出一个错误预测的概率(超过一半的基础分类器都预测错了)为:

P(X\geq 13)=\sum_{i=13}^{25}\binom{25}{i}\varepsilon ^i(1-\varepsilon )^{25-i}=0.06

其中:X为做出错误预测的弱分类器的数量

由此可见,集成分类器做出一个错误预测的概率比弱分类器低很多。

下图显示了,弱分类器(有的文档也称base classifier)的错误率(做出错误预测的概率)与集成分类器(ensemble classifier)的错误率之间的关系

由上图可见,当弱分类器的错误率低于0.5时,集成分类器才有效。

集成分类器主要分为两种,一种处理数据的分布,例如bagging,boosting;

另一种处理输入特征,例如 random forests

 

3 Bagging Algorithm

3.1 Pseudo code

  • 放回抽样(sampling with replacement)

3.2 实例

已知一维原始数据集:

弱分类器是一个单层决策树(desicion stump)

抽样,分类

统计各标签的得票数(正票数+负票数):

上图中最后一行为预估类(或标签)

 

4 AdaBoosting Algorithm

4.1 Boosting

在bagging中,每一轮sampling,数据被取得概率都是一样的,而Boosting更加关注哪些被误分类的数据。

在Boosting算法中,首先,在第一轮Boosting中,所有的数据都被分配相同的权重(被抽取的概率),

在以后的几轮抽取中,被抽取的权重发生变化,错误分类的数据的被抽取的权重将会提升,

而正确分类的数据被抽取的权重将会降低。

4.2 AdaBoosting 

4.2.1 Pseudo code

首先初始化权重w=1/n 并训练弱分类器:C1, C2, …, CT

其次,计算错误率:

计算一个分类器的重要性:

更新权重:

Z_j 使所有 w_i 之和为1.

如果错误率高于0.5,所有权重再次被分配为1/n

分类公式:

4.2.2 实例

3.2中的一维原始数据集:

基本分类器任然是一个单层决策树(desicion stump)

训练数据过程:

总结:

计算权重:

分类:

预测分类的计算:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492155.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解析“中国制造2025”VS德国“工业4.0”,一场没有硝烟战争

来源:世界科技创新论坛摘要:“中国制造2025”与德国“工业4.0”都是在新一轮科技革命和产业变革背景下针对制造业发展提出的一个重要战略举措。比较两个战略可以看出各有特点,除了技术基础和产业基础不同之外,他们还存在战略思想等…

Imbalanced class problem(ROC, Confusion Matrix)

1 何为 Imbalanced class problem 在分类问题中,有时候一种类别的数据会远远的多于另外一种类别, 但正是这些少量的类别的数据,往往又是极其重要的。 比如信用卡欺诈事件,该事件远远地小于信用卡未被欺诈的事件。 要从信用卡操…

浅谈 EHT 黑洞照片拍摄原理

来源:东晓科学网博客前几天,EHT (Event Horizon Telescope)(事件水平线望远镜)研究团队发布重大新闻,公布了人类首次拍到的黑洞“照片“”,同时公布了7篇由200多名科学家署名的相关论文。所谓黑…

积分图像(Integral image)

1 问题起源 给定一幅灰度图像,其灰度值如下图所示, 要计算图中深色区域的所有像素点的灰度值之和。 最直接,简单的方法就是将这9个像素值直接相加。 如果深色区域扩大,里面包含成千上万个像素,这种算法的时间复杂度…

vue3(七)-基础入门之事件总线与动态组件

一、事件总线 事件总线使用场景&#xff1a; 两个兄弟组件之间的传参&#xff0c;或者两个没有关联的组件之间的传参 html &#xff1a;引入 publicmsg 与 acceptmsg 自定义组件 (自定义组件名称必须小写) <body><div id"app"><publicmsg></…

机器学习竞争其实是一场数据上的竞争

来源&#xff1a;网络大数据摘要&#xff1a;人工智能的三大发展要素已经是老生常谈了。算法、算力和数据对机器学习的重要性和声望不亚于“谦哥”的喝酒、烫头和抽烟。那些热衷竞争实施机器学习的公司现在惊讶地发现&#xff0c;其实&#xff0c;实施一些算法使机器变得对某一…

实验五 — — Java网络编程及安全

java的第五个实验——Java网络编程及安全 北京电子科技学院 实 验 报 告 课程&#xff1a;Java程序设计  班级&#xff1a;1352  姓名&#xff1a;林涵锦  学号&#xff1a;20135213 成绩&#xff1a; 指导教师&#xff1a;娄嘉鹏    实验日期&…

Viola-Jones人脸检测详解

在人脸检测中&#xff0c;Viola-Jones算法是一种非常经典的算法&#xff0c;该算法在2001年的CVPR上提出&#xff0c;因其高效快速的检测而被广泛使用。 这个算法用来检测正面的人脸图像&#xff0c;对于侧脸图像的检测不是很稳健。 算法可以被分为以下几个部分&#xff1a; …

中国的高铁世界第一,为何汽车却和德国、日本差距很大?

来源&#xff1a;中国经济大讲堂摘要&#xff1a;靠引进技术发展&#xff0c;可以换来制造技术&#xff0c;建成一定规模、一定水平的体系。但我们在抓住机遇、引进技术发展的同时&#xff0c;或者发展的后期&#xff0c;等我们有了市场&#xff0c;有了钱之后&#xff0c;应该…

硬核干货|揭示波士顿动力机器人背后的专利技术(上)

来源&#xff1a;超凡知识产权&#xff0c;机器人大讲堂整理发布摘要&#xff1a;如果说在腿足机器人领域里&#xff0c;有一个让人闻之色变的变态企业&#xff0c;那就非波士顿动力莫属了。深耕几十年的技术积累加上“不谙世事”的科研态度&#xff0c;使得BD一直保持在腿足机…

(Python+Tensorflow)编程踩坑集锦

(PythonTensorflow)编程踩坑集锦 1 开发环境安装 推荐视频&#xff1a;https://www.icourse163.org/learn/PKU-1002536002?tid1452937471#/learn/content?typedetail&id1229556595&cid1246770451&replaytrue 1.1 Tensorflow2安装过程&#xff08;Win10平台&am…

复盘亚马逊从优秀到卓越的24年

来源&#xff1a;方证证券4月18日&#xff0c;据报道&#xff0c;亚马逊公司计划在今年7月中旬关闭其在中国的本土电商业务&#xff0c;将业务重点转移至更有盈利空间的海外购和云服务上。对此&#xff0c;亚马逊方面4月18日回应澎湃新闻记者称&#xff0c;“明确的是&#xff…

深度!移动机器人(AGV)产业链全分析

来源&#xff1a;广证恒生、乐晴智库精选产业链&#xff1a;下游需要求旺盛带动下游产业链发展 移动机器人(AGV)是工业机器人的一种。它由计算机控制&#xff0c;具有移动、自动导航、多传感器控制、网络交互等功能&#xff0c;在实际生产中最主要的用途是搬运&#xff0c;可以…

英国前首相:为什么欧洲没有诞生互联网巨头?

David William Donald Cameron&#xff08;戴维威廉唐纳德卡梅伦&#xff09;见面会现场来源&#xff1a;世界科技创新论坛英国当地时间2019年4月12日&#xff0c;世界科技创新论坛伦敦峰会成功举行&#xff0c;本次峰会特别邀请了出身牛津大学、英国近两百年历史上最年轻的首相…

IIS解决 上传文件大小限制

目的&#xff1a;通过配置文件和IIS来解决服务器对上传文件大小的限制 1&#xff1a;修改配置文件&#xff08;默认为4M 值的大小根据自己情况进行修改&#xff09; <httpRuntime maxRequestLength"2048000" /> 2&#xff1a;修改IIS配置 打开C:\Windows\Syst…

脑内世界模型:脑科学基础上的意识问题哲学解说

来源&#xff1a;《华侨大学学报》哲学社会科学版2018年第5期作者&#xff1a;方圆&#xff08;中国科学院大学人文学院博士后研究人员&#xff09;本文旨在以当今时代脑科学研究结论为基础&#xff0c;在哲学层面回答“意识是什么”这一问题&#xff0c;并试图给出一种在科学与…

直击5G的机遇与挑战,全新商业模式、规模化经济效益、最新技术进展…全解读...

来源&#xff1a;TechRepublic、物联网智库编译摘要&#xff1a;报告指出&#xff0c;5G将改善用户体验&#xff0c;带来新的应用以及新的商业模式&#xff0c;产生显著的经济效益&#xff0c;但同时&#xff0c;5G的发展也面临着许多不可避免的挑战。毫无疑问&#xff0c;5G是…

simulink仿真学习(实现半波整流、方波输出) day1

** simulink仿真学习常用模块及具体案例实现&#xff08;第一天&#xff09; ** simulink简介 Simulink是美国Mathworks公司推出的MATLAB中的一种可视化仿真工具。Simulink是一个模块图环境&#xff0c;用于多域仿真以及基于模型的设计。它支持系统设计、仿真、自动代码生成…

深度报告解密华为汽车业务!布局三大领域,对标世界级Tier1

来源&#xff1a;智东西摘要&#xff1a;华为进军汽车电子领域&#xff0c;定位世界级Tier1供应商。汽车电子产业链 Tier1 系统集成厂商目前处于国际寡头垄断的市场格局&#xff0c;全球前十大汽车电子供应商拥有 70%市场占有率。即使国内市场也被博世、大陆、电装等国际 Tier1…

simulink仿真学习(关系运算及逻辑模块、离散时间积分模块)day2

1.关系运算模块&#xff08;应用实例&#xff09; 关系运算分为单目运算和双目运算&#xff0c;单目运算左侧输入为一个变量&#xff0c;双目运算左侧输入为两个变量。输出可能逻辑真或逻辑假。其中&#xff0c;逻辑真为1&#xff0c;逻辑假为0。 下图为双目关系运算的逻辑关…