集成方法Ensemble Method(bagging, AdaBoost)

1 主要思想

  • 将原始数据分成几个组
  • 训练一组分类器,里面有很多种弱分类器
  • 每个分类器的标签看作一次投票,投票最多的标签为最终标签

其架构如下所示:

2 为什么集成方法可行

假设这里有25个训练的弱分类器,且这些分类器独立工作,不会相互影响。

每一个分类器的出错率 \varepsilon =0.35

集成分类器的最终做出一个错误预测的概率(超过一半的基础分类器都预测错了)为:

P(X\geq 13)=\sum_{i=13}^{25}\binom{25}{i}\varepsilon ^i(1-\varepsilon )^{25-i}=0.06

其中:X为做出错误预测的弱分类器的数量

由此可见,集成分类器做出一个错误预测的概率比弱分类器低很多。

下图显示了,弱分类器(有的文档也称base classifier)的错误率(做出错误预测的概率)与集成分类器(ensemble classifier)的错误率之间的关系

由上图可见,当弱分类器的错误率低于0.5时,集成分类器才有效。

集成分类器主要分为两种,一种处理数据的分布,例如bagging,boosting;

另一种处理输入特征,例如 random forests

 

3 Bagging Algorithm

3.1 Pseudo code

  • 放回抽样(sampling with replacement)

3.2 实例

已知一维原始数据集:

弱分类器是一个单层决策树(desicion stump)

抽样,分类

统计各标签的得票数(正票数+负票数):

上图中最后一行为预估类(或标签)

 

4 AdaBoosting Algorithm

4.1 Boosting

在bagging中,每一轮sampling,数据被取得概率都是一样的,而Boosting更加关注哪些被误分类的数据。

在Boosting算法中,首先,在第一轮Boosting中,所有的数据都被分配相同的权重(被抽取的概率),

在以后的几轮抽取中,被抽取的权重发生变化,错误分类的数据的被抽取的权重将会提升,

而正确分类的数据被抽取的权重将会降低。

4.2 AdaBoosting 

4.2.1 Pseudo code

首先初始化权重w=1/n 并训练弱分类器:C1, C2, …, CT

其次,计算错误率:

计算一个分类器的重要性:

更新权重:

Z_j 使所有 w_i 之和为1.

如果错误率高于0.5,所有权重再次被分配为1/n

分类公式:

4.2.2 实例

3.2中的一维原始数据集:

基本分类器任然是一个单层决策树(desicion stump)

训练数据过程:

总结:

计算权重:

分类:

预测分类的计算:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492155.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ICSharpCode.SharpZipLib 开源压缩库使用示例

官方网站:http://www.icsharpcode.net/OpenSource/SharpZipLib/Default.aspx 插件描述: ICSharpCode.SharpZipLib.dll 是一个完全由c#编写的Zip, GZip, Tar and BZip2 library,可以方便地支持这几种格式的压缩解压缩, SharpZipLib 的许可是经过修改的GPL…

深度解析“中国制造2025”VS德国“工业4.0”,一场没有硝烟战争

来源:世界科技创新论坛摘要:“中国制造2025”与德国“工业4.0”都是在新一轮科技革命和产业变革背景下针对制造业发展提出的一个重要战略举措。比较两个战略可以看出各有特点,除了技术基础和产业基础不同之外,他们还存在战略思想等…

SQL- AND OR Order by INSERT INTO

AND & OR 运算符用于基于一个以上的条件对记录进行过滤。 ORDER BY语句用于对结果集进行排序。 ORDER BY 语句默认按照升序对记录进行排序。如果希望用降序,可使用DESC关键字。 INSERT INTO 用于向表格中插入新的行。 语法: INSERT INTO talbe_name …

Imbalanced class problem(ROC, Confusion Matrix)

1 何为 Imbalanced class problem 在分类问题中,有时候一种类别的数据会远远的多于另外一种类别, 但正是这些少量的类别的数据,往往又是极其重要的。 比如信用卡欺诈事件,该事件远远地小于信用卡未被欺诈的事件。 要从信用卡操…

浅谈 EHT 黑洞照片拍摄原理

来源:东晓科学网博客前几天,EHT (Event Horizon Telescope)(事件水平线望远镜)研究团队发布重大新闻,公布了人类首次拍到的黑洞“照片“”,同时公布了7篇由200多名科学家署名的相关论文。所谓黑…

swift开发体验,论objective-c与swift的选择

使用swift开发已经有半年之久了,期间做了一个电商应用,类似京东,苏宁的。主要谈谈感受,swift简洁的语法,不用写分号,所有自己写得工具类,第三方类库,都能自动import,着实…

积分图像(Integral image)

1 问题起源 给定一幅灰度图像,其灰度值如下图所示, 要计算图中深色区域的所有像素点的灰度值之和。 最直接,简单的方法就是将这9个像素值直接相加。 如果深色区域扩大,里面包含成千上万个像素,这种算法的时间复杂度…

vue3(七)-基础入门之事件总线与动态组件

一、事件总线 事件总线使用场景&#xff1a; 两个兄弟组件之间的传参&#xff0c;或者两个没有关联的组件之间的传参 html &#xff1a;引入 publicmsg 与 acceptmsg 自定义组件 (自定义组件名称必须小写) <body><div id"app"><publicmsg></…

机器学习竞争其实是一场数据上的竞争

来源&#xff1a;网络大数据摘要&#xff1a;人工智能的三大发展要素已经是老生常谈了。算法、算力和数据对机器学习的重要性和声望不亚于“谦哥”的喝酒、烫头和抽烟。那些热衷竞争实施机器学习的公司现在惊讶地发现&#xff0c;其实&#xff0c;实施一些算法使机器变得对某一…

实验五 — — Java网络编程及安全

java的第五个实验——Java网络编程及安全 北京电子科技学院 实 验 报 告 课程&#xff1a;Java程序设计  班级&#xff1a;1352  姓名&#xff1a;林涵锦  学号&#xff1a;20135213 成绩&#xff1a; 指导教师&#xff1a;娄嘉鹏    实验日期&…

Viola-Jones人脸检测详解

在人脸检测中&#xff0c;Viola-Jones算法是一种非常经典的算法&#xff0c;该算法在2001年的CVPR上提出&#xff0c;因其高效快速的检测而被广泛使用。 这个算法用来检测正面的人脸图像&#xff0c;对于侧脸图像的检测不是很稳健。 算法可以被分为以下几个部分&#xff1a; …

中国的高铁世界第一,为何汽车却和德国、日本差距很大?

来源&#xff1a;中国经济大讲堂摘要&#xff1a;靠引进技术发展&#xff0c;可以换来制造技术&#xff0c;建成一定规模、一定水平的体系。但我们在抓住机遇、引进技术发展的同时&#xff0c;或者发展的后期&#xff0c;等我们有了市场&#xff0c;有了钱之后&#xff0c;应该…

Ubuntu 安装和使用 jupyter 出现的问题总结

1、在终端中输入‘sudo pip3 install jupyter’, 出现黄色的‘warring,如下&#xff1a; The directory /home/stone/.cache/pip/http or its parent directory is not owned by the current user and the cache has been disabled. Please check the permissions and owner o…

SSH反向连接及Autossh

转自&#xff1a; http://www.cnblogs.com/eshizhan/archive/2012/07/16/2592902.html 0.接触Linux恐怕对SSH再熟悉不过了&#xff0c;还有scp&#xff0c;sftp各种方便的功能&#xff0c;一般的使用都需要ip:port&#xff08;如果不是默认22的话&#xff09;&#xff0c;但有些…

硬核干货|揭示波士顿动力机器人背后的专利技术(上)

来源&#xff1a;超凡知识产权&#xff0c;机器人大讲堂整理发布摘要&#xff1a;如果说在腿足机器人领域里&#xff0c;有一个让人闻之色变的变态企业&#xff0c;那就非波士顿动力莫属了。深耕几十年的技术积累加上“不谙世事”的科研态度&#xff0c;使得BD一直保持在腿足机…

(Python+Tensorflow)编程踩坑集锦

(PythonTensorflow)编程踩坑集锦 1 开发环境安装 推荐视频&#xff1a;https://www.icourse163.org/learn/PKU-1002536002?tid1452937471#/learn/content?typedetail&id1229556595&cid1246770451&replaytrue 1.1 Tensorflow2安装过程&#xff08;Win10平台&am…

浮动在IE6,7下的一些问题

1、首先如果两个元素要并在同一行&#xff0c;使用float最好两个都加浮动 2、IE6下双边距问题&#xff0c;当有块级元素浮动的时候&#xff0c;该元素的横向margin值会被放大为两倍&#xff0c;解决办法&#xff1a;给该元素加display&#xff1a;inline即可。 3、li的一些问题…

复盘亚马逊从优秀到卓越的24年

来源&#xff1a;方证证券4月18日&#xff0c;据报道&#xff0c;亚马逊公司计划在今年7月中旬关闭其在中国的本土电商业务&#xff0c;将业务重点转移至更有盈利空间的海外购和云服务上。对此&#xff0c;亚马逊方面4月18日回应澎湃新闻记者称&#xff0c;“明确的是&#xff…

Python time datetime常用时间处理方法

常用时间转换及处理函数&#xff1a; import datetime # 获取当前时间 d1 datetime.datetime.now() print d1 # 当前时间加上半小时 d2 d1 datetime.timedelta(hours0.5) print d2 # 格式化字符串输出 d3 d2.strftime(%Y-%m-%d %H:%M:%S) print d3 # 将字符串转化为时间类型…

深度!移动机器人(AGV)产业链全分析

来源&#xff1a;广证恒生、乐晴智库精选产业链&#xff1a;下游需要求旺盛带动下游产业链发展 移动机器人(AGV)是工业机器人的一种。它由计算机控制&#xff0c;具有移动、自动导航、多传感器控制、网络交互等功能&#xff0c;在实际生产中最主要的用途是搬运&#xff0c;可以…