【随机森林】random forests 简单介绍

  • Random Forest,顾名思义 Random 就是随机抽取; Forest 就是说这里不止一棵树,而由 一群决策树组成的一片森林 ,连起来就是用随机抽取的方法训练出一群决策树来完成分类任务。
  • RF用了两次随机抽取, 一次是对训练样本的随机抽取; 另一次是对变量 (特征) 的随机抽取。这主要是为了解决样本数量有限的问题
  • RF的核心是由弱变强思想的运用。每棵决策树由于只用了部分变量、部分样本训练而成, 可能单个的分类准确率并不是很高。 但是当一群这样的决策树组合起来分别对输入数据作出判断时, 可以带来较高的准确率。有点类似于俗语三个㚖皮匠顶个诸葛亮。
  • 随机森林有两个重要参数:树节点预选的变量个数;随机森林中树的个数

随机森林思想来源

PAC →Bootstrap →Bagging →Random Forest ←CART \text { PAC } \rightarrow \text { Bootstrap } \rightarrow \text { Bagging } \rightarrow \text { Random Forest } \leftarrow \text { CART }  PAC  Bootstrap  Bagging  Random Forest  CART 

PAC(Probably Approximately Correct)

  • 在该模型中, 若存在一个多项式级的学习算法来识别一组概念, 并且识别正确率很高, 那么这组概念是强学习算法; 而如果学习算法识别一组概念的正确率仅比随机猜测略好, 那么这组概念是弱学习算法。
  • 如果可以将弱学习算法提升成强学习算法, 那么我们就只要找到一个弱学习算法, 然后把它提升成强学习算法, 而不必去找通常情况下很难获得的强学习算法。

Bootstrap

  • 根据PAC由弱得到强的思想, 统计学著名学者Bradley Efron在 1979年提出了Bootstraps算法, 这个名字来自于成语 “pull up by your own bootstraps”, 意思是依靠自己的资源, 称为自助法。
  • 它的思想就是当样本数量不大, 分布情况未知时, 可以从原始样本中随机抽取的多个样本情况 (弱学习) 来估计原样本真实的分布情况。它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。
  • 其基本步骤如下:
    – (1) 从原始数据集中, 有放回地抽样一定数量的样本
    – (2)根据抽出的样本计算给定的统计量 T\mathrm{T}T
    – (3)重复上述N次 (一般大于1000), 得到 NNN 个统计量 T\mathrm{T}T
    – (4)计算上述 N\mathrm{N}N 个统计量 T\mathrm{T}T 的样本方差, 得到统计量的方差
  • 0.632自助法
    假设给定的数据集包含 d\mathrm{d}d 个样本。该数据集有放回地抽样 d\mathrm{d}d 次, 产生 d\mathrm{d}d 个样本的训练集。原数据中的某些样本很可能在该样本集中出现多次。显然每个样本被选中的概率是 1/d1 / \mathrm{d}1/d,因此未被选中的概率就是 (1−1/d)(1-1/d)(11/d),这样一个样本在训练集中没出现的概率就是 d\mathrm{d}d 次都未被选中的概率, 即 (1−1/d)d(1-1/d) ^d(11/d)d。当 ddd 趋于无穷大时, 这一概率就将趋近于e−1=0.368e^{-1}=0.368e1=0.368,所以留在训练集中的样本大概就占原来数据集的 63.2%63.2 \%63.2%

Bagging

  • Bagging 又叫bootstrap aggregation, 是Breiman在1993 年提出的方法, 第一步就是根据Bootstrap进行抽样。
  • 基本的步骤:
    – (1)从样本集中用Bootstrap采样选出 n\mathrm{n}n 个样本
    – (2)在所有属性上, 对这 n\mathrm{n}n 个样本建立分类器 (CART or SVM or …)
    – (3)重复以上两步m次, i.e. 建立 mmm 个分类器 (CART or SVM or … )
    – (4)将数据放在这m个分类器上跑, 最后vote看到底分到哪一类
  • 这种方法可以大大降低每个分类器的不稳定性, 从而带来较高的预测准确率。从这个方法再往下发展就是随机森林了

随机森林

  • 随机森林是以决策树为基本分类器的一个集成学习模型, 它包含多个由Bagging集成学习技术训练得到的决策树。
  • Random Forests不同的是: 在Bagging的基础上, 使用一种改进的树学习算法, 在每个候选分裂的学习过程中, 选择特征值的一个随机子集。有时被称为 “feature bagging”。
    在这里插入图片描述
  • 该算法用随机的方式建立起一棵棵决策树, 然后由这些决策树组成一个森林, 其中每棵决策树之间没有关联, 当有一个新的样本输入时, 就让每棵树独立的做出判断, 按照多数原则决定该样本的分类结果。

构建随机森林

(1) 从样本集中用bagging采样选出 n\mathrm{n}n 个样本, 预建立CART
(2) 在树的每个节点上, 从所有属性中随机选择 k\mathrm{k}k 个属性, 选择出一个最佳分割属性作为节点(RI 和 RC )
(3) 重复以上两步m次, i.e. 构建m棵CART (不剪枝)
(4) 这 m\mathrm{m}m 个CART形成Random Forest

利用随机森林预测

(1) 向建立好的随机森林中输入一个新样本
(2) 随机森林中的每棵决策树都独立的做出判断
(3) 将得到票数最多的分类结果作为该样本最终的类别

影响性能的因素

  • 森林中单棵树的分类强度(Strength):每棵树的分类强度越大, 则随机森林的分类性能越好
  • 森林中树之间的相关度(Correlation):树之间的相关度越大,则随机森林的分类性能越差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/258274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信息安全系统设计基础第三周学习总结—20135227黄晓妍

一.Vim编辑器 1.Vim的六种模式 2.Vim三种常用模式的使用方式,以及三者的切换。打开Vim即默认进入普通模式,按i进入插入模式,按esc从插入模式退出普通模式,再按:进入命令行模式。 普通模式下游标的移动 按键 说明 h …

脚本命令_SAP HANA数据库备份命令脚本

需求场景:HANA数据库版本 2.044 , SYSTEMDB库1个,Tenant库有3个 PRD、POP、HAP需要用命令行备份。备份原理说明:1、脚本同hana studio 一样,用SYSTEM用户去备份所有的数据库。2、备份脚本工作在数据库管理员用户下&…

CSS3中border-radius、box-shadow与gradient那点事儿

一、border-radius border-radius用于添加圆角边框,用处非常广泛。 1)一个值,代表了四个角 .radius-one {/* Safari 3-4, iOS 1-3.2, Android 1.6- */-webkit-border-radius: 12px; /* Firefox 1-3.6 */-moz-border-radius: 12px; /* Opera 1…

编程 跳台阶_Java版剑指offer编程题第8题--跳台阶

跟learnjiawa一起每天一道算法编程题,既可以增强对常用API的熟悉能力,也能增强自己的编程能力和解决问题的能力。算法和数据结构,是基础中的基础,更是笔试的重中之重。不积硅步,无以至千里;不积小流&#x…

获取汉字的首字母(转)

转换 获取一个汉字的拼音首字母。 GB码两个字节分别减去160,转换成10进制码组合就可以得到区位码例如汉字“你”的GB码是0xC4/0xE3,分别减去0xA0&#xf…

Deep Learning(深度学习) 学习笔记(四)

神经概率语言模型,内容分为三块:问题,模型与准则,实验结果。[此节内容未完待续...] 1,语言模型问题 语言模型问题就是给定一个语言词典包括v个单词,对一个字串做出二元推断,推断其是否符合该语言…

JavaScript 运行机制

JavaScript 运行机制 阅读目录 一、为什么JavaScript是单线程?二、任务队列三、事件和回调函数四、Event Loop五、定时器六、Node.js的Event Loop七、关于setTimeout的测试一、为什么JavaScript是单线程? JavaScript语言是单线程,也就是说&am…

android自定义倒计时控件示例

这篇文章主要介绍了Android秒杀倒计时自定义TextView示例,大家参考使用吧 自定义TextView控件TimeTextView代码: 复制代码 代码如下:import android.content.Context;import android.content.res.TypedArray;import android.graphics.Paint;import andro…

从gitlab上拉代码_从gitlab上拉取代码并一键部署

一、gitlab安装GitLab是一个利用Ruby on Rails开发的开源应用程序,实现一个自托管的Git项目仓库,可通过Web界面进行访问公开的或者私人项目。GitLab拥有与Github类似的功能,能够浏览源代码,管理缺陷和注释。可以管理团队对仓库的访…

产品管理流程

转载于:https://www.cnblogs.com/candle806/p/4860841.html

如何根据灰度直方图计算标准差_如何根据电器功率计算电线的粗细?

一般来说,测算电线的粗细,需要根据功率计算电流,根据电流选择导线截面,根据导线的截面,导线或电缆的型号查厂家的该型号的导线电缆的直径。这里就涉及了:电线粗细与功率之间的关系计算;导线截面…

解惑烟草行业工控系统如何风险评估

上周五下午,威努特工控安全联合创始人 赵宇 先生,带来了一场关于“工控系统的风险评估”的技术讲座。此次近200注册报名的朋友,来自各大高校、国企、外企、测评中心、安全厂商、大型集成商以及大型IT科技企业、安全实验室等。 烟草企业调研参…

UVa 11806 Cheerleaders

题意:m行n列的矩形网格放k个相同的石子,要求第一行最后一行第一列最后一列都必须有石子,问有多少种放法 A为第一行没有石子的方案数,BCD依此类推,全集为S 如果没有任何要求的话,放法数应该是C(rc, k) 解法中…

为什么说一站式移动办公SaaS平台一定是未来!

摘要:移动办公SaaS之间的核心竞争不在于比拼技术,而在于谁更好地与企业管理和文化相互融合,给企业带来更加年轻、更加高效的工作方式,实现了企业组织的互联网化。 没有哪个企业愿意当诺基亚,“并没有做错什么&#xff…

server sql 将出生日期转为年龄_在sql server表中有一个出生日期字段我怎么才能在当前年份改变时自动更新年龄字段...

先说明下identity(1,1):自动1foreign key 外键语法create database ztxuse ztxCreate Table QAUser--baidu用户资料(Id int Primary Key not null identity(1,1),--自动编号,也同时用于对用户的标示符QA_name varchar(20),--用户名Sex char(2),--或者使用bit类型,但…

自动裁剪图片

自动裁剪商品图片View Code执行裁剪指定目录商品图片动作///<summary> ///执行指定目录商品图片动作 ///</summary> public static void FindPictureDoCutIt(object o) {string filePatho.ToString();try{DirectioryInfo fatherFolder new DirectioryInfo(filePat…

32位oracle_oracle 性能调优

pool&#xff0c;sga&#xff0c;pga的配置 物理内存16G在调整SGA前&#xff0c;先看下服务器操作系统是32位还是64位的&#xff0c;如果是32位的&#xff0c;则SGA最大不能超过1.7G&#xff0c;如果是64位的&#xff0c;则不能超过4G。基本分配原则&#xff0c;db_block_buffe…

看网络电子围栏如何做好周界安防

围栏是为了保护一定范围内的任何物遭到侵害而设立的一个屏障&#xff0c;在一定程度上有保护的作用&#xff0c;但是也不能完全阻止。传统的围栏以加高或者添加危险触碰物来增加安全性&#xff0c;但是会影响美观&#xff0c;不能进行主动击退&#xff0c;也给围栏内人物带来不…

Objective-C语法之代码块(block)的使用

代码块本质上是和其它变量相似。不同的是&#xff0c;代码块存储的数据是一个函数体。使用代码块是&#xff0c;你能够像调用其它标准函数一样&#xff0c;传入參数数&#xff0c;并得到返回值。脱字符&#xff08;^&#xff09;是块的语法标记。依照我们熟悉的參数语法规约所定…

卓越管理的实践技巧(1)如何进行有效的指导 Guidelines for Effective Coaching

Guidelines for Effective Coaching 前文卓越管理的秘密&#xff08;Behind Closed Doors&#xff09;最后一部分提到了总结的13条卓越管理的实践技巧并列出了所有实践技巧名称的索引&#xff0c;这篇文章主要写卓越管理的实践技巧的第&#xff08;1&#xff09;条&#xff1a;…