scikit_learn 官方文档翻译(集成学习)

1.11. Ensemble methods(集成学习)

目标:

相对于当个学习器,集成学习通过使用多个基学习器的预测结果来来提高学习预测的泛化性能以及鲁棒性;

集成学习的两个思路:

1)、通过使用并行的学习,得到多个学习模型然后取其平均结果目的在于减少方差,代表算法有随机森林。通常来说多个学习器的集成要比单个学习器的效果要好多。

2)、采用串行的方式生成多个学习器目的在于减少偏差(bias),使用多个弱分类器组合成为一个强分类器,代表算法adaBoosting以及boosting tree、GDBT。

1.11.1. Bagging meta-estimator

集成学习中,bagging方法使用训练集的一个随机子集来进行训练多个黑盒分类器,然后将不同的黑盒分类器集成到一起得到一个最终的预测模型。在生成训练模型的过程中引入随机化并在最后集成结果的方式可以减少整个训练模型的方差,同时不用因为底层的学习器的不同而发生改变。随机森林通过引入随机性来避免过拟合因此在生成基学习器时可以考虑完成生成即基学习器越强越好,对于boosting的方法则是相反,要求基学习器要弱一点才好。(boosting减少偏差,因为越强越吻合3反而容易出现过拟合)。

随机森林根据训练数据不同的生成方式包括一下:

1)、又放回的抽取,称作bagging

2)、针对特征进行随机化,成为随机子空间random subspace

3)、针对特征和样本都做随机化,称为随机patchs(补丁、块)

4)、随机抽取样本,称为 Pasting

scikit-learn框架中,sklearn.ensemble中有BaggingClassifier和BaggingRegres​sor两个对象可以实现Bagging方法。方法中可以通过参数指定模型使用基学习器的类型,以及抽取子集的策略。通用的参数为一下几个参数:

max_sample:指定随机子集的规模;小于1表示比例,大于1则为样本数

max_features:指定训练数据的特征规模;小于1表示比例,大于1则为样本数

boostrap:指定是否又放回的抽样;true/false;

boostrap_features:指定特征是否又放回的抽样;true/false;

oob_score = true:表示使用带外数据衡量泛化能力,数据越大越好;

一下实例中基学习器采用K近邻算法,样本规模为原样本的50%,特征为50%

from sklearn.ensemble import BaggingClassifier
from sklearn.neighbors import KNeighborsClassifier
bagging = BaggingClassifier(KNeighborsClassifier(),max_samples=0.5, max_features=0.5)
View Code

1.11.2. Forests of randomized trees

基于随机化的决策树算法,sklearn.ensemble包含了两种平均结果的算法:随机森林和Extra-Tree。在构建分类器时通过引入随机性生成了一系列不相同的树,然后将不同的分类树的结果进行平均作为最终的输出结果。

树算法的训练和其他的算法一样,都是使用两个数组作为参数:X承载训练特征, Y承载训练数据的标签值。如下例所示:

from sklearn.ensemble import RandomForestClassifier
X = [[0, 0], [1, 1]]
Y = [0, 1]
clf = RandomForestClassifier(n_estimators=10)
clf = clf.fit(X, Y)
View Code

如果扩展成为多分类的问题,那么将Y扩展成为[n_samples, outputs]

1.11.2.1. Random Forests

随机森林的使用主要包括这两个类:RandomForestClassifier and RandomForestRegressor;一个负责分类一个负责回归。在随机森林生成过程中数据采用又放回的抽取,同时在选择划分时选中的划分只是在相应的特征子集上的最优而不是全部特征的最优,这样就会使得最终的bias会有所增大,但是通过多棵树的平均使得方差varience减少很多,因此这种方法还是很有效的。在最终预测结果时,现有版本采取的方式是平均所有类别的输出的概率,然后选择最大的输出(只在最后产生一个结果),抛弃了原有的对类别的投票(在每棵树上都有一个分类结果);

1.11.2.2. Extremely Randomized Trees(省略)应该是计算划分点的计算方式发生变化。

1.11.2.3. Parameters

n_estimators:生成的基学习器的数量,越多越好,但是越费时间;

max_features:抽样后样本的最大值,在回归问题中一般直接等于原有的特征数,在分类问题中一般采用sqrt(原有特征);

max_depth=None:生成基学习器树的最大深度;

min_samples_split=1:选择划分最小的样本数,越小生成的树就越完全,通常和max_depth搭配使用产生一个发育完全的树;

bootstrap=False:同上面说的;

oob_score = true:同上(当然在使用又放回抽样时使用);

n_jobs = k:设置并行化计算参数,任务被分成k分,使用机器的k个核心计算,当k=1时使用机器的全部核心,可以提升计算速度,但是不是线性关系。

1.11.2.5. Feature importance evaluation

在决策树的生成过程中特征使用的先后顺序可以作为一个特征相对重要性判断的一个指标,越先使用的特征对结果的贡献就越大因次该特征也就相对来说比较重要,因此可以使用该特征对最后结果的贡献度来表示该特征的相对重要性。

在实际的使用中,使用feature_importances_属性来存储每个特征的重要性指标,维度就是特征的数量,其总和为1;

转载于:https://www.cnblogs.com/daguankele/p/6706651.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/572574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css 实现一个尖角_一个讲述了 CSS 相关的技巧、动画实现 的开源项目(60篇相关文章)...

iCSS不止于 CSS文章围绕 CSS/web动画 展开,谈一些有趣的话题,内容天马行空,想到什么说什么,不仅是为了拓宽解决问题的思路,更涉及一些容易忽视或是十分有趣的 CSS 细节。Article List下面这个左边竖条图形,…

2017.4.14 java基本类型和包装类的区别

int 是基本类型,直接存数值 Integer是类,产生对象时用一个引用指向这个对象Java把内存划分成两种:一种是栈内存,另一种是堆内存 在函数中定义的一些基本类型的变量和对象的引用变量都是在函数的栈内存中分配 而实际的对象是在存…

httos双向认证配置_idou老师教你学Istio 15:Istio实现双向TLS的迁移

本文由华为云容器Istio团队撰稿,未经允许谢绝转载。众所周知,HTTPS是用来解决 HTTP 明文协议的缺陷,在 HTTP 的基础上加入 SSL/TLS 协议,依靠 SSL 证书来验证服务器的身份,为客户端和服务器端之间建立“SSL”通道&…

面向对象 【类库】【委托】【is as运算符】

类库(Class Library) .dll文件 类库字面意思就是类的集合,里面有很多被编译后的C#代码,不可阅读,不可修改,只能调用 类库是一个综合性的面向对象的可重用类型集合,这些类型包括:接口、抽象类和具体类。 类库…

混凝土静力受压弹性模量试验计算公式_【小马建考干货】天天送检,你知道混凝土试块检测哪些性能标指吗?...

混凝土九大类性能检测试块留置尺寸,具体留置前请咨询项目试验室,因为奇葩试验室很多!一、砼抗压强度试块尺寸1、砼标准试件尺寸为 150*150*150(公称最大粒径≤31.5mm)。2、非标准试件尺寸通常用100*100*100&#xff08…

怎么做手机的上下滑动_diy滴胶手机壳到底怎么做呢?

diy滴胶手机壳到底怎么做呢?步骤1⃣:购买到手机壳(新手建议用有凹槽的手机壳,以免滴胶溢出)步骤2⃣:​拿到手机壳之后,建议用酒精擦拭一下, 以免有灰尘影响滴胶的效果步骤3⃣:​(此步骤不为必须步骤)如果不喜欢手机背面的颜色&…

扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接:http://blog.csdn.net/lwt36/article/details/48908031 学习扫描线主要学习的是一种扫描的思想,后期可以求解很多问题。 扫描线求矩形周长并 hdu 1928 Picture Time Limit: 6000/2000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/O…

希尔排序 最坏时间_排序算法(2)

本文介绍插入排序和希尔排序,插入排序是较为常见的排序算法,希尔排序也是基础的排序算法,废话不多说,具体来看一下两种算法。山插入排序插入排序的基本思想是拿到下一个插入元素,在已经有序的待排数组部分找到自己的位…

题目1017:还是畅通工程(最小生成树初步应用)

题目链接:http://ac.jobdu.com/problem.php?pid1017 详解链接:https://github.com/zpfbuaa/JobduInCPlusPlus 参考代码: // // 1017 还是畅通工程.cpp // Jobdu // // Created by PengFei_Zheng on 18/04/2017. // Copyright © 201…

maven自带clean_maven之clean、install命令

1、进入到maven根目录,执行mvn compile命令会在根目录生成target文件(参照maven之helloworld案例),如下图:2、执行mvn clean可将根目录下生成的target文件移除3、mvn install命令Speak.java代码package com.maven;import com.maven.HelloWorl…

多对一(一对多)的双向关联

一个组(Group)有多个用户(User),进行多对一(一对多)的双向配置,在数据库中生成的表结构如下图: Annotation配置: Group: 1 package com.bjsxt.hibernate;2 3 …

angularjs 同步請求_angularjs $q、$http 处理多个异步请求

在实际业务中经常需要等待几个请求完成后再进行下一步操作。但angularjs中$http不支持同步的请求。解决方法一:$http.get(url1).success(function (d1) {$http.get(url2).success(function (d2) {//处理逻辑});});解决方法二:then中的方法会按顺序执行。…

隧道不能访问web vxaln_SpringBoot实现本地存储文件上传及提供HTTP访问服务

笔者计划为大家介绍分布式文件系统,用于存储应用的图片、word、excel、pdf等文件。在开始介绍分布式文件系统之前,为大家介绍一下使用本机存储来存放文件资源。二者的核心实现过程是一样的:上传文件,保存文件(本节是本地磁盘)返回…

poj1986 Distance Queries(lca又是一道模版题)

题目链接&#xff1a;http://poj.org/problem?id1986 题意&#xff1a;就是老问题求val[u]val[v]-2*val[root]就行。还有这题没有给出不联通怎么输出那么题目给出的数据一定 是联通的。 题解&#xff1a;就是单纯的lca。 #include <iostream> #include <cstring> …

httpsurlconnection 写不进去authorization值_23. 假设检验的时候为什么常写p lt; 0.05,而不写具体的p值?...

在进行假设检验的时候&#xff0c;如果p值小于设定的临界值&#xff0c;比如0.05或0.01、0.001等&#xff0c;人们常常会写p<0.05、p<0.01、p<0.001, 而没有写具体的p值。这种传统是曾经的技术限制造成的&#xff0c;而在今天是不被提倡的&#xff0c;现代更提倡的是直…

修改form_Vue通过阿里云oss的url连接直接下载文件并修改文件名

我测试过很多遍,想要通过a标签的形式来直接点击url下载文件并重命名但是都失败了,最终只能下载却不能重命名 所以 换了java后台来修改名字.以下代码我做的网页是点击文件直接下载直接下载下来了,一开始的文件名是上传到oss时以id命名的名字,现在下载的时候想改名,遇到了问题,所…

支付宝 报错 rsa_private read error : private key is NULL解决方法

原因: 真机调试IOS支付宝功能GDB出现 rsa_private read error : private key is NULL提示 调试iOS 支付宝SDK的时候&#xff0c;执行demo。把Partner(合作商户 ID)Seller(账户 ID)RSA public key(支付宝公钥)RSA private key(商户私钥)执行的时候&#xff0c;报错 rsa_private…

nasa注册_今天是黑洞星期五!

What is a black hole? A black hole is an astronomical object with a gravitational pull so strong that nothing, not even light, can escape it. A black hole’s “surface,” called its event horizon, defines the boundary where the velocity needed to escape e…

Sort List[leetcode] 由归并排序的递归和循环,到本题的两种解法

归并排序能够有两种思路----top-down 和 bottom-up top-down: 递归实现&#xff0c;将数组分成两半。分别处理。再合并。 伪代码例如以下&#xff1a; split ( A[], l, r) {if ( r - l < 2) return;m (r l) / 2;split ( A, l, m); //split A[l…m-1]split ( A, m, r); //s…

qcap 教程_高通平台抓取ramdump及使用qcap解析,ramdumpqcap

高通平台抓取ramdump及使用qcap解析&#xff0c;ramdumpqcap高通死机或者查找休眠问题可以通过ramdump来分析&#xff0c;具体步骤先确认下内核配置了CONFIG_MSM_DLOAD_MODE&#xff0c;并确认download_mode为1grep -rin CONFIG_MSM_DLOAD_MODE out/target/product/xxxxx/obj/K…