[Hands On ML] 7. 集成学习和随机森林

文章目录

    • 1. 投票分类
    • 2. Bagging、Pasting
    • 3. Out of Bag 评价
    • 4. 随机贴片与随机子空间
    • 5. 随机森林
    • 6. 极端随机树 Extra-Trees
    • 7. 特征重要程度
    • 8. 提升方法
      • 8.1 AdaBoost
      • 8.2 梯度提升
      • 8.3 Stacking

本文为《机器学习实战:基于Scikit-Learn和TensorFlow》的读书笔记。
中文翻译参考

《统计学习方法》提升方法(Boosting)笔记

集成学习:集体的智慧大于个人

1. 投票分类

使用不同的算法得到不同的分类器
在这里插入图片描述

from sklearn.datasets import make_moons
from sklearn.model_selection import train_test_split
X, y = make_moons(n_samples=100,shuffle=True, noise=10)
# help(train_test_split)
X_train, X_test, y_train, y_test = train_test_split(X,y)from sklearn.ensemble import RandomForestClassifier 
from sklearn.ensemble import VotingClassifier 
from sklearn.linear_model import LogisticRegression 
from sklearn.svm import SVC
log_clf = LogisticRegression() 
rnd_clf = RandomForestClassifier() 
svm_clf = SVC()
voting_clf = VotingClassifier(estimators=[('lr', log_clf), ('rf', rnd_clf), ('svc', svm_clf)], voting='hard') 
voting_clf.fit(X_train, y_train)from sklearn.metrics import accuracy_score 
for clf in (log_clf, rnd_clf, svm_clf, voting_clf): clf.fit(X_train, y_train)y_pred = clf.predict(X_test) print(clf.__class__.__name__, accuracy_score(y_test, y_pred)) 
  • 投票分类器比大部分单独的分类表现好些
LogisticRegression 0.68
RandomForestClassifier 0.52
SVC 0.56
VotingClassifier 0.6

2. Bagging、Pasting

对每个分类器使用相同的训练算法(在不同的训练集上训练)

  • 有放回采样被称为装袋(Bagging,是 bootstrap aggregating 的缩写),可进行多次采样
  • 无放回采样称为粘贴(pasting)

在这里插入图片描述
所有的分类器被训练后,集成通过对所有分类器结果的简单聚合来预测

  • 聚合降低了偏差和方差,比在原始训练集上的单一分类器更小的方差
from sklearn.ensemble import BaggingClassifier 
from sklearn.tree import DecisionTreeClassifier
bag_clf = BaggingClassifier(DecisionTreeClassifier(), n_estimators=500,        max_samples=100, bootstrap=True, n_jobs=-1) 
bag_clf.fit(X_train, y_train) 
y_pred = bag_clf.predict(X_test)

在这里插入图片描述
采用集成方法的决策树分类效果更好

3. Out of Bag 评价

bagging 中有放回采用中,总有些是从未被采到的,可以用来做效果评估

from sklearn.ensemble import BaggingClassifier 
from sklearn.tree import DecisionTreeClassifier
bag_clf = BaggingClassifier(DecisionTreeClassifier(), n_estimators=500,bootstrap=True, n_jobs=-1, oob_score=True)
bag_clf.fit(X_train, y_train) 
bag_clf.oob_score_ # oob集的预测准确率
bag_clf.oob_decision_function_ # 每个oob实例的决策概率

4. 随机贴片与随机子空间

BaggingClassifier也支持采样特征

  • 由超参数max_featuresbootstrap_features控制
  • 工作方式和max_samplesbootstrap一样,但这是对于特征采样而不是实例采样

在处理高维度输入下(例如图片)此方法尤其有效

  • 对训练实例特征都采样被叫做随机贴片
  • 保留所有的训练实例(例如bootstrap=False和max_samples=1.0),仅对特征采样(bootstrap_features=True并且/或者max_features小于 1.0)叫做随机子空间

采样特征 导致 更多的预测多样性,用高偏差换低方差

5. 随机森林

  • 决策树的一种集成(通常是bagging,有时是pasting 进行训练)
from sklearn.ensemble import RandomForestClassifier
rnd_clf = RandomForestClassifier(n_estimators=500, max_leaf_nodes=16, n_jobs=-1) 
rnd_clf.fit(X_train, y_train)
y_pred_rf = rnd_clf.predict(X_test)
  • 参数为:决策树参数(控制树的生长)+ bagging_clf 集成的参数(控制集成)

  • 随机森林算法在 树生长时 引入了 额外的随机

  • 与在节点分裂时需要找到最好分裂特征相反(详见第六章),它在一个随机的特征集中找最好的特征。它导致了树的差异性,并且再一次用高偏差换低方差,总的来说是一个更好的模型

以下 bagging 大致相当于 随机森林

bag_clf = BaggingClassifier(DecisionTreeClassifier(splitter="random", max_leaf_nodes=16),n_estimators=500, max_samples=1.0, bootstrap=True, n_jobs=-1)

6. 极端随机树 Extra-Trees

在随机森林上生长树时,在每个结点分裂时只考虑随机特征集上的特征。

  • 极端随机树(Extremely Randomized
    Trees),不找最佳的特征阈值,它使用随机阈值使树更加随机
  • 所以,它训练起来比随机森林更快
ExtraTreesClassifier
ExtraTreesRegressor

到底是 随机森林好,还是极端随机树好,交叉验证比较

7. 特征重要程度

  • 靠近树根的特征更重要
  • 一个特征在森林的全部树中出现的平均深度来预测特征的重要性
from sklearn.datasets import load_iris 
iris = load_iris() 
rnd_clf = RandomForestClassifier(n_estimators=500, n_jobs=-1) 
rnd_clf.fit(iris["data"], iris["target"]) 
for name, score in zip(iris["feature_names"], rnd_clf.feature_importances_): print(name, score) 
sepal length (cm) 0.112492250999
sepal width (cm) 0.0231192882825 
petal length (cm) 0.441030464364 
petal width (cm) 0.423357996355 

鸢尾花四个特征的重要度

  • 随机森林可以快速了解特征重要度,可以进行特征筛选

8. 提升方法

将几个弱学习者组合成强学习者的集成方法

8.1 AdaBoost

  • 使一个的分类器去修正之前分类结果的方法:对之前分类结果不对的训练实例多加关注
    在这里插入图片描述
    AdaBoost 迭代过程
    AdaBoost 迭代过程

序列学习 技术的一个重要的缺点就是:它不能被并行化(只能按步骤)

  • 每个分类器只能在之前的分类器已经被训练和评价后再进行训练
  • 因此,它不像Bagging和Pasting一样

  • sklearn 通常使用 Adaboost 的多分类版本 SAMME(这就代表了 分段加建模使用多类指数损失函数)
  • 如果只有两类别,那么 SAMME 是与 Adaboost 相同的
  • 如果分类器可以预测类别概率(例如如果它们有predict_proba()),sklearn 可以使用 SAMME.R(R 代表“REAL”)的版本,预测概率通常比预测分类更好

一个决策树桩是max_depth=1的决策树,一个单一决策节点+两个叶子结点。这就是AdaBoostClassifier的默认基分类器:

from sklearn.ensemble import AdaBoostClassifier
ada_clf = AdaBoostClassifier(DecisionTreeClassifier(max_depth=1), n_estimators=200,algorithm="SAMME.R", learning_rate=0.5) 
ada_clf.fit(X_train, y_train)
  • Adaboost 集成过拟合了训练集,可以减少基分类器的数量 或者 对基分类器使用更强的正则化

8.2 梯度提升

不像 Adaboost 那样每一次迭代都更改实例的权重,这个方法是去使用的分类器去拟合前面分类器预测的残差

from sklearn.tree import DecisionTreeRegressor 
tree_reg1 = DecisionTreeRegressor(max_depth=2) 
tree_reg1.fit(X, y) 

现在在第一个分类器的残差上训练第二个分类器:

y2 = y - tree_reg1.predict(X) 
tree_reg2 = DecisionTreeRegressor(max_depth=2) 
tree_reg2.fit(X, y2) 

随后在第二个分类器的残差上训练第三个分类器:

y3 = y2 - tree_reg1.predict(X) 
tree_reg3 = DecisionTreeRegressor(max_depth=2) 
tree_reg3.fit(X, y3) 

通过集成所有树的预测来在一个新的实例上进行预测

y_pred = sum(tree.predict(X_new) for tree in (tree_reg1, tree_reg2, tree_reg3)) 

在这里插入图片描述
sklearn 内置 GBRT

from sklearn.ensemble import GradientBoostingRegressor
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1.0) 
gbrt.fit(X, y)

超参数learning_rate 确立了每个树的贡献

  • 设置为很小的数,在集成中就需要更多的树去拟合训练集,但预测通常会更好。这个正则化技术叫做 shrinkage
  • 下图展示了,两个在低学习率上训练的 GBRT 集成:左面是一个没有足够树去拟合训练集的树,右面是有过多的树过拟合训练集的树

在这里插入图片描述

  • 寻找最优的tree的数量:早停技术(第四章),使用staged_predict()
import numpy as np 
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_errorX_train, X_val, y_train, y_val = train_test_split(X, y)
gbrt = GradientBoostingRegressor(max_depth=2, n_estimators=120) 
gbrt.fit(X_train, y_train)
errors = [mean_squared_error(y_val, y_pred)         for y_pred in gbrt.staged_predict(X_val)] # 阶段性的预测,迭代一次预测一次
bst_n_estimators = np.argmin(errors)
# 最好的树的个数
gbrt_best = GradientBoostingRegressor(max_depth=2,n_estimators=bst_n_estimators) 
gbrt_best.fit(X_train, y_train) 

在这里插入图片描述

  • 使用 warn_start = True,保留之前的预测,增量训练,不用重头开始
  • 当误差超过给定次数没有得到改善,停止训练

sklearn中warm_start参数的作用详解

  • GradientBoostingRegressor也支持指定用于训练每棵树的样本比例subsample。如果subsample=0.25,那么每个树都会在 25% 随机选择的训练实例上训练。

  • 这也是个高偏差换低方差的作用。它同样也加速了训练。这个技术叫做随机梯度提升

8.3 Stacking

Stacking(stacked generalization 的缩写)。
思想:不使用琐碎的函数(如硬投票)来聚合集合中所有分类器的预测,
使用一个新的分类器模型,对所有的预测结果作为输入,预测输出最终结果

在这里插入图片描述

在这里插入图片描述
sklearn 暂不直接支持 stacking

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/474844.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 635. 设计日志存储系统(map)

文章目录1. 题目2. 解题1. 题目 你将获得多条日志,每条日志都有唯一的 id 和 timestamp,timestamp 是形如 Year:Month:Day:Hour:Minute:Second 的字符串,例如 2017:01:01:23:59:59,所有值域都是零填充的十进制数。 设计一个日志…

ios 桥接文件找不到文件_电脑文件搜索神器,没有找不到的东西

随着工作或学习,使用电脑的时间增长,里面的文件也会越来越多。有时候想找某个文件,可能就突然忘了把它放在哪了。如果能想起文件名,那么还可以用电脑自带的搜索或者everything这类的软件进行搜索。但如果连文件名都忘了呢&#xf…

SQL行列问题

日常工作中,为了让数据的可读性更强,经常会对数据格式进行转化操作。总结一下日常工作中遇到的关于行列操作问题。 单行拆分成多行 --创建测试数据 CREATE TABLE fwj.customer ( id STRING, name STRING, mobiles STRING);INSERT INTO fwj.customer SEL…

LeetCode 296. 最佳的碰头地点(坐标独立+中位数的地方最近)

文章目录1. 题目2. 解题1. 题目 有一队人(两人或以上)想要在一个地方碰面,他们希望能够最小化他们的总行走距离。 给你一个 2D 网格,其中各个格子内的值要么是 0,要么是 1。 1 表示某个人的家所处的位置。这里&…

LeetCode 360. 有序转化数组(抛物线对称轴)

文章目录1. 题目2. 解题1. 题目 给你一个已经 排好序 的整数数组 nums 和整数 a、b、c。对于数组中的每一个数 x,计算函数值 f(x) ax^2 bx c,请将函数值产生的数组返回。 要注意,返回的这个数组必须按照 升序排列,并且我们所…

vue webpack打包入口文件是哪个_Vue 学习笔记(二十五):webpack 相关

Webpack 是什么Vue CLI Webpack 相关 Webpack更多参考官方文档Webpack 是一个前端资源加载/打包工具。它将根据模块的依赖关系进行静态分析,然后将这些模块按照指定的规则生成对应的静态资源。 如图,Webpack 可以将多种静态资源 js、css、less 转换成一个…

美团差评数据分析,python代码实现

文章目录明确问题理解数据处理数据异常值处理标签处理新增计算列数据分析分析思路描述性分析探索性分析送达总时长时间过长,导致的差评骑手个人行为导致的差评商户行为导致的差评其他评价标签的白描建议明确问题 美团骑手出现差评的原因是什么?影响因素…

[原创]FineUI秘密花园(二十一) — 表格之动态创建列

有时我们需要根据数据来动态创建表格列&#xff0c;怎么来做到这一点呢&#xff1f;本章会详细讲解。 动态创建的列 还是通过一个示例来看下如何在FineUI中动态创建表格列&#xff0c;示例的界面截图&#xff1a; 先来看下ASPX的标签定义&#xff1a; 1: <ext:Grid ID"…

[Hands On ML] 8. 降维

文章目录1. 降维方法1.1 投影1.2 流行学习2. 降维技术2.1 PCA2.2 增量PCA2.3 随机PCA2.4 核PCA2.5. 调参2.6 LLE2.7 其他方法本文为《机器学习实战&#xff1a;基于Scikit-Learn和TensorFlow》的读书笔记。 中文翻译参考 特征维度太大&#xff0c;降维加速训练能筛掉一些噪声和…

LeetCode 776. 拆分二叉搜索树(DFS)*

文章目录1. 题目2. 解题1. 题目 给你一棵二叉搜索树&#xff08;BST&#xff09;、它的根结点 root 以及目标值 V。 请将该树按要求拆分为两个子树&#xff1a;其中一个子树结点的值都必须小于等于给定的目标值 V&#xff1b;另一个子树结点的值都必须大于目标值 V&#xff1…

变压器绕组降低邻近效应_了解高频变压器设计基础(2)

单片开关电源高频变压器的设计要点高频变压器是单片开关电源的核心部件&#xff0c;鉴于这种高频变压器在设计上有其特殊性&#xff0c;为此专门阐述降低其损耗及抑制音频噪声的方法&#xff0c;可供高频变压器设计人员参考。单片开关电源集成电路具有高集成度、高性价比、最简…

Python-jieba分词学习及应用

文章目录基础添加自定义词典实战基础 jieba.cut 方法接受三个输入参数: 需要分词的字符串&#xff1b;cut_all 参数用来控制是否采用全模式&#xff1b;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数&#xff1a;需要分词的字符串&#xff1b;是否…

LeetCode 302. 包含全部黑色像素的最小矩形(BFS)

文章目录1. 题目2. 解题1. 题目 图片在计算机处理中往往是使用二维矩阵来表示的。 假设&#xff0c;这里我们用的是一张黑白的图片&#xff0c;那么 0 代表白色像素&#xff0c;1 代表黑色像素。 其中黑色的像素他们相互连接&#xff0c;也就是说&#xff0c;图片中只会有一…

蓝色三角_叶子长得像韭菜,花朵开得像个糖三角的鸢尾,用这3个方法拍摄它...

女孩子们小时候都跳皮筋。有一段口诀&#xff0c;里面有一句“马兰开花二十一”……我虽然皮筋没少跳&#xff0c;但是对于马兰花&#xff0c;却也是只闻其名&#xff0c;未见其身。后来&#xff0c;我在户外拍风光、拍花卉。在草丛里看到三片细长花瓣组成的的蓝色小花&#xf…

LeetCode 1063. 有效子数组的数目(单调栈)

文章目录1. 题目2. 解题1. 题目 给定一个整数数组 A&#xff0c;返回满足下面条件的 非空、连续 子数组的数目&#xff1a; 子数组中&#xff0c;最左侧的元素不大于其他元素。 示例 1&#xff1a; 输入&#xff1a;[1,4,2,5,3] 输出&#xff1a;11 解释&#xff1a;有 11 个…

springboot 多了8小时_日本人不明白:中国的奶茶有多好喝,值得排队8小时去买?...

日本人不明白&#xff1a;中国的奶茶有多好喝&#xff0c;值得排队8小时去买&#xff1f;最近有许多的网红奶茶店兴起&#xff0c;尤其是在冬季&#xff0c;加料十足的热奶茶就成为了年轻人的心头之好&#xff0c;就拿最近在武汉新开的首家茶颜悦色来说&#xff0c;每天的队伍都…

将整个表单设置为只读_如何将独立网站设置为制作中,阻止搜索引擎收录网站页面?...

独立网站设置为制作中当网站未完成状态时&#xff0c;可能不希望除管理员以外的人看到未完成的页面时&#xff0c;如何操作可以将独立网站设置为制作中&#xff0c;并阻止搜索引擎收录网站页面呢&#xff1f;可按照以下步骤进行操作&#xff1b;将网站设置为制作中网站制作中设…

LeetCode 361. 轰炸敌人(前缀和DP)

文章目录1. 题目2. 解题1. 题目 想象一下炸弹人游戏&#xff0c;在你面前有一个二维的网格来表示地图&#xff0c;网格中的格子分别被以下三种符号占据&#xff1a; W 表示一堵墙 E 表示一个敌人 0&#xff08;数字 0&#xff09;表示一个空位请你计算一个炸弹最多能炸多少敌…

led拼接屏报价_液晶拼接屏与led显示屏的区别在哪?

在目前的大屏显示产品中&#xff0c;液晶拼接屏和led显示屏是两种比较普遍的产品&#xff0c;拼接大屏是通过单个液晶拼接单元拼接而成的显示大屏&#xff0c;而led显示屏则是通过发光二极管组成密集点阵组成图像显示&#xff0c;我们通常听到的P1、P2代表的是像素点距离&#…

LeetCode 356. 直线镜像

文章目录1. 题目2. 解题1. 题目 在一个二维平面空间中&#xff0c;给你 n 个点的坐标。 问&#xff0c;是否能找出一条平行于 y 轴的直线&#xff0c;让这些点关于这条直线成镜像排布&#xff1f; 示例 1&#xff1a; 输入: [[1,1],[-1,1]] 输出: true示例 2&#xff1a; 输入…