理论U4 集成学习

文章目录

一、集成学习
- 1、传统学习的问题
- 2、集成学习
- - 1）背景
  - 2）概念
  - 3）注意
- 3、多样性度量
- 4、多样性增强
- - 1）多样性增强：在学习过程引入随机性
  - 2）输入属性扰动
  - 3）输出表示扰动
  - 4）算法参数扰动
- 5、集合策略
- - 1）平均法
  - 2）投票法
  - 3）学习法
二、集成学习方法
- 1、串行化方法
- - 1）典型算法：提升Boosting算法(Adaboost)
  - 2）特点总结
- 2、并行化方法
- - 1）典型算法：Bagging算法
  - 2）算法特点
  - 3）特点总结
  - 4）典型算法：随机森林算法
  - 5）算法流程
  - 6）算法特点

一、集成学习

1、传统学习的问题

传统学习面临的问题：没有任何情况下都最好的机器学习算法

2、集成学习

1）背景

通过将多个学习器进行集成，常可获得比单一学习器显著优越的泛化性能，这对弱学习器尤为明显。

弱学习器：准确率仅比随机猜测略高的学习器。
强学习器：准确率高并能在多项式时间内完成的学习器。
在这里插入图片描述

2）概念

通过构建并结合多个学习器完成学习任务
也称为多分类器系统(Multi-Classifier System)、基于委员会的学习(Committee based Learning)
在这里插入图片描述

3）注意

多个学习器不一定比单一学习器性能好
在这里插入图片描述
由定理可知，在一定条件下，随着集成分类器数目的增加，集成的错误率将指数级下降，最终趋向于0

3、多样性度量

– 用于度量集成中个体学习器的多样性
– 考虑个体学习器的两两相似/不相似性
在这里插入图片描述

4、多样性增强

1）多样性增强：在学习过程引入随机性

– 数据样本扰动
    • Bagging中的自助采样
    • Adaboost中的序列采样
    – 对数据样本扰动敏感的基学习器(不稳定基学习器) 效果明显
    （决策树，神经网络等）
    – 对数据样本扰动不敏感的基学习器(稳定基学习器)效果不明显
     （线性学习器，支持向量机，朴素贝叶斯，K近邻等）

2）输入属性扰动

不同子空间提供观察数据的不同视角

对包含大量冗余属性数据，可产生多样性大的个体学习器，还因属性数减少会大幅节省时间开销；若数据只含少量属性或冗余属性较少，则不宜使用

3）输出表示扰动

在学习过程引入随机性
在这里插入图片描述

4）算法参数扰动

随机设置不同的参数或环节。
单一学习器利用交叉验证对参数寻优，事实上相当于使用了不同参数训练学习器，最后仅选择了一个；而集成学习相当于把所有学习器都利用起来

– Adaboost：加入了数据样本扰动
– 随机森林：同时加入了数据样本扰动和输入属性扰动

5、集合策略

1）平均法

数值型输出最常见的结合策略
在这里插入图片描述
加权平均法是集成学习的基本出发点，各种结合方法都可视为其特例或变体，不同的集成学习方法是通过不同的方式确定加权平均法中基学习器的权重

2）投票法

标签型输出最常见的结合策略
在这里插入图片描述

3）学习法

当训练数据很多时采用另一个学习器进行结合
在这里插入图片描述

二、集成学习方法

根据个体学习器生成方式不同，形成两大类方法

1、串行化方法

条件：个体学习器间存在强依赖关系

1）典型算法：提升Boosting算法(Adaboost)

– 重赋权法(Re-weighting)：在每轮根据样本分布为每个训练样本重新赋予权重
– 重采样法(Re-sampling)：在每轮根据样本分布对训练集重新采样形成新的训练集

先从初始数据集训练一个基学习器
再根据其对训练样本分布（权重）进行调整，使先前错分样本在后续受到更多关注
基于调整后的样本分布训练下一个基学习器；
重复进行直至基学习器数目达到预先指定值；最终将这些基学习器加权结合

2）特点总结

基本思想是用贪心法最小化损失函数，
主要关注降低偏差：顺序串行地最小化损失函数，基于弱学习器逐步构造出很强的集成学习器，bias自然逐步下降
但是由于模型的相关性很强，因此不能显著降低方差
所以boosting主要靠降低bias来提升预测精度
Boosting中每个模型是弱模型，偏差高，方差低

2、并行化方法

条件：个体学习器间不存在强依赖关系

1）典型算法：Bagging算法

利用自助法采样(Bootstrap Sampling)可构造T个含m个训练样本的采样集，基于每个采样集训练出一个基学习器，再将它们进行结合
在对预测输出结合时，通常对分类任务使用简单投票法，对回归任务使用简单平均法

2）算法特点

时间复杂度低：集成与直接训练一个学习器复杂度同阶
假定基学习器的计算复杂度为 $O (m)$ ，采样与投票/平均过程的复杂度为 $O (s)$ ，则 $B a gg in g$ 的复杂度大致为 $T (O (m) + O (s))$ ；
可以直接用于多分类、回归等任务；
可包外估计(Out-of-Bag Estimate)泛化性能