提升树算法总结（一）

本文是综合了之前的以往多个笔记汇总而成，内容较长。感兴趣的建议收藏用到时随时翻阅内容包含：

若有遗漏错误之处请反馈修改，感激不尽

一、Boosting基本概念
二、前向分步加法模型1. 加法模型2. 前向分步算法
三、AdaBoost1. 算法解析2. 模型构建3. 算法缺点
四、二叉分类树
五、回归分类树1. 算法解析2. 模型构建
六、梯度提升树（GBDT）1. 算法解析2. 模型构建
七、XGBoost1. 原理详解2. 目标函数3. 学习过程4. 损失函数5. 正则化6. 决策树的构建7. 流程步骤8. 优缺点
八、总结1. Boosting家族2. AdaBoost3. 回归提升树和AdaBoost4. GBDT和回归提升树   5. XGBoost和GBDT6. 参考文献

提升(Boosting)是集成学习方法里的一个重要方法，其主要思想是将弱分类器组装成一个强分类器。在 PAC（概率近似正确）学习框架下，则一定可以将弱分类器组装成一个强分类器。

提升树模型实际采用加法模型（即基函数的线性组合）与前向分步算法，以决策树为基函数的提升方法称为提升树（Boosting Tree）。

对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树。

提升树模型可以表示为决策树的加法模型：

f M (x) = \sum M i = 1 T (x; Θ m)

$f_M(x)=∑^M_{i=1}T(x;\Theta _m)$ 其中

T(x;Θm)T(x;Θm) $T(x;\Theta _m)$ 表示决策树；

ΘmΘm $\Theta_m$ 表示决策树的参数；

MM $M$ 为树的个数。

不同问题的提升树学习算法，其主要区别在于损失函数不同。平方损失函数常用于回归问题，用指数损失函数用于分类问题，以及绝对损失函数用于决策问题。

由于树的线性组合可以很好的拟合训练数据，即使数据中的输入和输出之间的关系很复杂也是如此，所以提升树是一个高功能的学习算法。

一、基本概念

提升（Boosting）方法是一类应用广泛且非常有效的统计学习方法。

它基于这样一种思想：对于一个复杂任务来说，将多个专家的判断进行适当的综合所得出的判断，要比其中任何一个专家单独的判断好。实际上，就是“三个臭皮匠顶个诸葛亮”的道理。

强可学习：如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么就称这个概念是强可学习的

弱可学习：如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，那么就称这个概念是弱可学习的

AdaBoost算法：那么如何将弱学习算法提升为强学习算法呢？关于提升方法的研究很多，有很多算法被提出。最具代表性的是AdaBoost算法（AdaBoost algorithm）

Boosting算法的两个核心问题

在每一轮如何改变训练数据的权值或概率分布
通过提高那些在前一轮被弱分类器分错样例的权值，减小前一轮分对样例的权值，来使得分类器对误分的数据有较好的效果。。
如何将弱分类器组合成一个强分类器
通过加法模型将弱分类器进行线性组合，比如 AdaBoost 通过加权多数表决的方式，即增大错误率小的分类器的权值，同时减小错误率较大的分类器的权值。。

AdaBoost的巧妙之处就在于它将这些想法自然且有效地实现在一种算法里。
AdaBoost算法是损失函数为指数函数时的Boosting算法

二、前向分步加法模型（Forward Stagewise Additive Modeling）

1. 加法模型

（形为 $Y=I+U+T+K$ 的模型为加法模型）

f (x) = \sum M m = 1 β m b (x; γ m)

$f(x)=∑^M_{m=1}\beta _mb(x;\gamma _m)$ 其中，

b(x;γm)b(x;γm) $b(x;\gamma_m)$ 为基函数，

βmβm $\beta_m$ 为基函数的系数。

2. 前向分步算法

在给定训练数据及损失函数 $L(y,f(x))$ 的条件下，学习加法模型 $f(x)$ 称为经验风险极小化，即损失函数极小化的问题：

m i n (β m, γ m) \sum N i = 1 L (y i, \sum M m = 1 β m b (x i; γ m))

$min_{(\beta_m,\gamma_m)}∑^N_{i=1}L(y_i,∑^M_{m=1}\beta _mb(x_i;\gamma_m ))$

通常这是一个复杂的优化问题。前向分布算法（forward stagwise algorithm）求解这一优化问题的思路是：因为学习的是加法模型，如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式 $f(x)=∑^M_{m=1}\beta _mb(x;\gamma _m)$ ，那么就可以简化优化的复杂度。

具体地，每步只需优化如下损失函数:

m i n β, γ \sum M i = 1 L (y i, β b (x i; γ))

$min_{\beta, \gamma}∑^M_{i=1}L(y_i,\beta b(x_i;\gamma))$

前向分布算法步骤如下：

输入：训练数据集 $D={(x_1,y_1),(x_2,y_2),(x_3,y_3),...,(x_N,y_N)}$ ;损失函数 $L(y,f(x))$ ；基函数集 $(\beta (x;\gamma))$ ;
输出：加法模型 $f(x)$

（1）初始化 $f_0(x)=0$

（2）对于 $k=1,2,...,K$
（a）极小化损失函数，得到 $\beta_m ,\gamma_m$ :

$(β m, γ m) = a r g m i n (β, γ) \sum N i = 1 L (y i, f m - 1 (x i) + β b (x i, γ))$ $(\beta _m,\gamma_m)=argmin_{(\beta,\gamma)}∑^N_{i=1}L(y_i,f_{m-1}(x_i)+\beta b(x_i,\gamma))$
（b）更新
$f m (x) = f m - 1 (x) + β m b (x; γ m)$ $f_m(x)=f_{m-1}(x)+\beta _mb(x;\gamma_m)$

（3）得到加法模型

$f (x) = f M (x) = \sum M m = 1 β m b (x; γ m)$ $f(x)=f_M(x)=∑^M_{m=1}\beta_mb(x;\gamma_m)$
这样。前向分步算法将同时求解从 $m=1$ 到 $m=M$ 所有参数 $\beta_m,\gamma_m$ 的优化问题简化为逐次求解 $\beta_m,\gamma_m$ 的优化问题。
前向分布算法学习的是加法模型，当基函数为基本分类器是，该加法模型等价于Adaboost的最终分类器。（AdaBoost算法参数迭代公式就是由此而来）

基学习器：基函数为同一类型；反之称为组件学习器或直接成个体学习器

三、AdaBoost

AdaBoost算法是前向分步算法的特例，其模型是由基本分类器组成的加法模型，损失函数是指数函数。

1. AdaBoost算法解析

AdaBoost模型是弱分类器的线性组合：

f (x) = \sum M m = 1 α m G m (x)

$f(x)=∑^M_{m=1}\alpha _mG_m(x)$

$M$ 表示该提升树共有 $M$ 个弱分类器组成
$G_m(x)$ 表示第 $m$ 个弱分类器
$\alpha_m$ 为第 $m$ 个弱分类器的参数（反应该分类器的重要性）

Adaboost算法在分类问题中的主要特点：通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类性能。 AdaBoost－算法描述（伪代码）如下：

输入：训练数据集 $T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}$ ，其中 $x_i\in \chi ⊆R^n,y_i\in Y=\{-1,1\}$ ，弱学习算法 $G_m(x)$ ;
输出：最终强化算法分类器 $G(x)$
（1）初始化训练数据总和为1的权值分布：（初始权重为归一化后的均值既 $\frac 1N$ ）

$D 1 = (w 11, . . ., w 1 i, . . . w 1 N), w 1 i = 1 N, i = 1, 2, . . . N$ $D_1=(w_{11},...,w_{1i},...w_{1N}),w_{1i}=\frac 1N, i=1,2,...N$
（2）对 $m=1,2,...M$ ：（弱分类器的个数）
（a）使用具有权值分布的 $D_m$ 的训练数据集学习，得到基本分类器：(数据集 $X$ 到{-1,1}的映射)
$G_{m} (x) : X - > {- 1, 1}$ $G_m(x):X->\{-1,1\}$
（b）计算 $Gm(x)$ 在训练数据集上的分类误差率：（公式不够简洁明了，其实总结下来非常好理解：误差率 $e_m$ =误分类样本的权值之和）
$e m = \sum N i = 1 P (G m (x i) \neq y i) = \sum N i = 1 w m i I (G m (x i) \neq y i)$ $e_m=∑^N_{i=1}P(G_m(x_i)≠y_i)=∑^N_{i=1}w_{mi}I(G_m(x_i)≠y_i)$
我们来考虑下误差 $e_m$ 的取值空间：由于训练集权制之和为1，因此误差 $0≤e_m≤1$ 。但是这样还不够。因为我们在选择分裂阈值的时候会选择一个最优或局部最优的取值来分裂，且当 $e_m=0.5$ 是表明该分裂阈值对预测无贡献。因此最终得到的 $e_m$ 的实际取值应小于 $e_m≤0.5$ 。
所以最终： $0≤e_m≤0.5$ ，且每次迭代误差 $e_m$ 递减。这点对下面的参数理解很重要。
（c）计算 $G_m(x)$ 的系数:(这里对数为自然对数)
$α m = 1 2 l o g 1 - e m e m$ $\alpha_m=\frac 12log\frac{1-e_m}{e_m}$
那么问题来了，为什么要用这个公式来计算更新每个基分类器的参数？我们先画个图出来观察下这个函数。（其中y轴为 $\alpha _m$ ，x轴为误差 $e_m$ ）

由（2-b）我们得到误差 $e_m$ 的取值范围为 $0≤e_m<0.5$ ，结合该图可以可知 $0<\alpha_m<1$ 。
另外可以发现，通过该函数的转换，弱分类器 $G_m(x)$ 的误差的越小，参数 $\alpha_m$ 越大。即实现了给分类误差率小的基本分类器以大的权值，给分类误差率大的基本分类器以小的权值
（d）更新训练数据集的权值分布：（该权值决定数据集的重要性，并让误差的计算变得简单）

$D m + 1 = (w m + 1, 1, . . ., w m + 1, i, . . . w m + 1, N)$ $D_{m+1}=(w_{m+1,1},...,w_{m+1,i},...w_{m+1,N})$
$w m + 1, i = w m i Z m e x p (- α m y i G m (x - i)), i = 1, 2, . . . N$ $w_{m+1,i}=\frac {w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x-i)),i=1,2,...N$
这里 $y_i=\{-1,1\}$ 为真实值， $G_m(x_i)=\{-1,1\}$ 为预测值。当预测正确时 $y_iG_m(x_i)$ 为1，反之为-1。
令 $\delta_{m_i}=\alpha_my_iG_m(x_i)$ ， $\theta_{mi}=\frac {w_{mi}}{Z_m}$ (把它看作一个用于归一化权值的加权平均常数)。权重 $w_{m+1,i}$ 的更新函数可以简化为 $w m + 1, i = θ m i e x p (δ m i), i = 1, 2, . . . N$ $w_{m+1,i}=\theta_{mi}exp(\delta _{mi}),i=1,2,...N$ 画出 $y=w_{m+1,i}=exp(\delta_{mi})$ 的图形来看一下：

由于 $0<\alpha_m<1$ ，所以 $-1<\delta_{m,i }<1$ 。且使得预测错误的数据集样本点更新后的权重变大，预测正确的权值变小，然后对所有权值进行归一化。这就是该函数实现的作用。(图中y=1是当 $\alpha$ 无限接近于0时的情况：解释为，当 $\alpha_m$ 权值越大，权重 $w_{m+1,i}$ 更新改变的效果越明显。)
这里， $Z_m$ 是规范化因子，目的是使各数据集的权重进行归一化。理解为 $Z_m$ =更新后的各数据集权重之和。

$Z m = \sum N i = 1 w m i e x p (- α m y i G m (x i))$ $Z_m=∑^N_{i=1}w_{mi}exp(-\alpha_my_iG_m(x_i))$
（3）构建基本分类器的新型组合 $f(x)=∑^M_{m=1}\alpha_mG_m(x)$ ，即：
$G (x) = s i g n (f (x)) = s i g n (\sum M m = 1 α m G m (x))$ $G(x)=sign(f(x))=sign(∑^M_{m=1}\alpha_mG_m(x))$
函数 $sign()$ 的意义是将正数判别为1，负数判别为-1，最终达到分类的目的。如图：

2. AdaBoost构建步骤

上面解释了AdaBoost算法的具体内容。这里写出它的分布实现步骤再对上文算法加深下理解：
（1）假设训练数据集具有均匀的权值分布，即每个训练样本在基本分类器的学习中作用相同，这一假设保证第1步能够在原始数据上学习基本分类器 $G_1(x)$ 。
（2）AdaBoost反复学习基本分类器，在每一轮 $m＝1,2,…,M$ 顺次地执行下列操作：
（a）使用当前分布 $D_m$ 加权的训练数据集，学习基本分类器 $G_m(x)$
（b）计算基本分类器 $G_m(x)$ 再加权训练数据集上的分类误差率（即误分类样本的权值之和。这里要注意 $w_{mi}$ 表示第 $m$ 轮中第 $i$ 个实例的权值，且权值之和为1，即 $∑^N_{i=1}w_{mi}=1$ ）：

$e m = P (G m (x i) \neq y i) = \sum G m (x i) \neq y i w m i$ $e_m=P(G_m(x_i)≠y_i)=∑_{G_m(x_i)≠y_i}w_{mi}$
（c）计算基本分类器 $G_m (x)$ 的系数 $\alpha_m$ 。 $alpha_m$ 表示 $G_m(x)$ 在最终分类器中的重要性。由上面（2-c）可知，当 $e_m≤1/2$ 时， $alpha_m≥0$ ，并且 $\alpha_m$ 随着 $e_m$ 的减小而增大，所以分类误差率越小的分类器在最终分类器中的作用越大。
（d）更新训练数据的权值分布为下一轮作准备。式（2-d）的权重更新函数可以写成：

由此可知，被基本分类器 $G_m (x)$ 误分类样本的权值得以扩大，而被正确分类样本的权值却得以缩小。两相比较，误分类样本的权值被放大 $e^{(2\alpha_m)}=\frac{e_m}{1-e_m}$ 倍。因此，误分类样本在下一轮学习中起更大的作用。不改变所给的训练数据，而不断改变训练数据权值的分布，使得训练数据在基本分类器的学习中起不同的作用，这是AdaBoost的一个特点。
（3）线性组合 $f(x)$ 实现 $M$ 个基本分类器的加权表决。系数 $\alpha_m$ 表示了基本分类器 $G_m (x)$ 的重要性，这里，所有 $\alpha_m$ 之和并不为1。 $f(x)$ 的符号决定实例x的类， $f(x)$ 的绝对值表示分类的确信度。利用基本分类器的线性组合构建最终分类器是AdaBoost的另一特点。

3. AdaBoost算法缺点

1. 常规AdaBoost算法只能处理二分类问题

MultiBoost工具的侧重点不同于XGBoost，是Adaboost算法的多分类版本实现，更偏向于解决multi-class / multi-label / multi-task的分类问题。

2. 对异常值敏感

指数损失存在的一个问题是不断增加误分类样本的权重（指数上升）。如果数据样本是异常点（outlier），会极大的干扰后面基本分类器学习效果；

3. 模型无法用于概率估计

对于取值为 $\hat y \in \{-1,1\}$ 的随机变量说， $e^{-\hat yf}$ 不是任何概率密度函数的对数形式，模型 $f(x)$ 的结果无法用概率解释。
MLAPP中的原话： $e^{-\hat y f}$ is not the logarithm of any pmf for binary variables $\hat y \in \{-1,1\}$ ; consequently we cannot recover probability estimate from $f(x)$ .”

6. 参考文献

[1] 《统计学习方法》 ——李航 2012 清华大学出版社
[2] 《机器学习》 ——周志华 2016 清华大学出版社
[3] http://ihoge.cn/2018/adaboost.html
[4] https://www.jianshu.com/nb/7305482
[5] http://www.52caml.com/head_first_ml/ml-chapter6-boosting-family/#Gradient_Boosting
[6] https://www.jianshu.com/p/d55f7aaac4a7
[7] http://gitbook.cn/gitchat/column/5ac2f0509e924a1dc029dd84/topic/5ac9e0e5dbd50e7493d35d3f