集成学习(三)GBDT 梯度提升树

前面学习了:集成学习(二)Boosting-CSDN博客

梯度提升树:GBDT-Gradient Boosting Decision Tree

一、介绍

作为当代众多经典算法的基础,GBDT的求解过程可谓十分精妙,它不仅开创性地舍弃了使用原始标签进行训练的方式,同时还极大地简化了Boosting算法的运算流程,让Boosting算法本该非常复杂的运算流程变得清晰简洁。GBDT的数学流程非常简明、美丽,同时这一美丽的流程也是我们未来所有Boosting高级算法的数学基础。与任意Boosting算法一致,对GBDT我们需要回答如下问题:

  • 损失函数L(x,y) 的表达式是什么?损失函数如何影响模型构建?
  • 弱评估器 f(x) 是什么,当下boosting算法使用的具体建树过程是什么?
  • 综合集成结果 H(x) 是什么?集成算法具体如何输出集成结果?

同时,还可能存在其他需要明确的问题,例如:

  • 是加权求和吗?如果是,加权求和中的权重如何求解?
  • 训练过程中,拟合的数据Xy分别是什么?

回顾Boosting算法的基本指导思想,我们来梳理梯度提升树回归算法的基本流程。虽然Boosting理论很早就被人提出,但1999年才是GBDT算法发展的高潮。1999年,有四篇论文横空出世:

《贪心函数估计:一种梯度提升机器》
Friedman, J. H. (February 1999). "Greedy Function Approximation: A Gradient Boosting Machine"

《随机梯度提升》
Friedman, J. H. (March 1999). "Stochastic Gradient Boosting"

《梯度下降式提升算法》
Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (1999). "Boosting Algorithms as Gradient Descent"

《函数空间中的梯度下降式提升算法》
Mason, L.; Baxter, J.; Bartlett, P. L.; Frean, Marcus (May 1999). "Boosting Algorithms as Gradient Descent in Function Space"

GBDT算法是融合了上述4篇论文思想的集大成之作,为了保持一致,使用与前文不同的数学符号。

二、数学过程

假设现有数据集 ,含有形如\left ( x_{i}, y_{i} \right )的样本M个,i为任意样本的编号,单一样本的损失函数为l\left ( y_{i}, H\left ( x_{i} \right ) \right ),其中 H\left ( x_{i} \right )i号样本在集成算法上的预测结果,整个算法的损失函数为 L\left ( y, H( x ) \right ),且总损失等于全部样本的损失之和:L(y,H(x))=\sum_{i}^{}l\left ( y_{i}, H\left ( x_{i} \right ) \right )。同时,弱评估器为回归树 ,总共学习T轮。则GBDT回归的基本流程如下所示:

1、初始化数据迭代的起点H_{0}(x)。sklearn当中,我们可以使用0、随机数或者任意算法的输出结果作为H_{0}(x) ,但在最初的论文中,Friedman定义了如下公式来计算 H_{0}(x) :

其中 y_{i} 为真实标签, C 为任意常数。以上式子表示,找出令\sum_{i}^{M}l\left ( y_{i}, C \right ) 最小的常数 C 值,并输出最小的 \sum_{i}^{M}l\left ( y_{i}, C \right )作为H_{0}(x)的值。需要注意的是,由于H_{0}(x)是由全部样本的l计算出来的,因此所有样本的初始值都是H_{0}(x),不存在针对某一样本的单一初始值。

开始循环,for t in 1,2,3...T:

2、在现有数据集 N 中,抽样 M∗subsample 个样本,构成训练集N_{t}
3、对任意一个样本i ,计算伪残差(pseudo-residuals)r_{it},具体公式为:

不难发现,伪残差是一个样本的损失函数对该样本在集成算法上的预测值求导后取负的结果,并且在进行第t次迭代、计算第t个伪残差时,我们使用的前t-1次迭代后输出的集成算法结果。在t=1时,所有伪残差计算中的H_{t-1}(x_{i}) 都等于初始H_{0}(x),在t> 0时,每个样本上的 H_{t-1}(x_{i})都是不同的取值。

4、求解出伪残差后,在数据集 \left ( x_{i},r_{it} \right )上按照CART树规则建立一棵回归树f_{t},训练时拟合的标签为样本的伪残差r_{it} 。

5、将数据集N_{t}上所有的样本输入f_{t}进行预测,对每一个样本,得出预测结果f_{t}\left ( x_{i} \right )。在数学上我们可以证明,只要拟合对象是伪残差 r_{it},则f_{t}\left ( x_{i} \right )的值一定能让损失函数最快减小。

6、根据预测结果f_{t}\left ( x_{i} \right )迭代模型,具体来说:

假设输入的步长为\eta,则H_{t}(x)应该为:

对整个算法则有:

7、循环结束,输出 H_{T}(x) 的值作为集成模型的输出值。

三、初始化 H_{0}过程中的常数C是什么?

在最初的论文中,Friedman定义了如下公式来计算H_{0} :

其中 y_{i} 为真实标签, C 为任意常数。以上式子表示,找出令\sum_{i}^{M}l\left ( y_{i}, C \right ) 最小的常数 C 值,并输出最小的 \sum_{i}^{M}l\left ( y_{i}, C \right )作为H_{0}(x)的值。在刚观察这个式子时,大家可能很难理解 C 这个常数的作用,但这个式子实际上很简单。

首先,l是损失函数,损失函数衡量两个自变量之间的差异,因此l\left ( y_{i}, C \right )衡量样本i的真实标签y_{i} 与常数C之间的差异,因此l\left ( y_{i}, C \right )是所有样本的真实标签与常数C之间的差异之和。现在我们要找到一个常数C,令所有样本的真实标签与常数C的差异之和最小,请问常数C是多少呢?这是一个典型的求极值问题,只需要对\sum_{i}^{M}l\left ( y_{i}, C \right ) 求导,再令导数为0就可以解出令\sum_{i}^{M}l\left ( y_{i}, C \right )最佳的C。假设 l 是squared_error,每个样本的平方误差,则有:

对上述式子求导,并令一阶导数等于0:

所以:

可知,当L是平方误差squared error时,令 l\left ( y_{i}, C \right ) 最小的常数C就是真实标签的均值。因此,式子 H_{0}=argmin_{C}\sum_{i}^{M}l\left ( y_{i}, C \right )的本质其实是求解 C=mean\left ( y_{i} \right )时的损失函数,并以此损失函数作为 H_{0}的值。当然,如果我们选择了其他的损失函数,我们就需要以其他方式(甚至梯度下降)进行求解, C 的值可能也就不再是均值了。

四、为什么拟合伪残差可以令损失函数最快地减小

从直觉上来看,拟合伪残差可以降低H_{t}\left ( x_{i} \right )与 y_{i} 之间的差异,从而降低整体损失函数的值,但这个行为在数学上真的可行吗?毕竟,GBDT可以使用任意可微函数作为损失函数,不同损失函数求导后的结果即便与残差相似,也未必能代替真正的残差的效果。因此,不仅在直觉上需要理解拟合伪残差的作用,我们还需要从数学上证明:只要拟合对象是伪残差r_{it},则弱评估器的输出值 f_{t}\left ( x_{i} \right ) 一定是让损失函数减小最快的值。

我们可以对损失函数进行泰勒展开。对单一样本而言,我们有损失函数l(y_{i},H_{t-1}(x_{i})+f_{t}(x_{i})),其中 y_{i}是已知的常数,因此损失函数可以被看做是只有H_{t-1}(x_{i})+f_{t}(x_{i})一个自变量的函数,从而简写为 l(H_{t-1}(x_{i})+f_{t}(x_{i}))

根据一阶泰勒展开,已知:

该式子中H_{t-1}(x_{i}) 是常数,因此第一部分l(H_{t-1}(x_{i}))也是一个常数。同时,第二部分由导数和f_{t}组成,其中导数就是梯度,可以写作 g_{i} ,所以式子可以化简为:

现在,如果要令 l 最小, f_{t}(x_{i}) 应该等于多少呢?回到我们最初的目标,找出令损失函数l最小的f_{t}值:

常数无法被最小化,因此继续化简:

现在, g_{t}是包含了所有样本梯度的向量,f_{t}(x) 是包含了所有样本在f_{t}上预测值的向量,两个向量对应位置元素相乘后求和,即表示为向量的内积,由尖括号 〈〉 表示。现在我们希望求解向量内积的最小值、并找出令向量内积最小的f_{t}(x)的取值,那就必须先找出f_{t}(x)的方向,再找出 f_{t}(x) 的大小。

1、方向

f_{t}(x)的方向应该与g_{t}完全相反。向量的内积 \left \langle g_{t} f_{t}(x)\right \rangle=\left |g_{t} \right |\left | f_{t} (x) \right |cos(\alpha),其中前两项为两个向量的模长, α 是两个向量的夹角大小。模长默认为整数,因此当且仅当两个向量的方向完全相反,即夹角大小为180度时, cos(α) 的值为-1,才能保证两个向量的内积最小。假设向量 a = [1,2],向量b是与a的方向完全相反的向量。假设a和b等长,那向量b就是[-1,-2]。因此,与g_{t}方向完全相反且等长的向量就是 ,-g_{t}f_{t}(x)的方向也正是-g_{t}的方向。

2、大小

对于向量a,除了[-1,-2]之外,还存在众多与其呈180度夹角、但大小不一致的向量,比如[-2,-4], [-0.5,-1],每一个都可以与向量a求得内积。并且我们会发现,当方向相反时,向量b中的元素绝对值越大,b的模长就越长,向量a与b的内积就越小。因此不难发现, \left \langle g_{t} f_{t}(x)\right \rangle 是一个理论上可以取到无穷小的值,那我们的 ft(x) 应该取什么大小呢?答案非常出乎意料:任何大小都无所谓。

回到我们的迭代公式:

无论 f_{t}(x)的大小是多少,我们都可以通过步长 η 对其进行调整,只要能够影响 H(x),我们就可以影响损失迭代过程中的常数的大小。因此在数学上来说,f_{t}(x) 的大小可以是-g_{t}的任意倍数,这一点在梯度下降中其实也是一样的。为了方便起见,同时为了与传统梯度下降过程一致,我们通常让 f_{t}(x)就等于一倍的-g_{t},但也有不少论文令 f_{t}(x)等于其他值的。在GBDT当中:

这就是我们让GBDT当中的弱评估器拟合伪残差/负梯度的根本原因。拟合负梯度其实为GBDT带来了非常多的特点:

首先,通过直接拟合负梯度,GBDT避免了从损失函数找“最优”的过程,即避免了上述证明中求解 f_{t}=argmin_{f}\sum_{i=1}^{M}l\left ( H_{t-1}(x_{i})+f_{t}(x_{i}) \right ) 的过程,从而大大地简化了计算。

其次,通过拟合负梯度,GBDT模拟了梯度下降的过程,由于结合了传统提升法Boosting与梯度下降,因此才被命名为梯度提升法(Gradient Boosting)。这个过程后来被称为函数空间上的梯度下降(Gradient Descent in Function Space),这是视角为Boosting算法的发展奠定了重要的基础。

最后,最重要的一点是,通过让弱评估器拟合负梯度,弱评估器上的结果可以直接影响损失函数、保证损失函数的降低,从而指向Boosting算法的根本目标:降低偏差。这一过程避免了许多在其他算法中需要详细讨论的问题:例如,每个弱评估器的权重 ϕ 是多少,以及弱评估器的置信度如何。

在AdaBoost算法当中,损失函数是“间接”影响弱评估器的建立,因此有的弱评估器能够降低损失函数,而有的弱评估器不能降低损失函数,因此要在求和之前,需要先求解弱评估器的置信度,然后再给与置信度高的评估器更高的权重,权重 ϕ 存在的根本意义是为了调节单一弱评估器对 ϕ 的贡献程度。但在GBDT当中,由于所有的弱评估器都是能够降低损失函数的,只不过降低的程度不同,因此就不再需要置信度/贡献度的衡量,因此就不再需要权重 ϕ 。

五、遗留问题

有些细节性的东西本文还没有讲到,比如:

  1. 叶子结点如何取值?
  2. 其他损失函数下怎么推导?
  3. ...

详见下面《集成学习(四)DT、GBDT 公式推导》,注意:这两篇文章的符号不一样!!

接下来学习:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/41894.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

virtualbox窗口和win10窗口的切换

1、问题: 从windows切换到虚拟机可以用快捷键 ALTTAB,但是从虚拟机到windows使用 ALTTAB 无法成功切换 2、解决方法: 按下图操作 按上面步骤设置之后,每次要从虚拟机窗口切换到windows窗口 只需要先按 CtrlAlt 跳出虚拟机窗口&…

【已解决】“import ... =“ 只能在 TypeScript 文件中使用

现象 在使用 import 语法的时候,代码报红,提示:“import ... “ 只能在 TypeScript 文件中使用 原因 代码被 VSCode 解析成 TypeScript 语法 解决方案: 关闭 JavaScript 的验证启用即可。 mac 快捷方式:comman s…

微机原理与单片机 知识体系梳理

单片机笔记分享 我个人感觉单片机要记的东西很多,也很琐碎,特别是一些位、寄存器以及相关作用等,非常难以记忆。因此复习时将知识点整理在了一起做成思维导图,希望对大家有所帮助。内容不是很多,可能有些没覆盖全&…

VMware CentOS7 Linux 网络配置

本文主要描述VMware虚拟机的网络配置。 如上所示,在CentOS Linux虚拟机中设置网络连接使用桥接模式,该模式对接主机物理网络,直接由主机的物理网络的DHCP服务器动态分配IP地址,或者在CentOS Linux的操作系统的网络配置中设置静态的…

HACCP体系认证:守护食品安全的黄金标准

在食品生产过程中,食品安全始终是重中之重。为了确保食品的安全性和质量,越来越多的企业开始采用HACCP(危害分析关键控制点)体系认证。这个体系不仅能帮助企业预防食品安全问题,还能显著提升产品质量和市场竞争力。 HA…

android新闻app(二)

新闻详细页: 历史浏览记录SQList: 分类: 历史浏览记录主体UI和详细: 侧边栏: 参考:浩宇开发

如何给gitlab其他访问者创建账号并增加权限

嗨,今天创建了项目之后,我想把项目链接发送给其他人,让他下载这个项目,结果发现对方打开显示登录的界面,没错,他要想使用这个git下载项目,首先他的有一个git账号 接下来我找有权限的相关人员给他…

认识并理解webSocket

今天逛牛客,看到有大佬分享说前端面试的时候遇到了关于webSocket的问题,一看自己都没见过这个知识点,赶紧学习一下,在此记录! WebSocket 是一种网络通信协议,提供了全双工通信渠道,即客户端和服…

策略为王股票软件源代码-----如何修改为自己软件61----资讯菜单修改-----举例---------调用同花顺网页------

http://stock.sina.com.cn 将原来的新浪行情,修改为同花顺, 搜索 stock.sina.com.cn... StkUI\View\InfoView.cpp(58):char

论文阅读--Simple Baselines for Image Restoration

这篇文章是 2022 ECCV 的一篇文章,是旷视科技的一篇文章,针对图像恢复任务各种网络结构进行了梳理,最后总结出一种非常简单却高效的网络结构,这个网络结构甚至不需要非线性激活函数。 文章一开始就提到,虽然在图像复原…

VRPTW(MATLAB):常春藤算法(IVY)求解带时间窗的车辆路径问题VRPTW,MATLAB代码

详细介绍 VRPTW(MATLAB):常春藤算法(Ivy algorithm,IVY)求解带时间窗的车辆路径问题VRPTW(提供MATLAB代码)-CSDN博客 ********************************求解结果******************…

EtherCAT转Profinet网关配置说明第一讲:配置软件安装及介绍

网关XD-ECPNS20为EtherCAT转Profinet协议网关,使EtherCAT协议和Profinet协议两种工业实时以太网网络之间双向传输 IO 数据。适用于具有EtherCAT协议网络与Profinet协议网络跨越网络界限进行数据交换的解决方案。 本网关通过上位机来进行配置。 首先安装上位机软件 一…

Qt使用sqlite数据库及项目实战

一.sqlite使用介绍 在Qt中使用SQLite数据库非常简单,SQLite是一个轻量级的嵌入式数据库,不需要单独的数据库服务器,完全使用本地文件来存储数据。 当在Qt中使用SQLite数据库时,需要涉及到一些SQL语句以及Qt中的相关函数&#xf…

【海贼王的数据航海】ST表——RMQ问题

目录 1 -> RMQ问题 1.1 -> 定义 1.2 -> 解决策略 2 -> ST表 2.1 -> 定义 2.2 什么是可重复贡献问题 2.3 -> 预处理ST表 2.4 -> 处理查询 2.5 -> 实际问题 1 -> RMQ问题 1.1 -> 定义 RMQ (Range Minimum/Maximum Query)即区间最值查询…

黑马点评DAY2|Redis基本操作

Redis客户端 命令行客户端 进入到redis的安装目录,可以看到redis-cli文件,这就是redis的命令行客户端,在安装redis时自带的。 使用方式如下 redis-cli [options] [commonds]其中常见的options有: -h 127.0.0.1 :指…

电量监测与电量计基础知识

硬件之路学习笔记 ​-----前文导读----- ①、公众号主页点击发消息 ②、点击下方菜单获取系列文章 -----本文简介----- 主要内容包括: ①:简介 ②:省成本方式-电阻分压 ③:精确方式-电量计与阻抗跟踪技术 ----- 正文 ----…

JavaWeb--jquery篇

概述 jQuery是一个快速、简洁的JavaScript框架,是一个优秀的JavaScript代码库(框架)于2006年1月由John Resig发布。它封装JavaScript常用的功能代码,提供一种简便的JavaScript设计模式,优化HTML文档操作、事件处理、动…

2229:Sumsets

网址如下&#xff1a; OpenJudge - 2229:Sumsets 这题不是我想出来的 在这里仅做记录 代码如下&#xff1a; #include<iostream> using namespace std;const int N 1000000000; int dp[1000010]; int n;int main() {cin >> n;dp[0] 1;dp[1] 1;for (int i 2…

前端面试题7(单点登录)

如何实现单点登录 单点登录&#xff08;Single Sign-On&#xff0c;简称SSO&#xff09;是一种允许用户在多个应用系统中只需登录一次&#xff0c;就可以访问所有相互信任的应用系统的认证技术。实现前端单点登录主要依赖于后端的支持和一些特定的协议&#xff0c;如OAuth、Ope…

无法下载cuda

cuda下载不了 一、台式机电脑浏览器打不开cuda下载下面二、解决办法 一、台式机电脑浏览器打不开cuda下载下面 用360、chrome、Edge浏览器都打不开下载页面&#xff0c;有的人说后缀com改成cn&#xff0c;都不行。知乎上说是网络问题&#xff0c;电信换成换成移动/联通的网络会…