xgboost分类_XGBoost(Extreme Gradient Boosting)

c7c32b12f60a9cfc0bfe7ea159ca16cc.png

一、XGBoost在Ensemble Learning中的位置

机器学习中,有一类算法叫集成学习(Ensemble Learning),所谓集成学习,指将多个分类器的预测结果集成起来,作为最终预测结果,它要求每个分类器具备一定的“准确性”和“差异性”。通俗理解,集成学习的思想就是“三个臭皮匠,顶个诸葛亮”,多个弱分类器联合起来变成强分类器。集成学习根据分类器之间的依赖关系,划分为Boosting和Bagging两大门派,XGBoost(由华盛顿大学的陈天奇等人提出,因XGBoost出众的训练速度和准确率,受到广泛关注和应用)属于Boosting算法,它是在GBDT基础上的优化算法,如下图:

55446e4c102f492af63f287b6e565a58.png

二、XGBoost的基本思想和举例

XGBoost算法的基本思想跟GBDT类似,不断地通过特征分裂生长一棵树,每一轮学习一棵树,其实就是去拟合上一轮模型的预测值与实际值之间的残差。当训练完成,得到k棵树,如果要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中落到对应的一个叶子节点,每个叶子节点对应一个分数,最后只需将每棵树对应的分数加起来就是该样本的预测值。

60dcd49b0f67ddc4bd308a1542b8e060.png

9d08682f8f02297b2387b5fd16cfc318.png

未完待续……

三、XGBoost在GBDT基础上做了哪些优化?

1、导数信息:GBDT只用到一阶导数信息,而XGBoost对损失函数做二阶泰勒展开,引入一阶导数和二阶导数。
2、基分类器:GBDT以传统CART作为基分类器,而XGBoost不仅支持CART决策树,还支持线性分类器,相当于引入L1和L2正则化项的逻辑回归(分类问题)和线性回归(回归问题)。
3、特征采样:XGBoost借鉴RF的做法,即类似RandomForestClassifier的max_features,支持列抽样,不仅能防止过拟合,还能降低计算量。
4、正则项:XGBoost的目标函数加了正则化项控制模型的复杂度,防止模型过拟合。
5、并行化:XGBoost支持并行,不是tree维度上的并行,而是特征维度上的并行,决策树最耗时的步骤是对特征的值排序,XGBoost在迭代之前,先进行预排序,将每个特征按特征值排好序,存为块结构,分裂结点时可以采用多线程并行查找每个特征的最佳分割点(计算增益最大的特征进行下一步分裂),极大提升训练速度。
6、缺失值:当样本的特征值存在缺失值时,XGBoost能自动学习出它的默认分裂方向。

四、两种方法控制 XGBoost的过拟合(训练精度高而测试精度低)

方法1:直接控制模型的复杂度(max_depth,min_child_weight,gamma)max_depth:每棵树的最大深度限制。min_child_weight:子节点的最小权重,如果某个子节点权重小于这个阈值,则不会在分裂。gamma:分裂所带来的损失最小阈值,大于此值,才会继续分裂。
方法2:增加随机性,使训练对噪声强健(subsample,colsample_bytree,减小步长eta且增加迭代次数num_round )subsample:用于训练模型的子样本占整个样本集合的比例,能防止过拟合,取值范围为(0,1].colsample_bytree:训练每棵树时用来训练的特征的比例,类似 RandomForestClassifier 的 max_features,在建立树时对特征采样的比例,缺省值为1,取值范围(0,1].eta:每次迭代完成后更新权重时的步长,越小训练越慢,缺省值为0.3,取值范围为[0,1].num_round :总共迭代的次数。

五、XGBoost中偏差(Bias)与方差(Variance)的权衡

Bias-Variance是机器学习/统计学中一个重要的概念。当模型变得复杂时(例如树的深度更深),模型具有更强的拟合训练数据的能力,产生一个低偏差的模型,但是,复杂的模型容易过拟合,需要更多的数据来拟合。XGBoost中的大部分参数都是关于偏差和方差的权衡,最好的模型应该仔细地将模型复杂性(拟合能力)与其预测能力进行权衡。

六、使用XGBoost的示例代码

# step1:导入模块
import xgboost as xgb
# step2:读取数据
dtrain = xgb.DMatrix('demo/data/train.csv')
dtest = xgb.DMatrix('demo/data/test.csv')
# step3:指定参数
param = {'max_depth':2, 'eta':1, 'silent':1, 'objective':'binary:logistic' } # 二分类的逻辑回归问题,输出为概率值。
num_round = 2
# step4:训练
bst = xgb.train(param, dtrain, num_round)
# step5:预测
preds = bst.predict(dtest)

参考资料:

XGBoost官网:https://xgboost.apachecn.org/#/

XGBoost20题:https://blog.csdn.net/weixin_38753230/article/details/100571499

XGBoost算法:https://www.cnblogs.com/mantch/p/11164221.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/468689.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android技术架构演进与未来

本文阅读大约需15分钟 引言众所周知,Android是谷歌开发的一款基于Linux的开源操作系统,每年迭代一次大版本升级。 小米、华为、OPPO、VIVO、三星等各大厂商对Android原生系统进行二次开发衍生出具有各家特色的系统(比如MIUI)&…

Hibernate_1_配置文件详解_基础案例_Hibernate工具类_API详解_持久化类编写规则

Hibernate( ORM框架 ) Hibernate是一个数据持久化层的ORM框架. 它通过JavaBean, 数据库中的表与自身的映射关系达到表中数据的增删改查 特性 1.对JDBC访问数据库的代码进行封装, 简化数据访问的重复性代码 2.使用反射机制完成对Bean的封装 3.轻量级框架,支持关系型数据库 核…

建筑电气工程设计常用图形和文字符号_建筑水电图纸看不懂?10年老师傅教你看图技巧,分分钟安排...

1、建筑给排水工程包括:给水、排水、热水、消火栓、自动喷淋等常用系统,其管道当中流动的是水。(其管道输送介质为水)2、给排水系统的主要功能:(1)建筑给水系统的任务,就是经济合理地将水由室外给水管网输送到装置在室内的各种配水…

Android系统架构开篇

Android系统庞大且错综复杂,Gityuan带领大家初探Android系统整体架构,一窥其全貌。一、引言本文作为Android系统架构的开篇,起到提纲挈领的作用,从系统整体架构角度概要讲解Android系统的核心技术点,带领大家初探Andro…

20155220 实验三 敏捷开发与XP实践 实验报告

20155220 实验三 敏捷开发与XP实践 实验报告 实验内容 XP基础XP核心实践相关工具实验要求 没有Linux基础的同学建议先学习《Linux基础入门(新版)》《Vim编辑器》 课程完成实验、撰写实验报告,实验报告以博客方式发表在博客园,注意…

Android binder 框架和学习资料

1Android binder 是学习 Android 系统一定要啃得硬骨头,可能你刚开始的时候并不理解其中的精髓,但是在 android 系统的很多地方你都会遇到它。不过要我自己写明白其中的逻辑脉络需要花费太多的时间和精力,而且传播效果也不是非常好…

Spring_Bean配置_生命周期_注解

Spring Spring是一个开源框架,Spring是于2003 年兴起的一个轻量级的Java 开发框架,由Rod Johnson 在其著作Expert One-On-One J2EE Development and Design中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之…

完全理解Gson(1):简单入门

GSON是Google开发的Java API,用于转换Java对象和Json对象。本文讨论并提供了使用API的简单代码示例。更多关于GSON的API可以访问:http://sites.google.com/site/gson/. 本文是GSON系列文章的第一篇。本文是其他文章的基础,因此不需要任何GSON…

创业碎碎念

1今天,跟几条跟我玩的比较好的篮球狗在讨论人生,其中有一条特别感慨,「为何看上去别人做起来这么容易的事,我们做很难?」。我突然不知道如何去回答这样的问题?这个问题也一直困扰着我。读我文章…

压缩过的js代码怎么还原_Fundebug 前端 JS插件更新至 1.7.0,拆分录屏代码,还原部分 Script error....

摘要: BUG 监控插件压缩至 18K。1.7.0拆分了录屏代码,BUG 监控插件压缩至18K,另外我们还原了部分 Script error,帮助用户更方便地 Debug。请大家及时更新哈~拆分录屏代码从1.7.0版本开始,我们拆分了录屏代码。如果需要…

SpringAOP描述及实现_AspectJ详解_基于注解的AOP实现_SpringJdbcTemplate详解

AOP AOP特点: 面向切面编程, 利用AOP对业务逻辑的各个部分进行抽取公共代码, 降低耦合度, 提高代码重用性, 同时提高开发效率.采取横向抽取, 取代传统纵向继承体系重复性代码解决事务管理, 性能监视, 安全检查, 缓存, 日志等问题Spring AOP在运行期, 通过反向代理的方式解决类…

(十九)java多线程之ForkJoinPool

本人邮箱: kco1989qq.com 欢迎转载,转载请注明网址 http://blog.csdn.net/tianshi_kco github: https://github.com/kco1989/kco 代码已经全部托管github有需要的同学自行下载 引言 java 7提供了另外一个很有用的线程池框架,Fork/Join框架 理论 Fork/Join框架主要有以下两个类组…

串口,com口,ttl,max232你应该知道的事

1今天,说几个比较基础的知识,大家在开发过程中经常会遇到但是又不是特别注意的知识点。TTL电平:TTL是Transistor-Transistor Logic,即晶体管-晶体管逻辑的简称,它是计算机处理器控制的设备内部各部分之间通…

Caffe2 的基本数据结构(Basics of Caffe2 - Workspaces, Operators, and Nets)[4]

这篇文章主要介绍Caffe2的基本数据结构: WorkspacesOperatorsNets在开始之前最好先阅读以下Intro Turorial首先,导入caffe2。其中core和worksapce模块,这是必须的两个模块。如果你要使用Caffe2生成的protocol buffers,那么你也需要…

Linux 开发者最应该知道的命令汇总

1最近发现一个好东西,在 github 上发现的,我觉得非常适合大家研究 linux,说白了就是一些命令而已,只不过是作者帮忙总结好了,比较适合大家开发和学习 linux 系统,so , 推荐给大家学习下。https:…

华为任职资格_华为采购总部专业任职资格标准|

目 录 序 言 概述 .........................第一部分 级别定义.....................第二部分 资格标准 ....................1、采购工程师(生产采购)任职资格标准........2、采购员(生产采购)任职资格标准............3、采购员…

C 语言内存分配

1昨天有一个群里的同学问我,他问我的问题是 c 语言函数是存在哪里的?是如何执行的?我下意识的觉得这位同学应该是个初学者,所以今天就写下一些基础方面的内容,「C语言的内存布局」。程序代码可以看做是一个…

没有梦想,你跟咸鱼有什么分别?

1标题起的有点夸张,其实这个就是一个招聘贴,之前从来没有用发头条文章来招聘,实在不好意思,这个招聘对我非常重要,这是一个非常好的朋友公司的招聘信息,也希望大家帮忙扩散一下,因为…

一个很Low的通讯录管理系统(但是能用)C/C++单链表实现

通讯录管理系统的设计 问题需求分析 在计算机还未普及之前通讯管理都是由联系人采用名片,通讯录往往采用的是笔录手工记帐的方式来操作的。现在一般的通讯录管理都是采用计算机作为工具的实用的计算机通讯录管理程序来帮助人们进行更有效的通讯录信息管理。本通讯…

2017《面向对象程序设计》课程作业三

作业链接github链接 对于文件读写和多参数主函数学习过程中遇到的问题 这次文件读写改用了C的形式,然后总体还算顺利,借鉴了林燊的,因为他写的代码最容易看懂;还有就是借鉴了《C程序设计》,讲真,谭浩强的还…