XGB-24:使用Scikit-Learn估计器接口

概览

除了原生接口之外,XGBoost还提供了一个符合sklearn估计器指南的sklearn估计器接口。它支持回归、分类和学习排名。sklearn估计器接口的生存训练仍在进行中。
你可以在使用sklearn接口的示例集合中找到一些快速入门示例。使用sklearn接口的主要优势在于,它可以与sklearn提供的大多数实用程序一起工作,例如sklearn.model_selection.cross_validate()。此外,由于其流行度,许多其他库也认识sklearn估计器接口。
使用sklearn估计器接口,我们只需要几行Python代码就可以训练一个分类模型。下面是训练一个分类模型的示例:

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_splitimport xgboost as xgbX, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=94)# Use "hist" for constructing the trees, with early stopping enabled.
clf = xgb.XGBClassifier(tree_method="hist", early_stopping_rounds=2)# Fit the model, test sets are used for early stopping.
clf.fit(X_train, y_train, eval_set=[(X_test, y_test)])# Save model into JSON format.
clf.save_model("clf.json")

tree_method参数指定了构建树的方法,而early_stopping_rounds参数则启用了提前停止。提前停止可以帮助防止过拟合,并在训练过程中节省时间。

提前停止Early Stopping

可以通过参数early_stopping_rounds启用提前停止。另外,还可以使用回调函数xgboost.callback.EarlyStopping来指定有关提前停止行为的更多细节,包括XGBoost是否应返回最佳模型而不是完整的树栈:

early_stop = xgb.callback.EarlyStopping(rounds=2, metric_name='logloss', data_name='Validation_0', save_best=True
)
clf = xgb.XGBClassifier(tree_method="hist", callbacks=[early_stop])
clf.fit(X_train, y_train, eval_set=[(X_test, y_test)])

目前,XGBoost在估计器中没有实现数据拆分逻辑,而是依赖于xgboost.XGBModel.fit()方法的eval_set参数。如果要使用提前停止来防止过拟合,需要使用sklearn库中的sklearn.model_selection.train_test_split()函数手动将数据拆分为训练集和测试集。一些其他的机器学习算法,比如sklearn中的算法,将提前停止作为估计器的一部分,并且可以与交叉验证一起使用。然而,在交叉验证过程中使用提前停止可能并不是一个完美的方法,因为它会改变每个验证折叠的模型树的数量,导致不同的模型。一个更好的方法是在交叉验证后使用最佳的超参数以及提前停止重新训练模型。如果想尝试使用提前停止进行交叉验证的想法,这是一个开始的代码片段:

from sklearn.base import clone
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import StratifiedKFold, cross_validateimport xgboost as xgbX, y = load_breast_cancer(return_X_y=True)def fit_and_score(estimator, X_train, X_test, y_train, y_test):"""Fit the estimator on the train set and score it on both sets"""estimator.fit(X_train, y_train, eval_set=[(X_test, y_test)])train_score = estimator.score(X_train, y_train)test_score = estimator.score(X_test, y_test)return estimator, train_score, test_scorecv = StratifiedKFold(n_splits=5, shuffle=True, random_state=94)clf = xgb.XGBClassifier(tree_method="hist", early_stopping_rounds=3)results = {}for train, test in cv.split(X, y):X_train = X[train]X_test = X[test]y_train = y[train]y_test = y[test]est, train_score, test_score = fit_and_score(clone(clf), X_train, X_test, y_train, y_test)results[est] = (train_score, test_score)

获取原生 booster 对象

**Sklearn 估计器接口主要用于训练,并没有实现 XGBoost 中所有可用的功能。**例如,为了获得缓存的预测结果,需要使用 xgboost.Booster.predict() 方法配合 xgboost.DMatrix。可以通过 xgboost.XGBModel.get_booster() 方法从 sklearn 接口中获取 booster 对象。

booster = clf.get_booster()
print(booster.num_boosted_rounds())

预测

当启用提前停止时,包括xgboost.XGBModel.predict()xgboost.XGBModel.score()xgboost.XGBModel.apply()在内的预测函数将自动使用最佳模型。这意味着xgboost.XGBModel.best_iteration用于指定在预测中使用的树的范围。
为了获得增量预测的缓存结果,可以使用xgboost.Booster.predict()方法。

并行线程数

在处理XGBoost和其他sklearn工具时,可以通过使用n_jobs参数来指定想要使用的线程数。默认情况下,XGBoost会使用计算机上所有可用的线程,这可能会在与sklearn的其他功能(如sklearn.model_selection.cross_validate())结合使用时产生一些有趣的结果。**如果XGBoost和sklearn都设置为使用所有线程,计算机可能会因为所谓的“线程颠簸”而显著变慢。**为了避免这种情况,只需将XGBoost的n_jobs参数设置为None(这使用了所有线程),并将sklearn的n_jobs参数设置为1。这样,这两个程序就能够顺畅地一起工作,而不会给计算机造成任何不必要的负担。

参考

  • https://scikit-learn.org/stable/developers/develop.html#rolling-your-own-estimator
  • https://xgboost.readthedocs.io/en/latest/python/examples/sklearn_examples.html#sphx-glr-python-examples-sklearn-examples-py
  • https://xgboost.readthedocs.io/en/latest/python/sklearn_estimator.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/774251.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聚道云助力:易快报CDP无缝对接,登录同步一步到位!

一、客户介绍 某企业咨询有限公司是一家专注于为企业提供全方位、高质量咨询服务的领先机构。该公司致力于将先进的管理理念和实践经验与企业实际需求相结合,助力企业实现可持续发展。无论是战略规划、组织优化、人力资源管理,还是市场营销、财务管理等…

GEE:将分类特征和标签提取到样本点,并以(csv/shp格式)下载到本地

作者:CSDN @ _养乐多_ 本文将介绍在Google Earth Engine(GEE)平台上,下载用于机器学习分类或者回归的样本点数据,样本点数据携带了分类特征和标签信息,可以以csv格式或者SHP格式。 结果如下图所示, 文章目录 一、核心函数1.1 采样1.2 下载函数二、代码链接三、完整代码…

【医疗器械方案】红外额温枪应用方案

红外额温枪作为一款红外测温的电子产品,最开始是用于工业测温,但随着时代的发展,逐渐的发展为医疗行业使用。红外额温枪最核心的功能就是对人体做实时测温,并且可以在不接触人体情况下直接测温,这种功能在疫情期间尤为…

产品推荐 | 基于 ALINX XILINX ZYNQ-7000 XC7Z020 多网口 FPGA开发板

01、产品概述 此款开发板使用的是Xilinx公司的Zynq 7000系列的芯片,型号为XC7Z020-2CLG484I,5 路千兆以太网接口,支持多网口高速数据交换数据处理存储,视频传输处理以及工业控制等。内核 CPU搭载双核 ARM CORTEX-A9;在…

用自己的小程序通过扫码跳到另一个小程序

onscanCodeGui() {const that this;// scanCodeResult 1为饿了么 2为美团 3为其他wx.scanCode({success (res) {if (res.result.includes(ele.me)) {that.setData({scanCodeResult: 1})that.onJump(that.data.scanCodeResult);}if (res.result.includes(meituan.com)) {that.s…

git提交和回退

目录 一. git 提交二. git commit 后准备回退,尚未 git push三. git add 添加多余文件 撤销操作四. 更改 Git commit 的默认编辑器五. 撤销某个commit的变更六. 回退到之前的commit状态总结: 一. git 提交 git pull # 更新代码 git status # 查看代码状…

VC++ build Tools下载地址

最新版本Buildtools下载地址: https://visualstudio.microsoft.com/zh-hans/visual-cpp-build-tools/ vs2022 build tools下载: https://aka.ms/vs/17/release/vs_BuildTools.exe vs2019 build tools下载: ​​​​​​https://aka.ms/…

服务器有哪些作用?

服务器相对于普通的计算机来说,服务器的运行速度更快,负载能力更高,但是价格也比普通计算机的要贵,服务器有着高速的CPU运算的能力,能够在网络中为智能手机或是火车系统等大型设备提供计算或者是相应的应用服务。 接下…

云原生最佳实践系列 4:基于 MSE 和 SAE 的微服务部署与压测

方案概述 云原生应用平台为基于 Spring Cloud / Dubbo 开发的微服务应用提供了完善的能力支撑,例如服务注册发现、Serverless 无服务部署、实例弹性伸缩、微服务链路跟踪、全链路压力测试等,应用能够方便快捷的部署在阿里云上。 阿里云原生产品完全兼容…

SEO 的未来:GPT 和 AI 如何改变关键词研究

谷歌Gemini与百度文心一言:AI训练数据的较量 介绍 想象一下,有一个工具不仅可以理解错综复杂的关键字网络,还可以预测搜索引擎查询的变化趋势。 这就是生成式预训练 Transformer (GPT) 和其他人工智能技术发挥作用的地方,以我们从…

怎么创建百科人物的词条?百度百科词条创建

百度百科中,创建一个属于自己的词条,不仅是个人荣誉的象征,更是对其生平事迹的官方记录,能够让更多人了解和记住一个人的成就。那么,如何创建一个高质量的百科人物词条呢?本文伯乐网络传媒将详细解答这一问…

docker安装postgresql数据库包含postgis扩张

docker安装postgresql数据库包含postgis扩张 安装postgres docker pull postgres启动容器 docker run -it --name postgres --restart always \ -e POSTGRES_PASSWORDyour_password \ -e POSTGRES_USERmydbuser \-e ALLOW_IP_RANGE0.0.0.0/0 \ -v /data/postgresql/data:…

详细分析Linux中的core dump异常(附 Demo排查)

目录 1. 基本知识2. 进阶知识3. Demo4. 彩蛋 1. 基本知识 Core dump 是指在程序异常终止时,操作系统将程序的内存映像保存到磁盘上的一种机制。 在 Linux 系统中,core dump 提供了一种调试程序错误的重要方式,它记录了程序在崩溃时的内存状态…

Codeup_1132:问题 A: 最长公共子序列

目录 Problem DescriptionInputOutputSample InputSample Output原题链接解题思路代码实现(C) Problem Description 给你一个序列X和另一个序列Z,当Z中的所有元素都在X中存在,并且在X中的下标顺序是严格递增的,那么就…

伦敦银交易技巧:复合汇聚区域的应用

在伦敦银交易中我们需要掌握一些交易技巧,有了交易技巧我们才看得懂市场走势,进而作出适合我们的交易选择。下面我们就来讨论一个关于复合汇聚区域的伦敦银交易技巧。 相信很多人都学过支撑阻力位这个伦敦银交易技巧。一般来说,在伦敦银交易中…

ForkJoinPool在生产环境中使用遇到的一个问题

1、背景 在我们的项目中有这么一个场景,需要消费kafka中的消息,并生成对应的工单数据。早些时候程序运行的好好的,但是有一天,我们升级了容器的配置,结果导致部分消息无法消费。而消费者的代码是使用CompletableFutur…

C++初学者:如何优雅地写程序

我喜欢C语言的功能强大,简洁,我也喜欢C#的语法简单,清晰,写起来又方便好用。 一、为什么不用C语言写程序。 C语言用来做题目,考试研究是很方便的,但是用来写程序做软件,你就会发现&#xff0c…

Altair(澳汰尔) Radioss® 评估和优化动态载荷下的高度非线性问题

Altair(澳汰尔) Radioss 评估和优化动态载荷下的高度非线性问题 Radioss 是一款超前的分析解决方案,可评估和优化动态载荷下的高度非线性问题。它广泛应用于全球各行各业,能有效提高复杂设计的耐撞性、安全性和可制造性。 30 多…

Idea与DataGrip各版本通用破解码,无需脚本。

直接输入即可。若失效,访问网址http://idea521.com/即可获取新的破解码。亲测好用。 Idea与DataGrip是一个公司的产品,这里的破解码可通用。 破解码一: 375XQD8EO2-eyJsaWNlbnNlSWQiOiIzNzVYUUQ4RU8yIiwibGljZW5zZWVOYW1lIjoi5YWo5a625qG2IHd…

PMBOK第八版、项目管理AI标准...PMI标准今年有这些进展

项目管理实践标准不断在演变,PMI作为项目管理领域的权威机构,一直致力于与全球各行各业的项目实践者一同探索和研究最新的行业标准,确保PMI标准符合全球项目专业人士当前能力建设与职业发展的需要。 今年以来,我们发布了一系列PM…