Python梯度提升决策树的方法示例

梯度提升决策树(Gradient Boosting Decision Tree,简称GBDT)是一种基于集成学习的算法,它通过构建多个决策树模型,并将它们组合在一起来实现更好的预测性能。GBDT的核心思想是在每轮迭代中,根据当前模型的残差(真实值与预测值之差)来训练一个新的决策树,然后将这个新树添加到模型中,以不断减少预测误差。

1. 示例一:使用鸢尾花(Iris)数据集进行分类任务

1.1 内容介绍

(1)初始化:首先,GBDT初始化一个弱的预测模型(通常是一个常数,如所有训练样本标签的平均值)。

(2)迭代:对于每轮迭代,执行以下步骤:

  • 计算残差:计算当前模型预测值与真实值之间的残差。

  • 拟合残差:使用决策树模型拟合残差。

  • 更新模型:将新拟合的决策树模型添加到之前的模型中,通过一定的学习率(shrinkage)来控制新树对最终预测的影响。

(3)输出:最终模型是所有迭代中生成的决策树模型的加权和。

1.2 代码示例

下面是一个使用Python的scikit-learn库实现GBDT的简单示例。我们将使用鸢尾花(Iris)数据集进行分类任务。

from sklearn.datasets import load_iris  
from sklearn.model_selection import train_test_split  
from sklearn.ensemble import GradientBoostingClassifier  
from sklearn.metrics import accuracy_score  # 加载数据  
iris = load_iris()  
X = iris.data  
y = iris.target  # 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 初始化GBDT分类器  
gbdt = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)  # 训练模型  
gbdt.fit(X_train, y_train)  # 预测测试集  
y_pred = gbdt.predict(X_test)  # 计算准确率  
accuracy = accuracy_score(y_test, y_pred)  
print(f"Accuracy: {accuracy}")  # 如果我们想查看模型的特征重要性,可以这样做:  
print("Feature importances:")  
for feature_idx, importance in enumerate(gbdt.feature_importances_):  print(f"Feature {iris.feature_names[feature_idx]}: {importance}")

1.3 参考价值和实际意义

GBDT是一种非常强大的机器学习算法,尤其适用于处理具有复杂交互和非线性关系的数据。由于它能够处理缺失值、异常值和不同尺度的特征,因此在许多实际问题中都有广泛的应用。此外,GBDT还提供了特征重要性的度量,这对于特征选择和解释模型预测结果非常有用。

在上面的示例中,我们使用了鸢尾花数据集,这是一个简单的三分类问题。然而,GBDT也可以应用于更复杂的回归和分类问题,包括多分类、多标签分类和回归预测等。通过调整GBDT的参数(如学习率、树的数量、树的深度等),我们可以获得不同的模型复杂度和预测性能,以适应不同的数据和任务需求。

下面我将更具体地介绍梯度提升决策树(GBDT)的一些应用实例。

2. 示例二:房价预测(回归问题)

2.1 问题描述

假设我们有一组关于房地产市场的数据,包括房屋面积、位置、房龄等特征,以及对应的房价。我们的目标是建立一个模型,能够根据这些特征来预测房价。

2.2 GBDT应用

(1)模型构建:使用GBDT回归模型,将房屋面积、位置、房龄等特征作为输入,房价作为输出。

(2)参数设置:可以设置n_estimators=100(表示使用100棵决策树),learning_rate=0.1(学习率),max_depth=3(决策树的最大深度)等参数来控制模型的复杂度和性能。

(3)训练与预测:使用训练数据拟合模型,然后用测试数据评估模型的预测性能。

2.3 代码示例

首先,我们需要假设一个数据集,但这里为了简单起见,我们使用scikit-learn提供的合成数据生成器来模拟房价数据。

from sklearn.datasets import make_regression  
from sklearn.model_selection import train_test_split  
from sklearn.ensemble import GradientBoostingRegressor  
from sklearn.metrics import mean_squared_error  
import numpy as np  # 生成模拟的房价数据  
X, y = make_regression(n_samples=1000, n_features=4, noise=0.1, random_state=42)  # 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)  # 初始化GBDT回归模型  
gbdt_reg = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)  # 训练模型  
gbdt_reg.fit(X_train, y_train)  # 预测测试集  
y_pred = gbdt_reg.predict(X_test)  # 计算均方误差  
mse = mean_squared_error(y_test, y_pred)  
print(f"Mean Squared Error: {mse}")  # 查看特征重要性  
print("Feature importances:")  
for feature_idx, importance in enumerate(gbdt_reg.feature_importances_):  print(f"Feature {feature_idx}: {importance}")

2.4 结果分析

GBDT模型能够处理非线性关系,对于房价预测这类具有复杂交互的问题非常有效。通过调整模型参数,我们可以获得不同的预测精度和模型复杂度。

3. 示例三:垃圾邮件分类(分类问题)

3.1 问题描述

在电子邮件系统中,我们经常需要区分垃圾邮件和非垃圾邮件。这可以看作是一个二分类问题,其中邮件内容、发件人等信息可以作为特征,邮件是否为垃圾邮件作为标签。

3.2 GBDT应用

(1)文本处理:首先需要将邮件内容转换为数值型特征,这通常可以通过文本向量化(如TF-IDF)或词嵌入(如Word2Vec)等方法实现。

(2)模型构建:使用GBDT分类模型,将处理后的文本特征作为输入,邮件类别(垃圾邮件/非垃圾邮件)作为输出。

(3)参数设置:与房价预测类似,可以设置适当的参数来控制模型的复杂度和性能。

(4)训练与预测:使用训练数据拟合模型,并用测试数据评估模型的分类性能。

3.3 代码示例

对于垃圾邮件分类,我们需要一个真实的文本数据集。这里我们使用scikit-learn提供的20个新闻组数据集作为示例,并假设其中一个类别代表垃圾邮件。

from sklearn.datasets import fetch_20newsgroups  
from sklearn.model_selection import train_test_split  
from sklearn.feature_extraction.text import TfidfVectorizer  
from sklearn.ensemble import GradientBoostingClassifier  
from sklearn.metrics import accuracy_score  # 加载新闻组数据集,并假设某个类别为垃圾邮件  
categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.med']  
news = fetch_20newsgroups(subset='all', categories=categories, shuffle=True, random_state=42)  
X, y = news.data, news.target  # 将文本数据转换为TF-IDF特征向量  
vectorizer = TfidfVectorizer(stop_words='english')  
X_tfidf = vectorizer.fit_transform(X)  # 划分训练集和测试集  
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42)  # 初始化GBDT分类模型  
gbdt_clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)  # 训练模型  
gbdt_clf.fit(X_train, y_train)  # 预测测试集  
y_pred = gbdt_clf.predict(X_test)  # 计算准确率  
accuracy = accuracy_score(y_test, y_pred)  
print(f"Accuracy: {accuracy}")  # 查看特征重要性(注意:这里显示的是TF-IDF特征的重要性,而不是原始文本的重要性)  
print("Feature importances:")  
for feature_idx, importance in enumerate(gbdt_clf.feature_importances_):  print(f"Feature {feature_idx}: {importance}")

3.4 结果分析

GBDT分类模型能够处理类别不平衡等问题,并通过调整损失函数和决策树结构来优化分类性能。此外,GBDT的决策树结构天然适合进行特征重要性的评估,这有助于我们理解哪些特征对分类结果影响最大。

4. 示例四:特征选择

4.1 问题描述

在机器学习项目中,我们经常面临特征选择的问题,即确定哪些特征对模型的预测性能最重要。

4.2 GBDT应用

GBDT的决策树结构天然适合进行特征重要性的评估。在训练GBDT模型后,我们可以查看每个特征的重要性得分,从而确定哪些特征对模型的预测结果影响最大。

4.3 代码示例

为了强调特征选择的概念,我们可以进一步选择最重要的特征来训练模型,并查看模型在新特征集上的表现。

# 假设我们想要选择最重要的10个特征  
n_features_to_select = 10  
importances = gbdt_clf.feature_importances_  
indices = np.argsort(importances)[::-1]  
selected_features = indices[:n_features_to_select]  # 提取选定的特征  
X_train_selected = X_train[:, selected_features]  
X_test_selected = X_test[:, selected_features]  # 初始化GBDT分类模型(使用选定的特征)  
gbdt_clf_selected = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1, max_depth=3, random_state=42)  # 训练模型  
gbdt_clf_selected.fit(X_train_selected, y_train)  # 预测测试集  
y_pred_selected = gbdt_clf_selected.predict(X_test_selected)  # 计算准确率  
accuracy_selected = accuracy_score(y_test, y_pred_selected)  
print(f"Accuracy with selected features: {accuracy_selected}")  # 输出选定的特征名称(注意:这里假设我们有特征名称的映射,但在这个例子中我们仅知道特征索引)  
print("Selected features (indices):", selected_features)  # 如果我们有原始特征名称的映射,我们可以这样做:  
# feature_names = vectorizer.get_feature_names_out()  # 注意:这通常是在fit_transform之后获得的  
# selected_feature_names = [feature_names[i] for i in selected_features]  
# print("Selected features (names):", selected_feature_names)

注意:在真实应用中,我们可能需要从原始文本数据中提取特征(如TF-IDF、词袋模型等),并有一个明确的特征名称到索引的映射。在这个例子中,为了简单起见,我们只使用了特征索引。如果我们有特征名称的映射,我们可以轻松地将其添加到上面的代码中。

4.4 结果分析

特征选择是一种重要的技术,可以帮助我们理解数据,减少过拟合,并提高模型的解释性。在上面的例子中,我们选择了最重要的10个特征来训练模型,并查看了模型在新特征集上的表现。我们可以尝试选择不同的特征数量,并比较模型的性能,以找到最佳的特征子集。通过GBDT的特征重要性评估,我们可以更好地理解数据,并确定哪些特征对于解决问题最为关键。这有助于我们进行更有效的特征选择和模型优化。

5. 总结

GBDT是一种功能强大的机器学习算法,适用于回归、分类和特征选择等多种任务。通过调整模型的参数和结构,我们可以获得不同的性能表现,以适应不同的数据和任务需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/32160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java-异常:不恰当的异常转换、不充分的日志记录、过度或不当的异常捕获

Java-异常:不恰当的异常转换、不充分的日志记录、过度或不当的异常捕获 Java-异常:不恰当的异常转换、不充分的日志记录、过度或不当的异常捕获一、前期准备二、案例分析1、不恰当的异常转换2、不充分日志记录3、过度或不当的异常捕获 三、正确处理方式1…

Open WebUI – 本地化部署大模型仿照 ChatGPT用户界面

Open WebUI介绍: Open WebUI 是一个仿照 ChatGPT 界面,为本地大语言模型提供图形化界面的开源项目,可以非常方便的调试、调用本地模型。你能用它连接你在本地的大语言模型(包括 Ollama 和 OpenAI 兼容的 API)&#xf…

dp经典问题:爬楼梯

dp经典问题:爬楼梯 爬楼梯 三步问题。有个小孩正在上楼梯,楼梯有n阶台阶,小孩一次可以上1阶、2阶或3阶。实现一种方法,计算小孩有多少种上楼梯的方式。结果可能很大,你需要对结果模1000000007。 Step1: 识别问题 这…

emqx5.6.1 数据、配置备份与迁移

EMQX 支持导入和导出的数据包括: EMQX 配置重写的内容: 认证与授权配置规则、连接器与 Sink/Source监听器、网关配置其他 EMQX 配置内置数据库 (Mnesia) 的数据 Dashboard 用户和 REST API 密钥客户端认证凭证(内置数据库密码认证、增强认证…

公共网络IP地址不正确?别担心,这里有解决方案

在数字化时代,公共网络IP地址的正确性对于我们的在线体验至关重要。它不仅是网络连接的标识,更是确保我们正常访问互联网资源、享受网络服务的基础。然而,有时我们可能会遇到公共网络IP地址不正确的情况,这不仅会影响我们的网络速…

这家民营银行起诉担保公司?暴露担保增信兜底隐患

来源 | 镭射财经(leishecaijing) 助贷领域中,各路资方依赖担保增信业务扩张数年,其风险积压也不容忽视。一旦助贷平台或担保公司兜不住底,资方就将陷入被动。 最近,一则民营银行起诉合作担保公司的消息引…

【已解决】SpringBoot图片更新需重启服务器才能显示

问题描述 1、更新头像,并跳转回列表页,发现显示不出来 2、但是前端获取用户头像的信息是在加载页面就会被调用的,同时前端也不存在所谓的缓存问题,因为没有动这部分代码。 但查看响应是能获得正确的信息(前端打印图片…

Linux查找软件安装在哪里

linux查找软件安装在哪里 1、解决问题 linux直接下载安装的软件,找不到文件安装目录 2、java为例子 rootae83eef571af:/usr/local/hadoop/etc/hadoop# which java /usr/bin/java rootae83eef571af:/usr/local/hadoop/etc/hadoop# ls -l /usr/bin/java lrwxrwxrw…

数据结构--单链表(图文)

单链表的概念 在单链表中,每个元素(称为节点)包含两部分:一部分是存储数据的数据域,另一部分是存储下一个节点地址的指针域。这里的“单”指的是每个节点只有一个指向下一个节点的指针。 节点:链表中的基…

uView2.0 ScrollList 多菜单扩展

ScrollList 多菜单扩展 使用uni/vue2 // HTML <u-scroll-list><view class"scroll-list margin-top-xs"><!-- 第一行 --><view class"scroll-list__row"><viewclass"scroll-list__goods-item"style"width: 248…

Apple - Secure Coding Guide

本文翻译整理自&#xff1a;Secure Coding Guide https://developer.apple.com/library/archive/documentation/Security/Conceptual/SecureCodingGuide/Introduction.html#//apple_ref/doc/uid/TP40002477-SW1 文章目录 一、安全编码指南简介1、概览黑客和攻击者没有平台是免疫…

【办公类-50-01】20240620自主游戏观察记录表19周内容打乱

背景需求&#xff1a; 又到了期末&#xff0c;各种班级资料需要提交。 有一份自主游戏观察记录需要写19周&#xff08;每周2次&#xff09;的观察记录&#xff0c;并根据参考书填写一级、三级、五级的评价指标。 去年中六班的时候&#xff0c;我很认真的手写了21周的户外游戏…

算法第八天:leetcode 35.搜索插入位置

一、搜索插入位置 该题的题目链接如下所示&#xff0c;看题解前先点击或复制下面链接进入力扣做题哦&#xff0c;做题后看会更好哦。 https://leetcode.cn/problems/search-insert-position/ 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返…

具有 Hudi、MinIO 和 HMS 的现代数据湖

Apache Hudi 已成为管理现代数据湖的领先开放表格式之一&#xff0c;直接在现代数据湖中提供核心仓库和数据库功能。这在很大程度上要归功于 Hudi 提供了表、事务、更新/删除、高级索引、流式摄取服务、数据聚类/压缩优化和并发控制等高级功能。 我们已经探讨了 MinIO 和 Hudi…

MySQL Binary Log

显示系统变量&#xff1a;二进制日志 -- 显示系统变量&#xff1a;二进制日志 show variables like %log_bin%;显示二进制日志文件列表 -- 显示二进制日志文件列表 show binary logs;显示二进制日志事件 -- 显示二进制日志事件 show binlog events [in log_name] [from pos]…

Vue3 - 在项目中使用vue-i18n不生效的问题

检查和配置 Vue I18n 确保你已经正确安装了Vue I18n并且配置了组合API模式。 安装 Vue I18n npm install vue-i18nnext配置 i18n.js import { createI18n } from vue-i18n; import messages from ./messages;const i18n createI18n({legacy: false, // 使用组合 API 模式l…

Linux检查端口nmap

yum install -y nmap # 查看本机在运行的服务的端口号 nmap 127.0.0.1 补充&#xff1a;netstat netstat -tunlp | grep 3306

android怎么知道FileProvider应该导入的包名是什么?androidx.core.content.FileProvider

在Android中&#xff0c;FileProvider是一个特殊的ContentProvider&#xff0c;它允许你安全地与其他应用共享文件。FileProvider通常用于通过Intent发送文件&#xff08;如通过ACTION_SEND&#xff09;或用于在应用中访问文件而不需要使用FILE URI模式&#xff0c;因为FILE UR…

【Qt】模态对话框和非模态对话框

1. 介绍 模态对话框&#xff1a; 显示的对话框不允许鼠标再去点击其他窗口&#xff0c;直到对话框退出。非模态对话框&#xff1a; 显示的对话框在现实后继续运行主程序&#xff0c;还可以在主窗口上操作&#xff0c;主窗口和非模态对话框之间可以交互控制&#xff0c;典型的例…

读《文明之光》第2册总结

《文明之光》系列大致按照从地球诞生到近现代的顺序讲述了人类文明进程的各个阶段&#xff0c;每个章节相对独立&#xff0c;全景式地展现了人类文明发展历程中的多样性。《文明之光》系列第二册讲述了从近代科学兴起&#xff0c;到工业革命时代&#xff0c;以及原子能应用这一…