sklearn机器学习实战——随机森林回归与特征重要性分析全过程(附完整代码和结果图)

sklearn机器学习实战——随机森林回归与特征重要性分析全过程(附完整代码和结果图)



关于作者


作者:小白熊

作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测,图像分类,姿态识别,语义分割,路径规划,智能优化算法,数据分析,各类创新融合等等。

联系邮箱:xbx3144@163.com

科研辅导、知识付费答疑、个性化定制以及其他合作需求请联系作者~



1 引言

  随机森林(Random Forest)是一种流行的集成学习方法,广泛应用于分类与回归任务中。其通过构建多个决策树,并将这些树的预测结果进行平均(对于回归任务)或投票(对于分类任务)来提升模型的准确性和稳健性。本文旨在通过加州房价数据集,介绍随机森林回归模型的完整训练过程,包含数据预处理、模型训练、模型评价、特征重要性分析等内容。



2 随机森林的理论基础

  随机森林是一种基于决策树的集成学习算法。其主要思想是在训练过程中,通过随机选择特征子集来构建多个决策树,并利用这些树的结果进行投票或取均值。具体而言,随机森林的核心机制可以归纳为以下几点:

  • 多样性:每棵决策树在训练时,都会使用数据的一个随机子集,且每次分裂时使用的特征是随机选择的,这就使得不同的树有不同的决策结构,从而提高了模型的多样性和泛化能力。
  • 降低方差:单个决策树往往对训练数据过拟合,但通过集成大量的决策树,随机森林能够有效地降低方差,改善模型的泛化能力。
  • 高鲁棒性:由于随机森林通过集成多棵树的决策结果,避免了单一模型对某些噪声数据的过度敏感性,具备更高的鲁棒性。



3 数据集介绍

  本文使用的加州房价数据集来自于sklearn库中的fetch_california_housing()函数。该数据集包含加州不同地区的房屋特征与对应的房价中位数,特征包括人口密度、平均房间数、区域收入等。本文通过该数据集构建随机森林回归模型,并预测房价。

# 加载加州房价数据集
from sklearn.datasets import fetch_california_housing
data = fetch_california_housing()



4 数据预处理

  在机器学习任务中,数据的预处理是非常关键的一步。包括处理缺失值、数据标准化以及数据集划分。


4.1 缺失值检测

  需要检测数据集是否存在缺失值。本文使用isnull().sum()方法检查每个特征中的缺失值情况。代码如下:

missing_values = df.isnull().sum()
print("缺失值检测结果:\n", missing_values)

如果数据集存在缺失值则需要进行填补操作。


4.2 数据标准化

  由于数据中的各个特征可能具有不同的量纲,因此我们需要对数据进行标准化处理。标准化的目的是将不同量纲的特征转化为均值为0、方差为1的数据,从而消除量纲对模型的影响。本文使用StandardScaler()进行数据标准化:

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

4.3 数据集划分

  为了评估模型的性能,需要将数据集划分为训练集和验证集,验证集用于测试模型的泛化能力。本文使用train_test_split函数将数据集按8:2的比例进行划分:

X_train, X_val, y_train, y_val = train_test_split(X_scaled, y, test_size=0.2, random_state=42)



5 模型构建与训练

  随机森林回归模型通过sklearn库中的RandomForestRegressor()函数进行构建。在本文中,我们设置决策树的数量为100,随机数种子为42,模型的构建和训练代码如下:

rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

这里,n_estimators表示随机森林中决策树的数量,random_state为随机数种子,用于保证结果的可重复性。



6 十折交叉验证

  为了确保模型的稳健性,本文采用了十折交叉验证(KFold Cross Validation)。十折交叉验证通过将数据分为10份,每次使用9份数据进行训练,1份数据进行验证,如此循环10次,取平均结果。代码如下:

from sklearn.model_selection import KFold, cross_val_score
kf = KFold(n_splits=10, shuffle=True, random_state=42)
cv_scores = cross_val_score(rf_model, X_train, y_train, cv=kf, scoring='neg_mean_squared_error')
print(f"十折交叉验证MSE: {np.mean(-cv_scores)}")

通过交叉验证,我们能够避免因数据划分带来的偶然性影响,确保模型性能的稳定性。



7 模型评估

在验证集上,我们计算以下四个常用的回归评估指标:

  • MSE(均方误差):衡量模型预测值与真实值之间的平均平方误差。
  • MAE(平均绝对误差):衡量预测值与真实值之间的平均绝对差距。
  • RMSE(均方根误差):MSE的平方根,表示模型的平均误差大小。
  • R²(决定系数):衡量模型的解释能力,取值范围为0到1,值越接近1表示模型越优。

计算代码如下:

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_scorey_val_pred = rf_model.predict(X_val)
mse_val = mean_squared_error(y_val, y_val_pred)
mae_val = mean_absolute_error(y_val, y_val_pred)
rmse_val = np.sqrt(mse_val)
r2_val = r2_score(y_val, y_val_pred)print(f"MSE (验证集): {mse_val}")
print(f"MAE (验证集): {mae_val}")
print(f"RMSE (验证集): {rmse_val}")
print(f"R² (验证集): {r2_val}")

通过这些评价指标,我们可以综合评估模型的预测效果:

模型指标



并利用回归图进行模型可视化:

# 绘制回归图
plt.figure(figsize=(10,6))
sns.regplot(x=y_val, y=y_val_pred, scatter_kws={'s':10}, line_kws={'color':'red'})
plt.xlabel("真实值")
plt.ylabel("预测值")
plt.title("验证集-回归图")
plt.show()

回归图



8 特征重要性分析

  特征重要性反映了每个特征对模型预测结果的贡献度。通过随机森林的feature_importances_属性,我们可以获得每个特征的重要性分数,并进行可视化分析:

importances = rf_model.feature_importances_
indices = np.argsort(importances)[::-1]# 可视化特征重要性
plt.figure(figsize=(10, 6))
sns.barplot(x=importances[indices], y=np.array(data.feature_names)[indices])
plt.title('Feature Importances in Random Forest Model')
plt.show()

通过特征重要性分析,我们可以发现哪些特征对房价预测有较大影响:

重要性分析


9 完整代码

import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split, cross_val_score, KFold
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.datasets import fetch_california_housing
import matplotlib.pyplot as plt
import seaborn as sns
import warningswarnings.filterwarnings("ignore")# 设置中文字体为SimHei
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False# 加载加州房价数据集
data = fetch_california_housing()# 数据转换
df = pd.DataFrame(data.data, columns=data.feature_names)
df['Target'] = data.target# 检测缺失值
missing_values = df.isnull().sum()
print("缺失值检测结果:\n", missing_values)# 数据提取
X = df.drop('Target', axis=1)
y = df['Target']# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 划分训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_scaled, y, test_size=0.2, random_state=42)# 构建随机森林回归模型
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)# 十折交叉验证
kf = KFold(n_splits=10, shuffle=True, random_state=42)
cv_scores = cross_val_score(rf_model, X_train, y_train, cv=kf, scoring='neg_mean_squared_error')
print(f"十折交叉验证MSE: {np.mean(-cv_scores)}")# 训练模型
rf_model.fit(X_train, y_train)# 模型预测
y_val_pred = rf_model.predict(X_val)# 计算评价指标
mse_val = mean_squared_error(y_val, y_val_pred)
mae_val = mean_absolute_error(y_val, y_val_pred)
rmse_val = np.sqrt(mse_val)
r2_val = r2_score(y_val, y_val_pred)print(f"MSE (验证集): {mse_val}")
print(f"MAE (验证集): {mae_val}")
print(f"RMSE (验证集): {rmse_val}")
print(f"R^2 (验证集): {r2_val}")# 绘制回归图
plt.figure(figsize=(10,6))
sns.regplot(x=y_val, y=y_val_pred, scatter_kws={'s':10}, line_kws={'color':'red'})
plt.xlabel("真实值")
plt.ylabel("预测值")
plt.title("验证集-回归图")
plt.show()# 特征重要性分析
importances = rf_model.feature_importances_
indices = np.argsort(importances)[::-1]# 可视化特征重要性
plt.figure(figsize=(10, 6))
sns.barplot(x=importances[indices], y=np.array(data.feature_names)[indices])
plt.title('随机森林特征重要性分析')
plt.show()



结束语

  本文通过加州房价数据集,详细介绍了如何使用随机森林回归进行预测。首先进行数据预处理和标准化,然后构建了随机森林回归模型,并使用十折交叉验证评估了模型的性能,最终通过多种评估指标对模型进行评价。此外,我们还分析了各个特征的重要性,进一步解释了模型的决策依据。随机森林凭借其鲁棒性与优秀的泛化能力,在回归任务中表现出了良好的预测效果。希望文章对你有所帮助!如果有任何疑问或建议,欢迎在评论区留言!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/55817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oracle 12201非PDBS模式单机部署(静默安装)

一、创建Oracle数据库的用户 groupadd oinstall groupadd dba groupadd asmadmin groupadd asmdba useradd -g oinstall -G dba,asmdba oracle -d /home/oracle passwd oracle二、配置Linux 服务器参数 cat /home/oracle/.bash_profile export ORACLE_HOSTNAMEH_orcle01 expo…

知识图谱入门——7:阶段案例:使用 Protégé、Jupyter Notebook 中的 spaCy 和 Neo4j Desktop 搭建知识图谱

在 Windows 环境中结合使用 Protg、Jupyter Notebook 中的 spaCy 和 Neo4j Desktop,可以高效地实现从自然语言处理(NLP)到知识图谱构建的全过程。本案例将详细论述环境配置、步骤实现以及一些扩展和不足之处。 源文件已上传我的资源区。 文章…

【VScode】如何使用详细步骤【笔记】、配置 C / C ++【笔记】

2024 - 10 - 10 - 笔记 - 24 作者(Author):郑龙浩(仟濹) 该笔记写于 2024-07-02 摘抄到博客上的时间是 2024-10-10 VScode配置 C / C 笔记 我是看了下方链接的视频后为了方便后期复习做的笔记: B站某UP主的视频如下: VScode配置C/C开发环境&#xff…

DevExpress WPF中文教程:如何解决数据更新的常见问题?

DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…

使用docsify搭建github pages页面

文章目录 初始化相关配置index.htmlreadme.md_sidebar.md docsify 可以快速帮你生成文档网站。不同于 GitBook、Hexo 的地方是它不会生成静态的 .html 文件, 所有转换工作都是在运行时。如果你想要开始使用它,只需要创建一个 index.html 就可以开始编写文…

机器学习与神经网络:新时代的科学革命与物理学的融合

方向一:机器学习与神经网络的发展前景 引言 在21世纪的科技浪潮中,机器学习与神经网络无疑是最为耀眼的明星之一。它们不仅在学术界引发了广泛的研究热潮,更在商业、医疗、金融等多个领域展现出了巨大的应用潜力。2024年诺贝尔物理学奖的颁…

VMware桥接模式无法连接网络

windows下打开控制面板,找到WLAN,记住下面的名称(带有VMware的都是虚拟机的网卡,要找到物理主机的网卡) 回到VMware,编辑——打开虚拟网络编辑器 桥接选择上面的WLAN下的网络名称,确定即可。&…

需求9——通过一个小需求来体会service层的作用

昨天在完成了睿哥的需求验收之后,暂时没有其他任务,因此今天可能会比较有空闲时间。趁着这个机会,我打算把之前完成的一些需求进行总结,方便以后复习和参考。 在8月份的时候,我负责了一个需求,该需求的具体…

苏宁商品详情接口技术解析与实战代码示例

引言 苏宁作为国内领先的电商平台,为商家和消费者提供了丰富的商品信息和便捷的购物体验。对于开发者而言,苏宁提供的商品详情接口是获取商品详细信息的重要工具。通过调用该接口,开发者可以获取商品的标题、价格、库存、图片等关键信息&…

基于xml配置文件的Spring事务

在项目中对事务属性通常传播属性,回滚属性,隔离级别,超时属性都取默认值,只有只读属性会如下的配置: 什么意思:Service层你的类里的方法,以get,find,select等开头的方法是…

Robust多模态模型的开发

本文所涉及所有资源均在 传知代码平台 可获取。 目录 Robust 多模态模型:寻找遗失的模态! 一、研究背景 二、模型结构和代码 三、数据集介绍 六、性能展示 六、实现过程 七、运行过程 Robust 多模态模型:寻找遗失的模态! 近年来&a…

threejs-基础材质设置

一、介绍 主要内容:基础材质(贴图、高光、透明、环境、光照、环境遮蔽贴图) 主要属性: side: three.DoubleSide, //设置双面 color: 0xffffff, //颜色 map: texture, //纹理 transparent: true, // 透明度 aoMap: aoTexture, //ao贴图 aoMapIntensity: 1…

Linux下载安装MySQL8.4

这里写目录标题 一、准备工作查看系统环境查看系统架构卸载已安装的版本 二、下载MySQL安装包官网地址 三、安装过程上传到服务器目录解压缩,设置目录及权限配置my.cnf文件初始化数据库配置MySQL开放端口 一、准备工作 查看系统环境 确认Linux系统的版本和架构&am…

Redis: 集群高可用之故障转移和集群迁移

故障转移 故障转移,包括自动故障转移和手动故障转移 1 )自动故障转移 Redis 集群,主节点挂了,从节点可以顶上来继续提供服务常用制造故障的两种方式 第一,对其中一个节点进行 SHUTDOWN 操作第二,kill 掉…

Java之方法

方法&#xff08;函数&#xff09; Java中的方法必须定义在类或接口中。 package day2;import java.util.Scanner;public class way {public static void main(String[] args) {int arr[] new int[5];Scanner sc new Scanner(System.in);for (int i 0; i < arr.length;…

五、创建型(建造者模式)

建造者模式 概念 建造者模式是一种创建型设计模式&#xff0c;通过使用多个简单的对象一步步构建一个复杂的对象。它将一个复杂对象的构建过程与其表示分离&#xff0c;从而使同样的构建过程可以创建不同的表示。 应用场景 复杂对象构建&#xff1a;当一个对象有多个属性&…

vue2项目的路由使用history模式,刷新会导致页面404的问题

在vue2项目中&#xff0c;如果我们使用的路由是history模式&#xff0c;刷新会导致页面404&#xff0c;解决方法很简单&#xff0c;在vue.config.js文件中的devServer下增加historyApiFallback: true; 代码如下: module.exports {devServer: {historyApiFallback: true,} }

【js逆向学习】极志愿 javascript+python+rpc

JSRPC使用方式 逆向目标逆向过程逆向分析1、什么是 websocket2、websocket的原理3、总体过程3.1 环境说明3.2 python服务端代码3.3 python客户端代码 4、Sekiro-RPC4.1 执行方式4.2 客户端环境4.3 参数说明4.4 SK API4.5 python代码调试4.6 代码注入流程 逆向总结 逆向目标 网…

AI资深导师指导-ChatGPT深度科研工作应用、论文撰写、数据分析及机器学习与AI绘图

2022年11月30日&#xff0c;可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出了聊天机器人ChatGPT3.5&#xff0c;将人工智能的发展推向了一个新的高度。2023年4月&#xff0c;更强版本的ChatGPT4.0上线&#xff0c;文本、语音、图像等多模态交互方式使其在…

太速科技-607-基于FMC的12收和12发的光纤子卡

基于FMC的12收和12发的光纤子卡 一、板卡概述 本卡是一个FPGA夹层卡&#xff08;FMC&#xff09;模块&#xff0c;可提供高达2个CXP模块接口&#xff0c;提供12路收&#xff0c;12路发的光纤通道。每个通道支持10Gbps,通过Aurora协议&#xff0c;可以组成X4&#xff0…