【数据挖掘】岭回归(Ridge Regression)和线性回归(Linear Regression)对比实验

这是一个非常实用的 岭回归(Ridge Regression)和线性回归(Linear Regression)对比实验,使用了 scikit-learn 中的 California Housing 数据集 来预测房价。


📦 第一步:导入必要的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as pltfrom sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_california_housing as fch

🔹 Ridge, Lasso, LinearRegression:三种回归模型
🔹 fetch_california_housing:加载加州房价数据集
🔹 train_test_split:划分训练集和测试集
🔹 matplotlib.pyplot:画图


🏠 第二步:加载数据并观察

house_value = fch()
X = pd.DataFrame(house_value.data)
y = house_value.target
X.columns = ["住户收入中位数", "房屋使用年代中位数", "平均房间数目", "平均卧室数目", "街区人口", "平均入住率", "街区垢纬度", "街区的经度"]Xtmp = X.copy()
Xtmp['价格'] = y
display(Xtmp)

✅ 将数据转换为 DataFrame 并设置列名,更方便分析。
display(Xtmp) 会在 Jupyter Notebook 中以表格形式展示数据。


✂️ 第三步:划分训练集和测试集

xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3, random_state=420)
for i in [xtrain, xtest]:i.index = range(i.shape[0])  # 重置索引,避免索引错乱

✅ 划分比例为 70% 训练 + 30% 测试
✅ 重置索引是个好习惯,有利于数据对齐


🧮 第四步:使用 Ridge 回归 进行建模和评估

reg = Ridge(alpha=5).fit(xtrain, ytrain)
r2_score = reg.score(xtest, ytest)
print("r2:%.8f" % r2_score)

🔹 这里用岭回归拟合训练集,使用 alpha=5 作为正则化系数。
🔹 reg.score() 返回的是 R²(决定系数),衡量模型拟合效果,越接近 1 越好。


🔁 第五步:不同 alpha 下 Ridge 与普通线性回归对比

from sklearn.model_selection import cross_val_score
alpha_range = np.arange(1, 1001, 100)
ridge, lr = [], []for alpha in alpha_range:reg = Ridge(alpha=alpha)linear = LinearRegression()# 用交叉验证评估两种模型的平均 R²regs = cross_val_score(reg, X, y, cv=5, scoring='r2').mean()linears = cross_val_score(linear, X, y, cv=5, scoring='r2').mean()ridge.append(regs)lr.append(linears)

🔍 cross_val_score:使用 5 折交叉验证,平均 R² 得分

  • ridge.append():记录不同 alpha 下岭回归得分

  • lr.append():记录普通线性回归得分(其实是一个水平线)


📈 第六步:可视化 Ridge 与 Linear 回归对比结果

plt.plot(alpha_range, ridge, c='red', label='Ridge')
plt.plot(alpha_range, lr, c='orange', label='LR')
plt.title('Mean')
plt.legend()
plt.ylabel('R2')
plt.show()

✅ 横轴是 alpha,纵轴是交叉验证 R²
✅ 岭回归的性能随着 alpha 变化,线性回归是常数线
✅ 可以直观对比正则化对模型的影响


📌 总结这个实验做了什么?

步骤作用
加载数据得到特征和标签
建立模型使用岭回归拟合预测房价
模型评估输出 R² 指数
交叉验证比较岭回归与线性回归的表现随 alpha 变化的趋势
可视化看不同 alpha 对 Ridge 的影响,并与线性回归对比

✅ 建议拓展方向

可以继续做这些改进:

  1. 加入标准化(StandardScaler):防止特征量纲影响回归权重;

  2. 尝试 Lasso 回归:看看稀疏化是否会带来更优的模型;

  3. 绘制训练误差与测试误差对比图:分析是否过拟合;

  4. 使用 GridSearchCV 自动调参:找到最优 alpha。


以下是一个完整的房价预测回归分析代码,包含:

  • 岭回归(Ridge)

  • Lasso 回归

  • 普通线性回归

  • 标准化处理(StandardScaler

  • 网格搜索调参(GridSearchCV

  • 模型评分比较

  • 可视化对比


✅ 完整代码如下:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.linear_model import Ridge, Lasso, LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score# 1. 加载数据
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target# 2. 数据划分
xtrain, xtest, ytrain, ytest = train_test_split(X, y, test_size=0.3, random_state=42)# 3. 特征标准化
scaler = StandardScaler()
xtrain_scaled = scaler.fit_transform(xtrain)
xtest_scaled = scaler.transform(xtest)# 4. 定义回归模型
models = {"LinearRegression": LinearRegression(),"Ridge": Ridge(),"Lasso": Lasso()
}# 5. 设置超参数搜索空间
param_grid = {"Ridge": {"alpha": np.logspace(-3, 3, 20)},"Lasso": {"alpha": np.logspace(-3, 3, 20)}
}# 6. 模型训练与调参
best_models = {}
for name, model in models.items():if name in param_grid:print(f"正在搜索最优参数:{name}")grid = GridSearchCV(model, param_grid[name], cv=5, scoring="r2")grid.fit(xtrain_scaled, ytrain)best_models[name] = grid.best_estimator_print(f"{name} 最佳 alpha: {grid.best_params_['alpha']:.4f}")else:model.fit(xtrain_scaled, ytrain)best_models[name] = model# 7. 模型评估
print("\n模型性能对比(R² 得分):")
for name, model in best_models.items():score = model.score(xtest_scaled, ytest)print(f"{name}: R² = {score:.4f}")# 8. 可视化对比
r2_scores = [model.score(xtest_scaled, ytest) for model in best_models.values()]
model_names = list(best_models.keys())plt.figure(figsize=(8, 5))
plt.bar(model_names, r2_scores, color=["orange", "red", "green"])
plt.ylabel("R²")
plt.title("不同回归模型性能对比")
for i, score in enumerate(r2_scores):plt.text(i, score + 0.01, f"{score:.4f}", ha='center')
plt.ylim(0, max(r2_scores) + 0.1)
plt.grid(True, linestyle='--', alpha=0.5)
plt.show()

📊 输出内容包括:

  • 每种模型的 R² 得分

  • Ridge 和 Lasso 的最佳 alpha(正则项系数)

  • 一张柱状图对比三种模型在测试集上的表现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/76141.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大疆无人机系列知识

目录 知识 开发者文档 (上云) 无人机的应用 知识 大疆行业无人机接入音视频平台协议详解_大疆无人机 视频流-CSDN博客 开发者文档 (上云) 上云API 无人机的应用 【大疆无人机地图测绘技术学习:高精度、高效率的…

CNN注意力机制的进化史:深度解析10种注意力模块如何重塑卷积神经网络

🌟 引言:注意力为何改变CNN的命运? 就像人类视觉会优先聚焦于重要信息,深度学习模型也需要"学会看重点"。从2018年SENet首提通道注意力,到2024年SSCA探索空间-通道协同效应,注意力机制正成为CNN…

Linux/树莓派网络配置、远程登录与图形界面访问实验

一.准备工作 1.修改网络适配器(选择本机网卡) 2.创建一个新的用户。 3.使用新用户登录,使用ip a指令查看IP(现代 Linux 发行版(如 Ubuntu、Debian、CentOS、Fedora 等))。 通过sudo arp-sca…

Python----TensorFlow(TensorFlow介绍,安装,主要模块,高级功能)

一、TensorFlow TensorFlow 是由谷歌大脑团队于 2015 年推出的开源机器学习框架。作为深度学习的第二代系统,TensorFlow 支持多种编程语言,包括 Python、C、Java 和 Go,广泛应用于 CNN、RNN 和 GAN 等深度学习算法。 TensorFlow 可以…

【动态规划】 深入动态规划 回文子串问题

文章目录 前言例题一、回文子串二、 最长回文子串三、回文串分割IV四、分割回文串II五、最长回文子序列六、让字符串成为回文串的最小插入次数 结语 前言 那么,什么是动态规划中的回文子串问题呢? 动态规划中的回文子串问题是一个经典的字符串处理问题。…

lodash库介绍(一个现代JavaScript实用工具库,提供模块化、性能优化和额外功能)JavaScript库(防抖、节流、函数柯里化)JS库

https://www.lodashjs.com/ 文章目录 Lodash库全解析简介核心优势一致性API模块化设计性能优化 常用功能分类数组操作对象操作函数增强 高级应用场景数据转换链函数组合 性能考量大数据集处理 最佳实践按需引入利用FP模块 结语 Lodash库全解析 简介 Lodash是一个现代JavaScri…

Spring MVC 国际化机制详解(MessageSource 接口体系)

Spring MVC 国际化机制详解(MessageSource 接口体系) 1. 核心接口与实现类详解 接口/类名描述功能特性适用场景MessageSource核心接口,定义消息解析能力支持参数化消息(如{0}占位符)所有国际化场景的基础接口Resource…

PyTorch张量范数计算终极指南:从基础到高阶实战

在深度学习领域,张量范数计算是模型正则化、梯度裁剪、特征归一化的核心技术。本文将以20代码实例,深度剖析torch.norm的9大核心用法,并揭示其在Transformer模型中的关键应用场景。 🚀 快速入门(5分钟掌握核心操作&…

荣耀90 GT信息

外观设计 屏幕:采用 6.7 英寸 AMOLED 荣耀绿洲护眼屏,超窄边框设计,其上边框 1.6mm,左右黑边 1.25mm,屏占较高,带来更广阔的视觉体验。屏幕还支持 120Hz 自由刷新率,可根据使用场景自动切换刷新…

【Java中级】11章、枚举 - java引用数据类型,枚举介绍、快速入门,了解枚举类的基本使用方式【1】

文章内容: 自定义实现枚举enum关键字实现枚举 ❤️内容涉及枚举的定义,快速入门,注意事项和小题巩固知识点 🌈 跟着B站一位老师学习的内部类内容,现写这篇文章为学习内部类的小伙伴提供思路支持,希望可以一…

局域网访问 Redis 方法

局域网访问 Redis 方法 默认情况下,Redis 只允许本机 (127.0.0.1) 访问。如果你想让局域网中的其他设备访问 Redis,需要 修改 Redis 配置,并确保 防火墙放行端口。 方法 1:修改 Redis 配置 1. 修改 redis.conf(或 me…

如何应对客户频繁变更需求

如何应对客户频繁变更需求?要点包括: 快速响应、深入沟通、灵活规划、过程记录、风险管控。这些策略既能降低项目失控风险,也能帮助团队在变动环境中保持高效率。其中深入沟通尤为关键,它不仅能够让团队第一时间了解客户意图&…

Set 集合

默认情况下, Scala 使用的是不可变集合, 如果你想使用可变集合, 需要引用 scala.collection.mutable.Set Set 默认是不可变集合,数据无序 数据不可重复 遍历集合 创建可变集合 mutable.Set 打印集合 集合添加元素 向集合中…

最新 OpenHarmony 系统一二级目录整理

我们在学习 OpenHarmony 的时候,如果对系统的目录结构了解,那么无疑会提升自己对 OpenHarmony 更深层次的认识。 于是就有了今天的整理。 首先在此之前,我们要获取源码 获取源码的方式 OpenHarmony 主干代码获取 方式一(推荐&am…

STL常用容器整理

STL常用容器操作整理 STL常用容器操作整理(string/vector/set/map)一、string(字符串)构造函数元素访问修改操作容量操作子串与查找 二、vector(动态数组)构造函数元素访问修改操作容量操作 三、set&#x…

Unity 实现伤害跳字

核心组件: Dotween TextMeshPro 过程轨迹如下图: 代码如下: using System.Collections; using System.Collections.Generic; using DG.Tweening; using TMPro; using UnityEngine; using UnityEngine.Pool;public class …

Ubuntu 22.04 AI大模型环境配置及常用工具安装

一、基础环境准备 1.1 系统准备 建议使用 Ubuntu22.04 以下配置皆以 Ubuntu22.04 系统版本为例 1.2 安装git apt-get update && apt-get install git -y1.3 安装 Python 3.9 【建议安装 3.10】(安装miniconda或者conda来管理虚拟环境) wget …

STM32单片机入门学习——第27节: [9-3] USART串口发送串口发送+接收

写这个文章是用来学习的,记录一下我的学习过程。希望我能一直坚持下去,我只是一个小白,只是想好好学习,我知道这会很难,但我还是想去做! 本文写于:2025.04.08 STM32开发板学习——第27节: [9-3] USART串口发送&串口发送接收 前言开发板说…

前端实现docx格式word文件预览,可以兼容原生、vue2、以及uni-app 项目,详细步骤。

上一篇记录了PDF文件预览功能。这一篇记录下docx文件预览。 核心文件 doc.html <script src"./build/polyfill.min.js"></script> <script src"./build/jszip.min.js"></script> <script src"./build/docx-preview.js&…

Java中的ArrayList方法

1. 创建 ArrayList 实例 你可以通过多种方式创建 ArrayList 实例&#xff1a; <JAVA> ArrayList<String> list new ArrayList<>(); // 创建一个空的 ArrayList ArrayList<String> list new ArrayList<>(10); // 创建容量为 10 的 ArrayList …