【机器学习】机器学习的基本分类-监督学习-Lasso 回归(Least Absolute Shrinkage and Selection Operator)

Lasso 回归是一种线性回归方法,通过引入 L_1​ 正则化(绝对值惩罚项)约束回归系数,既能解决多重共线性问题,又具有特征选择能力。


1. Lasso 回归的目标函数

Lasso 的目标是最小化以下损失函数:

\text{Lasso Loss} = \sum_{i=1}^n (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^p |\beta_j|

其中:

  • \sum_{i=1}^n (y_i - \hat{y}_i)^2 是残差平方和。
  • \sum_{j=1}^p |\beta_j|L_1 正则化项。
  • λ > 0 是正则化强度的超参数,控制对回归系数的惩罚程度。

2. Lasso 的特点

  1. 特征选择

    • L_1​ 正则化能够将一些不重要的特征系数缩为 0,从而实现特征选择。
    • 这是 Lasso 和岭回归的最大区别,岭回归仅会缩小系数,但不会完全归零。
  2. 对多重共线性的处理

    • 当特征之间存在较强相关性时,Lasso 更倾向于保留一个特征,压缩其他特征的系数为 0,从而简化模型。

3. 数学解读

目标函数

Lasso 的优化目标:

\min_\beta \left\{ \| y - X\beta \|_2^2 + \lambda \| \beta \|_1 \right\}

  • \| y - X\beta \|_2^2​:拟合误差(最小化残差平方和)。
  • \| \beta \|_1 = \sum_{j=1}^p |\beta_j|:正则化项,控制模型复杂度。
几何解释
  • L_1 正则化将优化问题的约束区域限制在菱形L_1-范数球)内。
  • 菱形的顶点位于坐标轴上,因此 Lasso 具有将某些系数缩为 0 的特性。

4. 优缺点

优点
  1. 特征选择能力:可以将不重要的特征系数缩为 0,直接实现特征筛选。
  2. 降低模型复杂度:减少模型的变量数量,从而提高模型的可解释性。
  3. 解决多重共线性问题:对共线特征进行选择性保留,避免过拟合。
缺点
  1. 可能偏差较大:Lasso 会对所有系数施加惩罚,可能导致模型在某些情况下表现不佳。
  2. 不适合高维数据:当样本数小于特征数时,Lasso 的选择结果可能不稳定。
  3. 对正则化参数敏感:λ 的选择对模型性能影响较大。

5. Lasso 回归的实现

以下是 Python 中使用 scikit-learn 的实现示例:

from sklearn.linear_model import Lasso
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
from sklearn.metrics import mean_squared_error# 生成数据
X, y = make_regression(n_samples=100, n_features=10, noise=10, random_state=42)# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建 Lasso 模型
lasso = Lasso(alpha=0.1)  # alpha 即 λ
lasso.fit(X_train, y_train)# 预测
y_pred = lasso.predict(X_test)# 评价
print("MSE:", mean_squared_error(y_test, y_pred))
print("回归系数:", lasso.coef_)

输出结果

MSE: 104.93221988874537
回归系数: [18.96025415 54.8553183   3.43132401 63.6082866  92.65442432 69.4820952984.42789762  8.49332936  2.90087787 71.0628166 ]

6. 正则化参数 λ 的调优

Lasso 中的超参数 λ(在 scikit-learn 中是 alpha)需要通过交叉验证选择。可以使用 LassoCV 进行自动调优:

from sklearn.model_selection import train_test_split
from sklearn.datasets import make_regression
from sklearn.linear_model import LassoCV# 生成数据
X, y = make_regression(n_samples=100, n_features=10, noise=10, random_state=42)# 数据集划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 自动选择最佳 λ
lasso_cv = LassoCV(alphas=[0.1, 1.0, 10.0], cv=5)  # 5 折交叉验证
lasso_cv.fit(X_train, y_train)# 最佳正则化参数
print("最佳 λ:", lasso_cv.alpha_)# 使用最佳参数的回归系数
print("回归系数:", lasso_cv.coef_)

输出结果

最佳 λ: 0.1
回归系数: [18.96025415 54.8553183   3.43132401 63.6082866  92.65442432 69.4820952984.42789762  8.49332936  2.90087787 71.0628166 ]

7. Lasso 与岭回归的比较

方法正则化类型特点应用场景
岭回归L_2​ 范数收缩系数,解决多重共线性问题特征数量较多,但不需要特征选择时使用
Lasso 回归L_1 范数稀疏化系数,具有特征选择能力需要减少特征数量或增强模型解释性时
ElasticNetL_1 + L_2​ 范数综合岭回归和 Lasso 的优点高维数据特征筛选且有多重共线性时

8. 应用场景

  1. 基因数据分析:处理高维稀疏数据,选择关键基因。
  2. 金融数据建模:选择重要指标,如宏观经济特征对市场走势的影响。
  3. 图像处理:降维和稀疏特征提取。

 Lasso 回归是一种强大且解释性好的线性模型,通过 L_1 正则化实现特征选择和降维,适合高维但稀疏的数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/63547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CH592用PB10做GPIO输入中断问题记录

PB10和PB22正常用作烧录,但是可以正常做GPIO口使用的,同时支持输入中断。因实际layout问题最终使用PB10做GPIO输入中断功能。 主要功能:PB10检测充电芯片状态,并根据充电芯片状态切换芯片自身的工作模式,进行不同的任务…

20.LMAX-DDD的极致性能架构

学习视频来源:DDD独家秘籍视频合集 https://space.bilibili.com/24690212/channel/collectiondetail?sid1940048&ctype0 文章目录 历史起源架构目标架构要素 时序对比传统时序事件溯源时序LMAX时序 单线程非阻塞异步IO(reactor)多线程单…

图海寻径——图相关算法的奇幻探索之旅

一、图的表示 1. 邻接矩阵 (Adjacency Matrix) #include <iostream> #include <vector> #include <queue> #include <limits>using namespace std;class GraphMatrix { private:int numVertices;vector<vector<int>> adjMatrix;const st…

Docker单机网络:解锁本地开发环境的无限潜能

作者简介&#xff1a;我是团团儿&#xff0c;是一名专注于云计算领域的专业创作者&#xff0c;感谢大家的关注 座右铭&#xff1a; 云端筑梦&#xff0c;数据为翼&#xff0c;探索无限可能&#xff0c;引领云计算新纪元 个人主页&#xff1a;团儿.-CSDN博客 目录 前言&#…

【前端】深入解析 JavaScript 中的 instanceof 运算符与 number 数据类型 和 Number 对象 区别辨析

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: 前端 文章目录 &#x1f4af;前言&#x1f4af;理论基础&#xff1a;instanceof 运算符的设计初衷与核心功能基础定义与应用示例解析代码分解 &#x1f4af;typeof 与 instanceof&#xff1a;两种类型检测方法的语义与…

UI自动化测试框架:PO模式+数据驱动

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 1. PO 设计模式简介 什么是 PO 模式&#xff1f; PO&#xff08;PageObject&#xff09;设计模式将某个页面的所有元素对象定位和对元素对象的操作封装成一个 Pa…

在ensp中ACL路由控制实验

一、实验目的 掌握ACL路由控制管理 二、实验要求 要求&#xff1a; 配置路由策略&#xff0c;左右两边不公开区域对方不可达&#xff0c;其他区域可以互相ping通 设备&#xff1a; 1、三台路由器 2、四台交换机 3、四台电脑 4、四台服务器 使用ensp搭建实验环境,如图所…

AlohaKit:一组.NET MAUI绘制的开源控件

前言 今天大姚给大家分享一组.NET MAUI绘制的开源、免费&#xff08;MIT License&#xff09;UI控件库&#xff1a;AlohaKit。 MAUI介绍 .NET MAUI是一个开源、免费&#xff08;MIT License&#xff09;的跨平台框架&#xff08;支持Android、iOS、macOS 和 Windows多平台运…

SpringBoot【一】零基础入门 springboot 及 idea 搭建

一、前言 springboot是什么&#xff1f; Spring Boot是由Pivotal团队提供的全新框架&#xff0c;其设计目的是用来简化新Spring应用的初始搭建以及开发过程。 该框架使用了特定的方式来进行配置&#xff0c;从而使开发人员不再需要定义样板化的配置。用我的话来理解&#xff0…

Grule前端表单post后端执行grule引擎规则

Grule前端表单post后端执行grule引擎规则 编写前端表单和后端接口 编写test.go执行grule引擎规则 示例都是 go test 执行的测试代码&#xff0c;所以将里面的测试代码去除 由于之前 NumberExponentExample_test.go 已经验证可运行, 所以将 err 的异常处理去除 package mai…

文献补充材料怎么查找下载

最近很多同学求助问补充文献怎么查找下载&#xff0c;补充文献一般会在文献的详情页&#xff0c;参考文献的上面。需要注意以下这些词汇&#xff1a;Supplementary data、Supplementary material、Appendix、Supplementary Information、Appendix A. Supplementary data、suppl…

上传ssh公钥到目标服务器

创建密钥 ssh-keygen -t rsa -b 4096 -C "xxxx.xx"上传 sudo ssh-copy-id -i /Users/xx/.ssh/id_rsa.pub root127.0.0.1

工作bug,keil5编译器,理解int 类型函数返回值问题,详解!!!

编写不易&#xff0c;禁止搬运&#xff0c;仅供学习&#xff0c;感谢理解 问题现象 下面是一个在keil5里面写的一个&#xff0c;int类型的返回值函数&#xff0c;这个函数里面&#xff0c;只有if else if else这三个判断条件语句&#xff0c;正常来说任何情况下&#xff0c;…

PHP语法学习(第七天)-循环语句,魔术常量

老套路了&#xff0c;朋友们&#xff0c;先回忆昨天讲的内容PHP语法学习(第六天)主要讲了PHP中的if…else语句、关联数组以及数组排序。 想要学习更多PHP语法相关内容点击“PHP专栏&#xff01;” 下列代码都是在PHP在线测试运行环境中得到的&#xff01;&#xff01; 还记得电…

ue5 motion matching

ue5.5 gameanimationsample 先看动画蓝图 核心两个node 第一个是根据数据选择当前的pose 第二个是缓存一段历史记录&#xff0c;为第一个node选择的时候提供数据。 在animinstance的update方法中 每帧都更新这个函数&#xff0c;每帧更新trajectory的数据 看看第一个node的…

【推导过程】常用共轭先验分布

文章目录 相关教程相关文献常用共轭先验分布预备知识贝叶斯统计后验分布的计算 正态均值(方差已知)的共轭先验分布是正态分布二项分布中的成功概率 θ 的共轭先验分布是贝塔分布正态均值(方差已知)的共轭先验分布是倒伽玛分布 作者&#xff1a;小猪快跑 基础数学&计算数学&…

消息队列(MQ):系统解耦与异步通信的利器

在现代分布式系统架构中&#xff0c;消息队列&#xff08;Message Queue&#xff0c;简称 MQ&#xff09;扮演着极为重要的角色。它作为一种中间件&#xff0c;能够有效地解决系统之间的耦合性问题&#xff0c;并实现高效的异步通信&#xff0c;极大地提升了系统的整体性能、可…

YOLO系列发展历程:从YOLOv1到YOLO11,目标检测技术的革新与突破

文章目录 前言一、YOLOv1&#xff1a;单阶段目标检测的开端二、YOLOv2&#xff1a;更精准的实时检测三、YOLOv3&#xff1a;阶梯特征融合四、YOLOv4&#xff1a;性能和速度的新平衡五、YOLOv5&#xff1a;易用性和扩展性的加强六、YOLOv6&#xff1a;工业部署的利器七、YOLOv7&…

ConcurrentLinkedQueue<>实现生产者-消费者问题理解和简易demo

1.ConcurrentLinkedQueue<> ConcurrentLinkedQueue 是 Java 中的一个线程安全的无界队列实现。它基于无锁&#xff08;lock-free&#xff09;的算法&#xff0c;采用了一个高效的、非阻塞的、可伸缩并发控制机制。这使得在高并发场景下能够实现较高的吞吐量。 无界性质…

【单元测试】单元测试介绍

1 单元测试基础 1.单元测试&#xff1a;单元测试又称模块测试&#xff0c;属于白盒测试&#xff0c;是最小单位的测试。模块分为程序模块和功能模块。功能模块指实现了一个完整功能的模块&#xff08;单元&#xff09;&#xff0c;一个完整的程序单元具备输入、加工和输出三个…