AI算法18-最小角回归算法Least Angle Regression | LARS

​​​

最小角回归算法简介

最小角回归(Least Angle Regression, LAR)是一种用于回归分析的统计方法,它在某些方面类似于最小二乘回归,但提供了一些额外的优点。最小角回归由Bradley Efron等人提出,主要用于处理具有高度相关性的特征集。

最小角回归算法的核心思想是逐步添加特征到模型中,每次添加与当前残差相关性最大的特征。这个过程通过最小化角(即特征与残差之间的夹角)来实现,从而确保模型的稀疏性。这使得LAR算法在处理具有多重共线性的数据集时特别有用。

我们直接看最基本的LAR算法,假设有N个样本,自变量是p维的:

  1. 先对X(N\times p)做标准化处理,使得每个predictor(X的每列)满足x_{\cdot j}' 1_N=0\Vert x_{\cdot j}\Vert=1。我们先假设回归模型中只有截距项,则\beta_0=\dfrac{1}{N} y' 1_N,记残差r=y-1_N \beta_0,而其他的系数\beta_1=\cdots=\beta_p=0
  2. 找出与r相关性最大的x_{\cdot j},加入active set;
  3. \beta_j从0逐步向LS系数x_{\cdot j}'r变动,直到有另一个x_{\cdot k},它与r的相关系数绝对值,和x_{\cdot j}r的相关系数绝对值一样大;
  4. \beta_j\beta_k同时向二者的联合LS系数变动,直到再出现下一个x_{\cdot l},它与r的相关系数满足上一步的条件;
  5. 重复上述过程,\min(N-1,p)步后,就得到完整的LS解。

最小角回归算法主要解决的问题

  1. 多重共线性:数据集中的特征之间存在高度相关性,这可能导致最小二乘回归模型的参数估计不稳定。
  2. 特征选择:在特征数量多于样本数量的情况下,需要选择对模型预测最有帮助的特征子集。
  3. 稀疏模型:需要一个具有较少非零系数的模型,以便于解释和减少模型复杂度。
  4. 稳健性:在数据中存在噪声或异常值时,需要一个对这些情况不敏感的模型。
  5. 预测准确性:在保持模型简洁的同时,追求较高的预测准确性。
  6. 线性回归问题:LAR可以应用于标准的线性回归问题,即预测一个连续的响应变量。
  7. 逻辑回归问题:通过适当的修改,LAR也可以应用于分类问题,如逻辑回归。
  8. 多元回归问题:LAR可以处理多个响应变量的回归问题,即多元线性回归。
  9. 正则化问题:LAR提供了一种正则化方法,可以控制模型的复杂度,防止过拟合。
  10. 交叉验证问题:在模型选择过程中,LAR可以用于交叉验证,以选择最佳的模型复杂度。
  11. 模型解释性:由于LAR倾向于产生稀疏模型,因此它可以提高模型的可解释性。
  12. 大规模数据集:LAR算法适用于大规模数据集,尤其是当数据集中的特征数量非常多时。

最小角回归算法基本思想和理论基础

最小角回归算法基本思想

  1. 稀疏模型:LAR的目标是构建一个稀疏的回归模型,即模型中只有少数几个特征具有非零系数,这有助于提高模型的可解释性和降低过拟合的风险。
  2. 逐步添加特征:LAR通过逐步添加特征到模型中来构建。在每一步中,算法选择当前与残差相关性最大的特征加入模型,这个过程是迭代的。
  3. 最小化角:LAR的核心思想是最小化特征向量与残差向量之间的夹角。这个夹角的大小代表了特征对当前残差解释能力的大小。选择夹角最小的特征意味着选择了最能解释当前残差的特征。
  4. 正则化:LAR通过正则化项控制模型的复杂度,类似于LASSO算法,但LAR的正则化是通过最小化角来实现的,而不是直接对系数的大小进行惩罚。
  5. 数据驱动:LAR算法是数据驱动的,它根据数据本身的特性来选择特征,而不是依赖于预先设定的模型假设。
  6. 稳健性:由于LAR算法在每一步都考虑了特征与残差的相关性,它对数据中的噪声和异常值具有一定的稳健性。
  7. 快速计算:LAR算法利用了数据的稀疏性质和快速的更新规则,使得算法在计算上相对高效。
  8. 灵活性:LAR算法可以应用于不同类型的回归问题,包括线性回归、逻辑回归等,并且可以处理大规模数据集。
  9. 交叉验证:LAR算法可以结合交叉验证等方法来选择最佳的正则化参数,实现模型的自动选择。
  10. 模型解释性:由于LAR倾向于产生稀疏模型,它提高了模型的可解释性,使得模型更容易被理解和应用。

最小角回归算法理论基础

  1. 线性回归问题:LAR算法是针对线性回归问题设计的,它通过逐步添加特征的方式进行特征选择和回归系数的计算 。
  2. 特征向量分解:LAR算法的核心在于将回归目标向量分解为若干组特征向量的线性组合,关键在于选择正确的特征向量分解顺序和分解系数 。
  3. 前向选择算法:LAR算法与前向选择算法(Forward Selection)有关,前向选择算法是一种贪婪算法,通过选择与目标向量相关度最高的特征向量进行分解 。
  4. 前向梯度算法:LAR算法也与前向梯度算法(Forward Stagewise)有关,该算法通过小步试错的方式进行特征向量的选择和分解 。
  5. 最小化角:LAR算法通过最小化特征向量与残差向量之间的夹角来进行特征选择,这种方法结合了前向选择算法的快速性和前向梯度算法的准确性 。
  6. 正则化方法:LAR算法是一种正则化方法,它可以求解Lasso回归问题,并且可以得到Lasso解的路径 。
  7. 算法性质:LAR算法保持最小角的性质,即在分解过程中,每个predictor与残差向量的相关系数会同比例地减少 。
  8. 模型的求解:LAR算法通过逐步更新残差向量和逐步调整回归系数,直到满足终止条件,如残差向量足够小或所有变量都已使用完毕 。
  9. 稳定性和灵活性:LAR算法具有很好的稳定性和灵活性,适用于特征维度远高于样本数的情况,并且可以容易地修改以适应其他估算器,如LASSO 。
  10. 算法效率:LAR算法在计算上非常有效,特别是当特征维度远大于样本数量时,它的计算速度几乎和前向选择算法一样快

最小角回归算法步骤

1.初始化:

将所有特征的系数初始化为零。

计算初始残差向量,即响应向量与所有特征系数为零时的残差。

2.标准化特征:

为了确保算法不受特征尺度的影响,对所有特征向量进行标准化处理。

3.构建活动集:

初始化一个活动集(active set),包含与当前残差向量相关性最大的特征。

4.计算相关性:

对于每个特征,计算它与当前残差向量的相关系数。

5.选择特征:

选择与当前残差向量相关性最大的特征,将其添加到活动集中。

6.更新系数:

对活动集中的每个特征,逐步更新其系数,直到另一个特征的相关性与当前特征相同。

7.调整系数:

当两个或多个特征与残差向量的相关性相等时,同时更新这些特征的系数,直到它们的相关性不再相等。

8.更新残差:

使用当前的系数和特征向量来更新残差向量。

9.检查终止条件:

如果残差向量的范数低于某个阈值,或者已经没有更多的特征可以添加到模型中,则算法终止。

10.重复迭代:

重复步骤4到9,直到满足终止条件。

11.输出结果:

最终,算法输出模型的系数向量,这些系数代表了特征对响应变量的影响。

最小角回归算法推导

保持最小角

我们先来看LS估计量的一个性质:若每个predictor与y的相关系的数绝对值相等,从此时开始,将所有系数的估计值同步地从0移向LS估计量,在这个过程中,每个predictor与残差向量的相关系数会同比例地减少。

假设我们标准化了每个predictor和y,使他们均值为0,标准差为1。在这里的设定中,对于任意j=1,\ldots,p,都有\left|x_{\cdot j}'y\right|/N=\lambda,其中\lambda为常数。LS估计量\hat\beta=(X'X)^{-1}X'y,当我们将系数从0向\hat\beta移动了\alpha(\alpha\in[0,1])比例时,记拟合值为u(\alpha)=\alpha X\hat\beta

另外,记\ell_p^{(j)}为只有第j个元素为1、其他元素均为0的p维向量,则x_{\cdot j}=X\ell_p^{(j)},再记,记投影矩阵P=X(X'X)^{-1}X'

这里的问题是,在\alpha变大过程中,每一个x_{\cdot j}与新的残差的相关系数,是否始终保持相等?且是否会减小?

由于\left| x_{\cdot j}' [y-u(\alpha)]\right|=\left|x_{\cdot j}'y - \ell_p^{(j)\prime} X' u(\alpha)\right|=(1-\alpha)N\lambda,即内积与j无关。再由\text{RSS}=(y-Py)'(y-Py)=N-y'Py可知y'Py=N-\text{RSS}

相关系数的绝对值

因此,任意predictor与当前残差的相关系数绝对值,会随着\alpha的增加,同比例地减小,并且\lambda(0)=\lambda,\lambda(1)=0

现在,我们再回顾一下LAR的过程。在第k步开始时,将所有active set中的predictor的集合记为\mathcal{A}_k,此时在上一步估计完成的系数为\hat\beta_{\mathcal{A}_k},它是维且每个维度都非零的向量,记此时残差为r_k=y-X_{\mathcal{A}_k}\hat\beta_{\mathcal{A}_k},用r_kX_{\mathcal{A}_k}做回归后系数为\delta_k=(X_{\mathcal{A}_k}'X_{\mathcal{A}_k})^{-1}X_{\mathcal{A}_k}' r_k,拟合值u_k=X_{\mathcal{A}_k}\delta_k。另外,我们知道X_{\mathcal{A}_k}'u_k=X_{\mathcal{A}_k}'r_k,而一个predictor加入\mathcal{A}_k的条件就是它与当前r_k的相关系数的绝对值等于\mathcal{A}_k中的predictor与当前r_k的相关系数的绝对值,所以X_{\mathcal{A}_k}' r_k向量的每个维度的绝对值都相等,也即X_{\mathcal{A}_k}' u_k′的每个维度的绝对值都相等,u_k就是与各个\mathcal{A}_k中的predictor的角度都相等的向量,且与它们的角度是最小的,而u_k也是下一步系数要更新的方向,这也是“最小角回归”名称的由来。

参数更新

那么,在这个过程中,是否需要每次都逐步小幅增加\alpha,再检查有没有其他predictor与残差的相关系数绝对值?有没有快速的计算的方法?答案是有的。

在第k步的开始,\mathcal{A}_k中有k-1个元素,我们记\hat c=X'r_k,其中r_k=y-\hat y_{\mathcal{A}_k},并记\hat C=\max_j \{\left|\hat c_j\right|\},此时的active set其实就是\mathcal{A}_k=\{j:\left|\hat c_j\right|=\hat C\}。在这里,我们将X_{\mathcal{A}_k}做个修改,记s_j=\text{sign}(\hat c_j),再令X_{\mathcal{A}_k}=[\cdots s_jx_{\cdot j}\cdots]_{j\in\mathcal{A}_k}

此时更新方向为X_{\mathcal{A}_k}' u_k=1_{k-1}\hat C,并取a\equiv X' u_k。更新的规则为\hat y_{\mathcal{A}_k}(\alpha)= \hat y_{\mathcal{A}_k}+\alpha u_k。因此,任一predictor,与当前残差的内积就为c_j(\alpha)=\hat c_j-\alpha a_j,而对于j\in \mathcal{A}_k,有\left| c_j(\alpha)\right|=\hat C-\alpha \hat C

对于j\in \mathcal{A}_k^c,如果要使与当前残差的相关系数绝对值,与在\mathcal{A}_k中的predictor与当前残差的相关系数绝对值相等,也即它们的内积的绝对值相等,必须要满足|\hat c_j-\alpha a_j|=(1-\hat\alpha_j)\hat C。问题转化为了求解使它们相等的\hat\alpha_j,并对于所有的j\in \mathcal{A}_k^c,最小\hat\alpha_j的即为最后的更新步长。

由于|\hat c_j|<\hat C,因此只需考虑\hat c_ja_j的大小关系即可。最后解为

注意到

因此,当\hat c_j> a_j时,除非a_j< -\hat C\dfrac{\hat C+\hat c_j}{\hat C+a_j}< 0,否则必有\dfrac{\hat C-\hat c_j}{\hat C-a_j} < \dfrac{\hat C+\hat c_j}{\hat C+a_j}。反之,当\hat c_j\leq a_j时,除非a_j> \hat C\dfrac{\hat C-\hat c_j}{\hat C-a_j}< 0,否则必有\dfrac{\hat C-\hat c_j}{\hat C-a_j} \geq \dfrac{\hat C+\hat c_j}{\hat C+a_j}。综上所述,上面的解可以写为

其中\{\}^+表示只对其中正的元素有效,而丢弃负的元素。

最小角回归算法代码实现

import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Lars
import matplotlib.pyplot as plt# 示例数据生成
np.random.seed(0)
X = 2.5 - 1.5 * np.random.randn(100, 1)
y = 1 + 2 * X + 0.5 * np.random.randn(100, 1)# 添加截距项
X = np.hstack([np.ones((100, 1)), X])# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 创建LARS模型实例
lars = Lars()# 拟合模型
lars.fit(X_scaled, y)# 打印系数
print("Coefficients:", lars.coef_)# 绘制系数路径
plt.plot(lars.coef_, drawstyle="steps")
plt.xlabel("Variables")
plt.ylabel("Coefficient Value")
plt.title("Coefficient Path of LARS")
plt.show()

最小角回归算法具有以下优缺点

优点:

  1. 高维数据处理:LAR算法特别适合于特征维度 n 远高于样本数 m 的情况,能够有效处理高维数据 。
  2. 计算效率:算法的最坏计算复杂度与最小二乘法类似,但计算速度几乎与前向选择算法一样快 。
  3. 系数路径:LAR算法可以产生分段线性结果的完整路径,这在模型的交叉验证中非常有用 。
  4. 稳定性:如果两个变量对响应有几乎相等的联系,则LAR算法会给予它们相似的系数增长率,这与我们的直觉判断一致,且更加稳定 。
  5. 灵活性:LAR算法容易修改并为其他估算器生成解,例如可以用于求解Lasso回归问题 。

缺点:

  1. 对噪声敏感:由于LAR算法的迭代方向是根据目标残差而定,因此该算法对样本的噪声非常敏感 。
  2. 实现复杂性:尽管算法本身在理论上具有吸引力,但在实际实现时可能较为复杂,特别是对于非专家用户 。

最小角回归算法的应用场景

  1. 高维数据回归问题:LAR算法特别适用于处理特征数量多于样本数量的高维数据集,能够有效地进行变量选择和回归分析 。
  2. 生物信息学:在生物信息学领域,LAR可以用于处理基因表达数据,识别重要的生物标记 。
  3. 金融分析:LAR在量化分析和风险预测中应用,帮助分析金融数据和预测市场趋势 。
  4. 信号处理:在信号处理领域,LAR可以用于信号恢复和噪声减少,提高信号的质量 。
  5. 大规模数据分析:对于特征众多的数据集,LAR进行有效的变量选择和数据压缩,简化模型并提高解释能力 。
  6. 特征选择:LAR算法提供了一种高效的特征选择方式,尤其在变量个数远大于样本数的情况下,能够快速识别出重要的特征 。
  7. 稳健性分析:LAR算法在变量选择上表现出较高的稳定性,对于高度相关的变量,提供了更加稳健的解决方案 。
  8. 教育和研究:在教育和研究领域,LAR算法被用于教学和研究项目,帮助学生和研究人员理解高维数据的回归分析方法 。

模型优化:通过使用网格搜索(GridSearchCV)和交叉验证的方法来精细调整LAR模型的参数,期望获得最佳的模型性能 。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/47070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】安装PHP扩展-redis

说明 本文档是在centos7.6的环境下&#xff0c;安装PHP7.4之后&#xff0c;安装对应的PHP扩展包redis。 一、下载redis扩展 pecl官方地址:PECL :: The PHP Extension Community Library 下载的版本是&#xff1a;redis-5.3.7.tgz 二、安装redis扩展 1.上传 redis 压缩包到…

基于STM32设计的物联网智能鱼缸(微信小程序)(187)

基于STM32设计的物联网智能鱼缸(微信小程序)(187) 文章目录 一、前言1.1 项目介绍【1】项目功能介绍【2】设计需求总结【3】项目硬件模块组成1.2 设计思路【1】整体设计思路【2】ESP8266工作模式配置1.3 项目开发背景【1】选题的意义【2】可行性分析【3】参考文献1.4 开发工具的…

Amazon Bedrock 常用场景及 Python 实现

Amazon Bedrock 是 AWS 提供的一项全托管服务,它为开发者提供了一系列高性能的基础模型(Foundation Models,FMs)。通过单一 API,开发者可以访问来自 AI21 Labs、Anthropic、Cohere、Meta、Stability AI 和 Amazon 等领先 AI 公司的模型。本文将介绍 Amazon Bedrock 的几个…

深入异步JavaScript:掌握Promises与async/await

引言 异步编程允许JavaScript代码在等待某些耗时操作&#xff08;如网络请求、文件读写等&#xff09;完成时&#xff0c;继续执行其他任务&#xff0c;而不是阻塞整个程序的运行。这种编程模式极大地提高了应用的响应速度和效率。 JavaScript中的异步编程基础 同步与异步代…

【嵌入式DIY实例-ESP8266篇】-LCD ST7789显示DS1307 RTC时间数据

LCD ST7789显示DS1307 RTC时间数据 文章目录 LCD ST7789显示DS1307 RTC时间数据1、硬件准备与接线2、代码实现本文将介绍如何使用 ESP8266 NodeMCU 板和 DS1307 RTC 集成电路构建简单的实时时钟和日历 (RTCC),其中时间和日期打印在 ST7789 TFT 显示模块上。 ST7789 TFT 模块包…

MySQL面试题-重难点

mysql中有哪些锁&#xff1f;举出所有例子&#xff0c;各个锁的作用是什么&#xff1f;区别是什么&#xff1f; 共享锁&#xff1a;也叫读锁&#xff0c;简称S锁&#xff0c;在事务要读取一条记录时&#xff0c;先获取该记录的S锁&#xff0c;别的事务也可以继续获取该记录的S…

[Linux CMD] 文件编辑 nano (待更新)

【Linux】&#xff1a;文本编辑与输出命令 轻松上手nano、echo和cat_linux终端内容输出文本-CSDN博客

【海外云手机】静态住宅IP集成解决方案

航海大背景下&#xff0c;企业和个人用户对于网络隐私、稳定性以及跨国业务的需求日益增加。静态住宅IP与海外云手机的结合&#xff0c;提供了一种创新的集成解决方案&#xff0c;能够有效应对这些需求。 本篇文章分为三个部分&#xff1b;静态住宅优势、云手机优势、集成解决…

OpenCV一个简单的摄像头调用与关闭

在使用OpenCV&#xff08;Open Source Computer Vision Library&#xff09;进行摄像头调用与关闭时&#xff0c;通常使用cv2.VideoCapture()函数来调用摄像头&#xff0c;并通过适当的方式关闭它。 调用摄像头 首先&#xff0c;需要导入OpenCV库&#xff08;通常简写为cv2&a…

gemini-pro-vision 看图说话

一、安装 pip install -U langchain-google-vertexai 二、设置访问权限 申请服务账号json格式key 三、完整代码 import gradio as gr import json import base64 from pathlib import Path import os import time import requests from fastapi import FastAPI, UploadFile,…

android的跨进程通讯方式

android的跨进程通讯方式 在Android中&#xff0c;跨进程通信&#xff08;IPC&#xff09;可以通过多种方式实现&#xff0c;以下是几种常见的方法&#xff1a; 使用Intent&#xff1a;通过Intent传递数据&#xff0c;启动另一个应用的Activity或Service。 使用AIDL&#…

无缝集成的艺术:在Conda中启用pip与Conda的互操作性

无缝集成的艺术&#xff1a;在Conda中启用pip与Conda的互操作性 引言 Conda是一个强大的包管理器和环境管理器&#xff0c;广泛用于Python和其他科学计算语言。它不仅能够管理包的依赖关系&#xff0c;还能创建和维护独立的开发环境。然而&#xff0c;在某些情况下&#xff0…

K8S私有云裸金属服务器负载均衡器OpenELB——筑梦之路

OpenELB介绍 OpenELB 是一个专为裸机 Kubernetes 集群设计的开源负载均衡器实现。 在云服务环境中的 Kubernetes 集群里&#xff0c;通常可以用云服务提供商提供的负载均衡服务来暴露 Service&#xff0c;但是在本地没办法这样操作。而 OpenELB 可以让用户在裸金属服务器、边缘…

RocketMQ~架构与工作流程了解

简介 RocketMQ 具有高性能、高可靠、高实时、分布式 的特点。它是一个采用 Java 语言开发的分布式的消息系统&#xff0c;由阿里巴巴团队开发&#xff0c;在 2016 年底贡献给 Apache&#xff0c;成为了 Apache 的一个顶级项目。 在阿里内部&#xff0c;RocketMQ 很好地服务了集…

怎么关闭Windows安全中心?

Windows安全中心是Windows操作系统中的一项重要功能&#xff0c;系统提供这个功能的目的是保护电脑免受各种安全威胁。尽管如此&#xff0c;有时候我们可能出于某些原因需要关闭它。本文将详细介绍如何关闭Windows安全中心&#xff0c;以及需要注意的事项。 重要提醒&#xff1…

搞清c++中的队列(queue)以及双端队列(deque),以及常用的接口!

1. 队列 概念&#xff1a;Queue是一种先进先出(First In First Out,FIFO)的数据结构&#xff0c;它有两个出口 特征&#xff1a; 队列容器允许从一端新增元素&#xff0c;从另一端移除元素 队列中只有队头和队尾才可以被外界使用&#xff0c;因此队列不允许有遍历行为 队列…

这个工具居然能让你的微信暴露得一览无余!!

今天在github看到一个不错的项目&#xff0c;叫做wx-dump-4j&#xff0c;不看不知道&#xff0c;一看吓一跳&#xff0c;这个工具完全的解析了我的微信&#xff01;这个工具准确显示好友数、群聊数和当日消息总量&#xff0c;并且&#xff01;&#xff01;这个工具提供过去15天…

第59期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区&#xff0c;集成了生成预训练Transformer&#xff08;GPT&#xff09;、人工智能生成内容&#xff08;AIGC&#xff09;以及大语言模型&#xff08;LLM&#xff09;等安全领域应用的知识。在这里&#xff0c;您可以找…

js | 原型链

为什么前者会输出Lucas 后者不会&#xff1f;call动作具体干了什么? http://dmitrysoshnikov.com/ecmascript/javascript-the-core/ function Foo(){this.bar"Lucas" } let obj{}; obj.__proto__Foo.prototype; Foo.call(obj) console.log(obj.bar); // 输出Lucas/…

【排序算法】1.冒泡排序-C语言实现

冒泡排序&#xff08;Bubble Sort&#xff09;是最简单和最通用的排序方法&#xff0c;其基本思想是&#xff1a;在待排序的一组数中&#xff0c;将相邻的两个数进行比较&#xff0c;若前面的数比后面的数大就交换两数&#xff0c;否则不交换&#xff1b;如此下去&#xff0c;直…