r语言实现岭回归_数据分析中常见的七种回归分析以及R语言实现(五)

套索回归,这个回归模型有些新颖,要写个详细的介绍预计要写好长,受限于水平,就写个普及文,所以这里就稍微简答的介绍一下;

为什么我们老说多重共线性呢?那是,因为我们在研究数据的时候总会不行制止的泛起多维度的数据,这时候高纬度的数据就会泛起多重共线性,变量选择等;所以如何消除多重共线性确定最佳模型,是回归分析的一个重点,我们一般使用的最小二乘法预计在处置惩罚多重共线性上有太大的局限性或者说让人不满意吧,第一个就是预测的精度,第二个就是模型解释性;目前处置惩罚多重共线性的常用要领有几个:主身分回归,岭回归,适应性lasso回归和偏最小二乘回归等;

套索回归模型和的作用和岭回归有些类似,都是为了淘汰自变量的多重共线性的影响的一种建模要领;这个要领和岭回归差异的是,它在参数预计的同时能够实现自变量精简的预计要领,其实质就是加一定的约束条件,就是用模型的回归系数的绝对值函数作为处罚(正则化项)来压缩模型系数,使得一些回归系数变小,将绝对值较小或者影响因子较小的自变量的回归系数置为零,这样做的结果和岭回归有些类似,就是牺牲了一定的预计偏差,但是能降低预测的方差从而提高预测的精准性;

在使用套索回归做预测的时候我们首先需要将数据集进行中心尺度处置惩罚,这样是为了消除差异的量纲带来的其他影响;是自变量们满足均值为零0,方差为1;

这里在一次引用一下岭回归的谢佳标老师的代码,有点欠美意思了,哈哈,各人自己脑补微信用手晤面流泪的心情;不外这次的话我加一点解释给各人,否则不太悦目懂;

cement

29, 56, 31, 52, 55, 71, 31, 54, 47, 40, 66, 68), X3 = c(6, 15, 8, 8, 6,

9, 17, 22, 18, 4, 23, 9, 8), X4 = c(60, 52, 20, 47, 33, 22, 6, 44, 22, 26,

34, 12, 12), Y = c(78.5, 74.3, 104.3, 87.6, 95.9, 109.2, 102.7, 72.5, 93.1,

115.9, 83.8, 113.3, 109.4))

cement

##    X1 X2 X3 X4     Y

## 1   7 26  6 60  78.5

## 2   1 29 15 52  74.3

## 3  11 56  8 20 104.3

## 4  11 31  8 47  87.6

## 5   7 52  6 33  95.9

## 6  11 55  9 22 109.2

## 7   3 71 17  6 102.7

## 8   1 31 22 44  72.5

## 9   2 54 18 22  93.1

## 10 21 47  4 26 115.9

## 11  1 40 23 34  83.8

## 12 11 66  9 12 113.3

## 13 10 68  8 12 109.4

lm.sol

summary(lm.sol)

##

## Call:

## lm(formula = Y ~ ., data = cement)

##

## Residuals:

##    Min     1Q Median     3Q    Max

## -3.175 -1.671  0.251  1.378  3.925

##

## Coefficients:

##             Estimate Std. Error t value Pr(>|t|)

## (Intercept)   62.405     70.071    0.89    0.399

## X1             1.551      0.745    2.08    0.071 .

## X2             0.510      0.724    0.70    0.501

## X3             0.102      0.755    0.14    0.896

## X4            -0.144      0.709   -0.20    0.844

## ---

## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

##

## Residual standard error: 2.45 on 8 degrees of freedom

## Multiple R-squared:  0.982,  Adjusted R-squared:  0.974

## F-statistic:  111 on 4 and 8 DF,  p-value: 4.76e-07

# 从结果看,截距和自变量的相关系数均不显著。

# 利用car包中的vif()函数检察各自变量间的共线情况

library(car)

vif(lm.sol)#盘算方差膨胀因子

##     X1     X2     X3     X4

##  38.50 254.42  46.87 282.51

# 从结果看,各自变量的VIF值都凌驾10,存在多重共线性,其中,X2与X4的VIF值均凌驾200.

plot(X2 ~ X4, col = "red", data = cement)

从上图,可以知道x2,x4泛起线性漫衍;

library(lars)#这个是我们用套索回归的包,该包还含有最小角回归

## Loaded lars 1.2

x = as.matrix(cement[, 1:4])#将X转换成矩阵

y = as.matrix(cement[, 5])#将Y转换成矩阵

(laa = lars(x, y, type = "lar"))  #lars函数值只用于矩阵型数据

##

## Call:

## lars(x = x, y = y, type = "lar")

这幅图说明了lasso回归中系数随着参数滨化而变化

## R-squared: 0.982

## Sequence of LAR moves:

##      X4 X1 X2 X3

## Var   4  1  2  3

## Step  1  2  3  4

# 由此可见,LASSO的变量选择依次是X4,X1,X2,X3

plot(laa)  #绘出图

#这里选择模型有两种要领,一个是K折交织验证,cp值两种要领,这里用了CP,K折交织验证就是将数##据集分为K等份,k-1份用来拟合数据,最后一份作为测试集,获得拟合和测试集的均方误差,做平均#,然后选择均方误差最小的那个模型;

#cp值统计量也是评价回归的一个准则:如果从k个自变量中选取P个加入回归,则cp值

#SSE就是我们常说的残差平方和;

summary(laa)  #给出Cp值

## LARS/LAR

## Call: lars(x = x, y = y, type = "lar")

##   Df  Rss     Cp

## 0  1 2716 442.92

## 1  2 2219 361.95

## 2  3 1918 313.50

## 3  4   48   3.02

## 4  5   48   5.00

# 凭据课上对Cp寄义的解释(权衡多重共线性,其值越小越好),我们取到第3步,使得Cp值最小,也就是选择X4,X1,X2这三个变量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512278.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenKruise 如何实现应用的可用性防护?

简介: OpenKruise 在 2021.9.6 发布了最新的 v0.10.0 版本新增了弹性拓扑管理和应用安全防护等能力,本文将为大家揭晓 OpenKruise 是如何实现应用的可用性防护能力。 前言 OpenKruise 是阿里云开源的云原生应用自动化管理套件,也是当前托管…

Serverless 工程实践 | Serverless 应用优化与调试秘诀

简介: 本文将以阿里云函数计算为例,提供了在线调试、本地调试等多种应用优化与调试方案。 作者|刘宇 前言:本文将以阿里云函数计算为例,提供了在线调试、本地调试等多种应用优化与调试方案。 Serverless 应用调试秘…

新一代容器平台ACK Anywhere,来了

简介: 近日,阿里云容器服务全面升级为ACK Anywhere,让企业在任何需要云的地方,都能获得一致的容器基础设施能力。 5G、AR、AIoT 等场景在推动新一代云架构的演进,而容器重塑了云的使用方式。 近日,阿里云…

高密自智,体小量大,希捷Exos Corvault存储系统为数据洞察赋能

2022年2月24日——全球领先的海量数据存储基础设施解决方案提供商希捷科技(NASDAQ:STX)在线上举办了主题为“高密自智,体小量大”的新一代PB级自修复存储系统——Exos Corvault新品鉴赏会。 此次鉴赏会邀请到了E企研究院首席研究…

mysql复杂查询sql_mysql – 复杂的SQL查询,很多很多

像这样的东西.Select people.id, people.name, count(interest.id)from peopleleft join people_interests on people.id people_interests.peopleidleft join interests on people_interests.interestid interests.interest.idwhere interests.id in (select id from intere…

Apache Flink 在汽车之家的应用与实践

简介: 汽车之家如何基于 Flink 上线了 AutoStream 平台并持续打磨。 本文整理自汽车之家实时计算平台负责人邸星星在 Flink Forward Asia 2020 分享的议题《Apache Flink 在汽车之家的应用及实践》。主要内容包括: 背景及现状AutoStream 平台基于 Flink …

以色列安全厂商Check Point发布全新logo与重要安全新品,持续深耕中国市场

作者 | 宋慧 出品 | CSDN 云计算 2022年伊始,以色列老牌安全厂商Check Point在自家主办的安全行业大会CPX360上,正式宣布将启用全新企业logo以及企业口号。 Check Point公司中国区总经理陈石磊在对国内媒体分享时指出:“公司1993年成立时&am…

Facebook宕机背后,我们该如何及时发现DNS问题

简介: 国庆期间,Facebook 及其旗下 Instagram 和 WhatsApp 等应用全网宕机,停机时间将近 7 小时 5 分钟,Facebook 市值损失 643 亿美元。针对Facebook的宕机问题,我们该如何未雨绸缪,看看云拨测如何帮助客户…

python学习list_python学习之list

一 [::] 切片第一个参数 开始位置第二个参数 结束位置第三个参数 按多少间隔切,如果为负数,则逆序输出如:1.从第2个数字开始,到第6个数字结束,间隔为2分割listlist [1,2,3,45,6,54,2]print list[1:5:2]输出为&#x…

KubeVela 1.1 发布,开启混合环境应用交付新里程碑

简介: KubeVela 作为一个开箱即用、面向现代微服务架构的应用交付与管理平台,今天正式发布了 1.1 版本,以更加用户友好和完善的功能集,开启了“让混合环境应用交付更加简单高效”的重要里程碑。 在云原生理念迅速普及的今天&…

云原生消息、事件、流超融合平台——RocketMQ 5.0 初探

简介: 今天分享的主题是云原生消息事件流超融合平台 RocketMQ 5.0 初探,内容主要分为三个部分: 首先,带大家回顾业务消息领域首选 RocketMQ 4 发展历史以及 4.x 版本的演进与发展。 其次,会为大家详细介绍 RocketMQ 5.…

mysql查找无根节点sql_SQL 双亲节点查找所有子节点的实现方法

怎么保存树状结构的数据呢?在 SQL 中常用的是双亲节点法。创建表如下CREATE TABLE category ( id LONG, parentId LONG, name String(20) )INSERT INTO category VALUES ( 1, NULL, Root )INSERT INTO category VALUES ( 2, 1, Branch1 )INSERT INTO category VALUE…

一文看懂微服务背后的技术演进与应用实践

简介: 2021年7月2日,阿里云用户组(AUG)第一次线下活动在济南召开。阿里云云原生资深专家李国强结合自身微服务领域经验,现场跟数十家山东企业分享了云原生的代表技术之一“微服务”的演进和应用实践。本文根据作者的现…

1 分钟记住 docker 镜像和容器常用基本命令

作者 | xiaochuhe来源 | CSDN博客镜像常用基本命令查看自己服务器中docker 镜像列表docker images搜索镜像docker search 镜像名 docker search --filterSTARS9000 mysql 搜索 STARS >9000的 mysql 镜像拉取镜像docker pull 镜像名 docker pull 镜像名:tag运行镜像docker ru…

业界首个机密计算容器运行时—Inclavare Containers正式进入CNCF!

简介: Inclavare Containers 通过云原生计算基金会(CNCF)TOC 投票正式成为 CNCF 官方沙箱项目。 作者|彦荣 2021 年 9月 15 日,Inclavare Containers 通过云原生计算基金会(CNCF)TOC 投票正式成…

python 矩阵库_NumPy 矩阵库(Matrix)

NumPy 中包含了一个矩阵库 numpy.matlib,该模块中的函数返回的是一个矩阵,而不是 ndarray 对象。由 m n 个数aij排成的 m 行 n 列的数表称为 m 行 n 列的矩阵,简称 m n 矩阵。记作这 mn 个数称为矩阵 A的元素,简称为元&#xff…

Gartner 发布 2022 年汽车行业五大技术趋势

来源 | CSDN云计算 Gartner发布2022年汽车行业五大技术趋势,帮助企业首席信息官更好地应对汽车行业的软件、硬件和数字变革。 Gartner高级研究总监Pedro Pacheco表示:“在过去的一个世纪中,汽车制造商一直专注于汽车机械的研发,而…

顺丰科技 Hudi on Flink 实时数仓实践

简介: 介绍了顺丰科技数仓的架构,趟过的一些问题、使用 Hudi 来优化整个 job 状态的实践细节,以及未来的一些规划。 本文作者为刘杰,介绍了顺丰科技数仓的架构,趟过的一些问题、使用 Hudi 来优化整个 job 状态的实践细…

Paillier半同态加密:原理、高效实现方法和应用

简介: 《数据安全法》已于9月1日起正式实施,两个月后《个人信息保护法》也将开始施行,意味着数据安全和隐私保护方面的监管将会在年内陆续到位。在合规收紧大背景下,“数据孤岛”现象日渐明显。如何实现安全的数据流通&#xff0c…

django给mysql配主从_django中的mysql主从读写分离:一、配置mysql主从分离

一、配置mysql主从同步的步骤:(1) 在主服务器上,必须开启二进制日志机制和配置一个独立的ID(2) 在每一个从服务器上,配置一个唯一的ID,创建一个用来专门复制主服务器数据的账号(3) 在开始复制进程前,在主服务器上记录二…