横截面数据回归

横截面数据回归

一些笔记

观测值一定要比参数值多
p值<0.05,拒绝H0.
参数显著,不能说明模型对
AIC与BIC准则,越小越好的指标值AIC
回归分析一定要进行残差的正态性检验。所有的残差都大于0,小于0,都不正常。残差正常应该是分布在0的附近,有正有负,它应该是随机的
残差的正态性检验:检验统计量,是否复合正态分布,QQ图检验正态性
经验分布函数与生存分析函数是相反的
多重共线性:
1.判断是否存在多重共线性VIF>10即存在多重共线性

实验

公路一氧化碳数据

数据:
image

先进行一般的回归,假定残差服从正态分布,也是最简单的线性回归,我们先拟合看一看效果怎么样。
C O = β 0 + β 1 H o u r + β 2 T r a f f i c + β 3 W i n d + ε CO = \beta_0+\beta_1Hour+\beta_2Traffic+\beta_3Wind+\varepsilon CO=β0+β1Hour+β2Traffic+β3Wind+ε
以最小二乘法拟合,得到参数估计值
代码:

w <- read.table("D:/cofreewy.txt",header = TRUE)
head(w)
a=lm(CO~.,w)#利用3个自变量做线性回归
summary(a)#展示结果
b=step(a,direction="backward")#逐步回归
summary(b)#展示逐步回归结果

image

由此可以看出,我们拟合的模型是:
C O = 1.274 + 0.018 ∗ T r a f f i c + 0.175 ∗ W i n d CO = 1.274+0.018*Traffic+0.175*Wind CO=1.274+0.018Traffic+0.175Wind
由此可以看出,我们拟合的模型是:
C O = 1.274 + 0.018 ∗ T r a f f i c + 0.175 ∗ W i n d CO = 1.274+0.018*Traffic+0.175*Wind CO=1.274+0.018Traffic+0.175Wind

  • R 2 R^2 R2表示线性回归模型中自变量X解释的响应变量y的变化比例.
  • R 2 R^2 R2越大,说明自变量X对响应变量y的解释越强.

这个模型在统计意义上已经不能说明模型对,因为残差是否满足正态分布,我们还不知道,毕竟回归的前提是假设残差满足正态分布。
我们再来看一下残差的分布情况,看看它是否服从正态分布。

shapiro.test(b$res)#做残差的正态性检验

image

我们可以看出p值>0.05,不拒绝原假设(注意:不是接受原假设,是不拒绝原假设),我们可以假设残差服从正态分布。
但这样是不是就好了,这就是最好的模型呢?

qqnorm(b$res);qqline(b$res)#做残差的QQ图.

image
这种线性回归,首先是假定了它的残差是服从正态分布,模型建出来之后,通过QQ图检验它的残差是否真的服从正态分布,那如图所示,如果没有很好的服从或者渐进服从正态呢?怎么办?

注意:在小样本情况下p值0.05的界限不能完全诠释模型优劣
重新拟合,不用线性,用非线性

在此之前让我们先看一看各个属性之间的关系是什么,绘制散点图看一看。

attach(w) #把变量名字放入内存
par(mfrow=c(2,3)) #建立6个图的摆放模式
plot(CO~Traffic);plot(CO~Hour);plot(CO~Wind)
plot(Traffic~Hour);plot(Wind~Hour);plot(Traffic~Wind)
# 也可以直接plot(w),用一行代码直接绘制所有属性的关系。

image
这样就很清楚了,那两个变量之间需要线性关系,那两个之间需要非线性关系,一目了然。
我们可以清晰的看到线性、三角函数,那那个既非线性又非三角函数的周期函数呢?用傅里叶级数。

法国数学家傅里叶认为,任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示(选择正弦函数与余弦函数作为基函数是因为它们是正交的),后世称傅里叶级数为一种特殊的三角级数,根据欧拉公式,三角函数又能化成指数形式,也称傅立叶级数为一种指数级数。

# 计算相关系数
cor(cbind(CO,Traffic,Tsq=Traffic^2,Tcub=Traffic^3,Hour,Hsq=Hour^2,Hcub=Hour^3,Wind,Wsq=Wind^2,Wub=Wind^3))

注:cbind()函数是R语言中用于合并数据框的函数,它可以将多个数据框按照列合并。
image

# 回归
lm2 <- lm(CO~Traffic+Wind+I(Wind^2)+I(Wind^3)+sin((2*pi/24)*Hour)+cos((2*pi/24)*Hour)+sin((4*pi/24)*Hour)+cos((4*pi/24)*Hour))
summary(lm2)
lm3<- step(lm2)
summary(lm3)
anova(lm3)
shapiro.test(lm3$res)
# 去掉不显著的重新拟合
lm4 <- lm(CO~Traffic+Wind+I(Wind^2)+cos((2*pi/24)*Hour)+cos((4*pi/24)*Hour))
summary(lm4)
anova(lm4)
shapiro.test(lm4$res)
qqnorm(lm4$res)
qqline(lm4$res)

image

最后的拟合模型为:
C O = 1.38 + 0.017 ∗ T r a f f i c + 0.459 ∗ W i n d − 0.057 W i n d 2 − 0.366 c o s ( ( 2 ∗ p i 24 ) ∗ H o u r ) + 0.38 c o s ( ( 4 ∗ p i 24 ) ∗ H o u r ) + ε CO = 1.38+0.017*Traffic+0.459*Wind-0.057Wind^2-0.366cos((\frac{2*pi}{24})*Hour)+0.38cos((\frac{4*pi}{24})*Hour)+\varepsilon CO=1.38+0.017Traffic+0.459Wind0.057Wind20.366cos((242pi)Hour)+0.38cos((244pi)Hour)+ε

注:其中 ε \varepsilon ε表示残差,即 C O i − C O ^ i CO_i-\hat{CO}_i COiCO^i
注意 R 2 R^2 R2,此模型要更好


总结:

  1. 线性回归模型中,如果残差服从正态分布,则可以认为模型是合理的。
  2. P值不是万能的,好的模型还是要不断试一试才能出来。
  3. 回归是否有意义,还是要放在实际背景中去看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/865764.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小学校园“闲书”交易平台的设计与实现-计算机毕业设计源码04282

小学校园“闲书”交易平台的设计与实现 摘 要 小学校园“闲书”交易平台是为了解决小学生之间的书籍交流和阅读兴趣培养而设计的。该平台通过使用现代技术手段&#xff0c;如移动应用开发和互联网技术&#xff0c;构建了一个功能齐全的交易平台。平台支持用户注册与登录&#x…

应用于空气和液体抑菌的静态UVC LED抑菌模组-WH-UVC001-VO

WH-UVC001-VO是一款用于空气和液体抑菌的静态UVC LED抑菌模组。适用于带水箱、密闭的腔体结构。可安装于顶部、侧壁及底部&#xff0c;出光面符合IP65的防水要求&#xff0c;即使安装于水箱底部也不用担心漏水。 使用的UVC LED的波长范围为260-280nm&#xff0c;具有优良高效的…

JavaScrip——switch类型

目录 任务描述 相关知识 严格相等 switch语句 编程要求 任务描述 北美五大湖的名称和面积如下&#xff1a; 名称面积(平方公里)Superior82414Huron59600Michigan58016Erie25744Ontario19554 本关任务&#xff1a;根据面积判断湖泊的名字。 相关知识 上一关讲解的是拥…

Java项目:基于SSM框架实现的网上医院预约挂号系统【ssm+B/S架构+源码+数据库+毕业论文】

一、项目简介 本项目是一套基于SSM框架实现的网上医院预约挂号系统 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能完善、界面美观、操作简单、…

Linux静态库的制作

Linux操作系统支持的函数库分为&#xff1a; 静态库&#xff0c;libxxx.a&#xff0c;在编译时就将库编译进可执行程序中。 优点&#xff1a;程序的运行环境中不需要外部的函数库。 缺点&#xff1a;可执行程序大 动态库&#xff0c;又称共享库&#xff0c;libxxx.so&a…

解决Python爬虫开发中的数据输出问题:确保正确生成CSV文件

引言 在大数据时代&#xff0c;爬虫技术成为获取和分析网络数据的重要工具。然而&#xff0c;许多开发者在使用Python编写爬虫时&#xff0c;常常遇到数据输出问题&#xff0c;尤其是在生成CSV文件时出错。本文将详细介绍如何解决这些问题&#xff0c;并提供使用代理IP和多线程…

【网络安全的神秘世界】SQL注入(下)

&#x1f31d;博客主页&#xff1a;泥菩萨 &#x1f496;专栏&#xff1a;Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 3.7 二次注入 不好挖这个漏洞&#xff0c;需要搞懂业务逻辑关系 二次注入通常是指在存入数据库时做了过滤&#xff0c;但是取…

解码AWS EC2:塑造云服务器新标杆的五大核心优势

在云计算领域&#xff0c;亚马逊弹性计算云&#xff08;Amazon Elastic Compute Cloud, 简称EC2&#xff09;作为AWS的明星服务&#xff0c;凭借其卓越的性能、灵活性和广泛的生态系统&#xff0c;已经成为企业构建云上基础设施的首选。EC2不仅仅是一个简单的云服务器租用服务&…

“2024软博会” 为软件企业提供集展示、交流、合作一站式平台

随着全球科技浪潮的涌动&#xff0c;软件行业正迎来前所未有的发展机遇&#xff0c;成为了全球新一轮竞争的“制高点”&#xff0c;以及未来经济发展的“增长点”。在当前互联网、大数据、云计算、人工智能、区块链等技术加速创新的背景下&#xff0c;数字经济已经渗透到经济社…

工控软件开发框架,GTK和QT好难选,快来拯救开发者。

工控软件开发框架如何选&#xff0c;有人喜欢GTK&#xff0c;有人钟意QT&#xff0c;而且每个人都有自己的一番道理&#xff0c;好像说的还都有理&#xff0c;这种情况该怎么办呢?大千UI工场带着你深入了解下。 一、GTK是什么 GTK&#xff08;GIMP Toolkit&#xff09;是一个…

【JavaWeb】利用IntelliJ IDEA 2024.1.4 +Tomcat10 搭建Java Web项目开发环境(图文超详细)

1、启动IntelliJ idea 2024.1.4 在欢迎页面&#xff0c;请确认好版本。因为不同的版本&#xff0c;搭建项目过程不太一样。 点击&#xff0c;新建项目。如图&#xff1a; 2、新建项目 在新建项目界面&#xff0c;选择java&#xff0c;在右侧信息模块内&#xff0c;根据个人情…

帮公司搭了个Nuxt3项目框架

theme: smartblue 最近公司立项了一个新项目&#xff0c;因为是to C 的&#xff0c;所以对SEO是有较高需求的&#xff0c;由于公司前端技术栈统一用的VUE&#xff0c;顺理成章的就选择了nuxt这个全栈框架。项目立项之后我就被安排了负责前端项目框架的搭建&#xff0c;从搭建过…

高校教师教学质量评估系统-计算机毕业设计源码03344

摘要 在高等教育中&#xff0c;教学质量是培养优秀人才的关键。为了提高教学质量&#xff0c;高校需要建立一套科学、有效的教师教学质量评估系统。本研究采用 SSM技术框架&#xff0c;旨在开发一款高校教师教学质量评估系统。 SSM框架作为一种成熟的Java开发框架&#xff0c;具…

网安小贴士(6)TCP/IP分层

一、前言 1983年&#xff0c;美国国防部决定将TCP/IP作为所有计算机网络的标准协议&#xff0c;这标志着TCP/IP正式成为互联网的基础协议。随着个人计算机的普及和网络技术的发展&#xff0c;TCP/IP模型被广泛应用于各种网络环境中&#xff0c;包括局域网&#xff08;LAN&#…

【图说中国】大江大河你知道哪些?

【图说中国】大江大河你知道哪些&#xff1f; 中国河流 中国是世界上河流最多国家之一&#xff0c;其中流域面积超过1000平方米河流就有1500多条。 主要有长江、黄河、黑龙江、珠江、淮河、海河、辽河、雅鲁藏布江、塔里木河、澜沧江、怒江、闽江、钱塘江、韩江、鸭绿江、图…

Pandas函数详解:案例解析(第25天)

系列文章目录 Pandas函数详解排序函数聚合函数缺失值处理日期函数 文章目录 系列文章目录前言1 索引和列名操作1.1 查看索引和列名1.2 修改索引和列名 2 常用计算函数2.1 排序函数2.2 聚合函数2.3 练习 3 缺失值处理3.1 缺失值概念3.2 加载包含缺失值数据3.3 查看缺失值3.4 缺失…

十五、【源码】给代理对象设置属性

源码地址&#xff1a;https://github.com/spring-projects/spring-framework 仓库地址&#xff1a;https://gitcode.net/qq_42665745/spring/-/tree/15-proxy-set-property 给代理对象设置属性 之前的代码是创建Bean进行判断&#xff0c;要不要进行代理&#xff0c;如果代理…

物联网应用Fast ingest

一、原文路径 Tuning the System Global Area 二、翻译 1、原理 Fast ingest 优化是针对高并发&#xff0c;单行数据的插入这种场景的。比如IOT应用采集&#xff08;很符合国网的用采数据场景&#xff09;。 Fast ingest 使用MEMOPTIMIZE_WRITE 提示来插入数据到 MEMOPTIM…

LVM负载均衡群集

一.群集基础概述 1.群集的类型 &#xff08;1&#xff09;负载均衡的群集&#xff1a;以提高应用系统的响应能力&#xff0c;尽可能处理更多的访问请求&#xff0c;减少延迟为目标&#xff0c;获得高并发的、高负载的整体性能。例如&#xff1a;“DNS轮询”&#xff0c;“应用…

.net 快速开发框架开源

DF.OpenAPI开源系统 前后端分离&#xff0c;开箱即用&#xff0c;java经典功能.net也具备 系统介绍 DF.OpenAPI是基于Admin.NET二开的&#xff0c;是一个开源的多租户后台管理系统。采用前后端分离技术&#xff08;前端使用vue.js&#xff0c;后端使用.net 3~.net6&#xff…