医学案例|线性回归

一、案例介绍

某医师预研究糖尿病患者的总胆固醇和甘油三酯对空腹血糖的影响,某研究者调查40名糖尿病患者的总胆固醇、甘油三酯和空腹血糖的测量值如下,试根据上述研究问题作统计分析。

二、问题分析

本案例想要研究一些变量(总胆固醇和甘油三酯)对另一变量(空腹血糖)的影响,可以使用多元线性回归分析进行研究。多元线性回归分析比较重要的假设有以下5个:

假设1:线性——因变量与自变量之间存在线性关系

假设2:独立性——各观测值之间相互独立,即残差之间不存在自相关。

假设3:正态性——残差接近正态分布。

假设4:方差齐——残差的方差齐。

假设5:多重共线性——自变量间不存在多重共线性。

如果违反了这些假设中的一个或多个,那么可能导致线性回归分析结果不可靠。因此我们需要对假设1-5使用软件进行检验。

三、前提假设检验

(1)检验假设1:线性

多元线性回归分析要求因变量Y与自变量X之间存在线性关系。针对连续型自变量,可以通过绘制自变量与因变量的散点图,直观判断是否存在线性关系。而对于分类自变量(如学历),可以忽略与因变量之间的线性关系。

使用SPSSAU分别绘制Y空腹血糖和X1总胆固醇、X2甘油三酯的散点图,在【可视化】模块选择【散点图】,将数据拖拽到右侧相应分析框中,点击开始分析,操作如下图:

SPSSAU输出散点图如下:

①总胆固醇和空腹血糖散点图

以“空腹血糖”作Y轴,“总胆固醇”作X轴绘制散点图,可以看出,空腹血糖与总胆固醇之间存在线性关系。

②甘油三酯和空腹血糖散点图

同理查看甘油三酯与空腹血糖绘制的散点图,二者之间存在近似线性关系。

综上,可以认为本案例数据满足假设1:,即因变量与自变量之间存在线性关系。

(2)检验假设2:独立性

线性回归分析假设各个观测值之间是相互独立的,即残差之间不存在自相关。可以使用Durbin-Watson检验残差是否存在自相关

SPSSAU线性回归分析结果会输出D-W检验结果,如下图:

一般来说,D-W检验其值在0到4之间。如果D-W检验值接近0,说明存在正自相关,如果接近4,说明存在负自相关。一般认为,如果D-W检验值在1.5到2.5之间,就说明不存在自相关问题。从上表可知,本案例D-W值为2.0437,因此认为不存在自相关,所以数据满足假设2,即各观测值之间相关独立。

(3)检验假设3:正态性

线性回归假设中的正态性是指残差(即随机扰动项)近似服从正态分布。首先得到残差值,在使用SPSSAU进行线性回归时,勾选“保存残差和预测值”,操作如下图:

正态分布检验的方法有很多种,例如直方图、P-P图/Q-Q图、统计检验等。本案例使用P-P图进行正态性检验,得到残差P-P图如下:

P-P图近似呈现为一条对角直线,说明数据接近正态分布。从上图可以看到,残差的P-P图近似为一条对角直线,故认为残差基本满足正态分布,满足假设3。

(4)检验假设4:方差齐

多元线性回归方差齐指的是残差项在不同自变量取值下具有相同的方差,即各组残差具有相同的离散程度。可以通过绘制标准化预测值与标准化残差的散点图来检验多元线性回归的方差齐性。以标准化预测值为横坐标,以标准化残差为纵坐标,绘制散点图。

①数据标准化处理

首先将保存的残差值和预测值进行标准化处理,在SPSSAU【数据处理】模块,选择【生成变量】,选中残差值和预测值,在“量纲处理”选择标准化处理,点击“确认处理”,操作如下图:

②散点图绘制

以标准化预测值为X轴,以标准化残差为Y轴,绘制散点图,得到散点图如下:

如果方差齐性假设成立,则散点图中的点应该大致均匀分布在坐标系中,散点的分布情况不会因为标准化预测值的变化而改变。从上图可以看出,散点基本均匀分布在坐标系中,无明显趋势,所以可以认为满足假设4,即残差近似满足方差齐性。

(5)检验假设5:多重共线性

自变量之间不存在多重共线性,如果存在多重共线性,那么自变量之间的线性关系会导致回归系数的估计变得不稳定,增加标准误差,从而影响预测的准确性。同时,多重共线性还会导致t检验和P值失去意义,无法准确判断自变量对因变量的影响。在多元线性回归分析中,我们通常使用方差膨胀因子(VIF值)来检测多重共线性。

SPSSAU线性回归分析结果输出共线性诊断结果如下:

SPSSAU同时输出VIF值和容忍度值(容忍度=1/VIF,二者选其一即可,通常描述VIF值)。一般认为,当VIF值大于5时(或容忍度小于0.2),存在严重的多重共线性问题。分析上表知,VIF值均小于5,所以认为本案例自变量之间不存在多重共线性问题,满足假设5。

如果存在共线性问题,可以通过移除共线性变量、使用逐步回归、岭回归或者增加样本量等方式进行处理。

综上所述,本案例数据满足使用多元线性回归分析的假设,可以进行分析。

四、线性回归分析

本案例线性回归分析结果如下:

对于多元线性回归模型的检验可以分为两部分:①多个自变量与因变量这个整体的显著性检验(F检验);②每个自变量对因变量影响的显著性检验(t检验),二者检验目的不同。

(1)模型检验

\begin{aligned}H_0&:\beta_1=\beta_2=\cdots=\beta_m=0\\H_1&:\beta_1,\beta_2,\cdots,\beta_m\text{ 不全为 0}\end{aligned}

检验统计量

F=\frac{MS_\text{回归 }}{ M S _\text{残差 }}

当H0为真时,统计量F服从自由度为m和n-m-1的F分布,其中,n为样本量,m为回归模型中的自变量个数,加入自变量回归系数全为0,则Y与各个自变量没有任何关系,这就失去了建立回归方程的意义,故当检验结果为拒绝H0时,称该回归模型是有统计学意义的。

SPSSAU多元线性回归分析F检验输出结果如下:

从上表回归模型方程分析结果可知,F=9.2572,p=0.0005<0.05,所以拒绝原假设H0,即回归模型有统计学意义。

(2)单个回归系数检验

回归系数显著性检验是指每个自变量对因变量影响的显著性检验,使用t检验进行。SPSSAU输出每个自变量对因变量影响的t检验结果如下:

分析上表可知,总胆固醇与甘油三酯对应t检验的p值均小于0.05,说明两变量均对空腹血糖具有显著影响。

(3)影响大小比较

自变量对因变量影响大小的比较是通过标准化回归系数进行比较的。标准化回归系数的绝对值越大,说明该自变量对因变量的影响越大。

标准化回归系数,是对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,是的不同变量之间具有可比性,因此使用标准化回归系数比较不同自变量对因变量的影响大小。

分析结果可知,总胆固醇和甘油三酯的标准化回归系数分别为0.4788和0.2944,说明二者均对空腹血糖有显著正态性影响,且相对来讲总胆固醇的影响更大一些。

(4)模型公式

从分析结果可以看出,模型公式为:空腹血糖=4.985 + 0.212*总胆固醇 + 0.351*甘油三酯,模型R方值为0.334,意味着总胆固醇、甘油三酯可以解释空腹血糖的33.4%变化原因。

特别提示:构建回归模型使用非标准化回归系数,它是方程中不同自变量对应的原始回归系数,反映了在其他自变量不变的情况下,该自变量每变化一个单位对因变量作用的大小。通过非标准化回归系数构建的回归方程,才可以对因变量进行预测。

更多分析结果可登录SPSSAU查看,在此不再进行赘述。

五、结论

本案例使用多元线性回归分析研究总胆固醇和甘油三酯对空腹血糖的影响,研究发现,总胆固醇和甘油三酯均会对空腹血糖产生显著正向影响,其中总胆固醇的影响更大一点。

六、知识小贴士

(1)R方值多少合适?

R平方值表示模型拟合能力的大小,比如0.3表示自变量X对于因变量Y有30%的解释能力。这个值介于0~1之间,越大越好。但实际研究中并没有固定的标准,有的专业0.1甚至0.05这样都可以,但有的专业却常常出现0.8以上。一般情况下只需要报告此值即可,不用过多关注其大小,原因在于多数时候我们更在乎X对于Y是否有影响关系即可。

(2)回归系数非常非常小或者非常非常大?

如果说数据的单位很大,不论是自变量X还是因变量Y;此种数据会导致结果里面的回归系数出现非常非常小,也或者非常非常大。此种情况是正常现象,但一般需要对数据进行统一取对数处理,以减少单位问题带来的‘特别大或特别小的回归系数’问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/69773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PostgreSQL问题记录:column “...“ does not exist

在PostgreSQL中&#xff0c;不论是在pgAdmin中&#xff0c;还是在命令行控制台里面&#xff0c;在SQL语句中表示属性值的总会遇到ERROR: column “…” does not exist这样的错误&#xff0c;比如下面的语句&#xff1a; 解决方案&#xff1a;将 “txt2txt” 的双引号改成单引…

UDP协议结构及其注意事项

UDP报文结构 UDP报文结构主要是由两个部分组成的&#xff1a;UDP头部和数据部分。 UDP头部 源端口号&#xff1a;16位字段&#xff0c;指示数据发送方的端口号。目的端口号&#xff1a;16位字段&#xff0c;指示数据接收方端口号。UDP报文长度&#xff1a;16位字段&#xff0…

房地产推广传单制作攻略,打造让人惊艳的电子传单

随着互联网的发展&#xff0c;传统的纸质传单已经逐渐被电子版传单所取代。电子版传单不仅可以节省成本&#xff0c;还可以更好地展示房产信息。在传统的设计软件中制作电子版传单需要一定的门槛&#xff0c;但是现在有了乔拓云网的后台&#xff0c;设计电子版房产H5传单变得简…

TCP机制之确认应答及超时重传

TCP因为其可靠传输的特性被广泛使用,这篇博客将详细介绍一下TCP协议是如何保证它的可靠性的呢?这得主要依赖于其确认应答及超时重传机制,同时三次握手四次挥手也起到了少部分不作用,但是主要还是由确认应答和超时重传来决定的;注意:这里的可靠传输并不是说100%能把数据发送给接…

无涯教程-Android - Absolute Layout函数

Absolute Layout 可让您指定其子级的确切位置(x/y坐标)&#xff0c;绝对布局的灵活性较差且难以维护。 Absolute Layout - 属性 以下是AbsoluteLayout特有的重要属性- Sr.NoAttribute & 描述1 android:id 这是唯一标识布局的ID。 2 android:layout_x 这指定视图的x坐标…

【基础计算机网络1】认识计算机网络体系结构,了解计算机网络的大致模型(上)

前言 今天&#xff0c;小编我也要进入计算机网络的整个内容&#xff0c;虽然这个计算机网络的内容在考研部分中占比比较小&#xff0c;有些人不把这一部分当成重点&#xff0c;这种想法是错误的。我觉得考研的这四个内容都是非常重要的&#xff0c;我们需要进行全力以赴的对待每…

Redis:StringRedisTemplate简介

&#xff08;笔记总结自b站黑马程序员课程&#xff09; 为了在反序列化时知道对象的类型&#xff0c;JSON序列化器会将类的class类型写入json结果中&#xff0c;存入Redis&#xff0c;会带来额外的内存开销。 为了减少内存的消耗&#xff0c;我们可以采用手动序列化的方式&am…

【数据结构】堆的基础功能实现与PriorityQueue

文章目录 &#x1f340;堆的插入与删除&#x1f6eb;堆的插入&#x1f6a9;代码实现&#xff1a; &#x1f6ec;堆的删除 &#x1f38b;堆的常见习题&#x1f388;习题一&#x1f388;习题二&#x1f388;习题三 &#x1f384;PriorityQueue&#x1f431;‍&#x1f453;Priori…

leetcode 92.反转链表II dummy节点的应用

题目 方法 dummy节点 链表的第一个结点&#xff0c;因为没有前驱结点&#xff0c;存在同时删除前驱和后继的情况&#xff0c;这时候我们需要人为构造dummy节点——人为制造出来的第一个结点的前驱结点&#xff0c;也就是说&#xff0c;在可能操作head节点时&#xff0c;我们可…

基于Matlab分析的电力系统可视化研究

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

4.正则提取html中的img标签的src内容

我们以百度贴吧的1吧举例 目录 1 把网页搞下来 2 收集url 3 处理url 4 空的src 5 容错 6 不使用数字作为文件名 7 并不是所有的图片都用img标签表示 8 img标签中src请求下来不一定正确 9 分页 1 把网页搞下来 搞下来之后&#xff0c;双击打开是这样的 2 收…

MySQL5.7慢查询实践

总结 获取慢查询SQL 已经执行完的SQL&#xff0c;检查慢查询日志&#xff0c;日志中有执行慢的SQL正在执行中的SQL&#xff0c;show proccesslist;&#xff0c;结果中有执行慢的SQL 慢查询日志关键参数 名称解释Query_time查询消耗时间Time慢查询发生时间 分析慢查询SQL e…

Linux开源防病毒引擎ClamAV

ClamAV官方地址&#xff1a;https://www.clamav.net 它支持Linux、BSD、windows、Mac OS X等系统。 在CentOS 8&#xff08;Tencent OS 3.1&#xff09;安装非常便利&#xff0c;可以使用yum。 yum install clamav 安装成功&#xff0c;就可以使用它进行病毒扫描检查了。 c…

ArcGIS Engine10.2 Setup 报错

00 问题重述 当我尝试安装ArcGIS Engine时弹出错误&#xff1a;ArcGIs 10,2 Engine cannot be installed on your machine.ArcGIs 10,2 Engine requires Microsoft ,NET Framework 3.5sp1, Which has not been found on your system, If you want to download and install Mic…

算法训练day34|贪心算法 part03(LeetCode 1005.K次取反后最大化的数组和、134. 加油站、135. 分发糖果(处理一边再处理一边))

文章目录 1005.K次取反后最大化的数组和思路分析代码实现 134. 加油站暴力方法贪心方法 135. 分发糖果(处理一边再处理一边)思路分析代码实现思考总结 1005.K次取反后最大化的数组和 题目链接&#x1f525; 给定一个整数数组 A&#xff0c;我们只能用以下方法修改该数组&#…

Android样本Repack重打包检测思路

1. 什么是Android样本重打包&#xff0c;为什么要检测重打包 &#xff08;1&#xff09;apk是zip&#xff0c;很容易做repack &#xff08;2&#xff09;repack后&#xff0c;被抄袭&#xff0c;redirect ad&#xff0c;或者插入malicious payloads &#xff08;3&#xff09;…

机器学习_特征工程_特征数据的评价标准

本文主要从 单特征分析&#xff0c;多特征筛选&#xff0c;特征监控&#xff0c;外部特征评估的几个方面对特征数据进行阐述。 来源 &#xff1a; 特征筛选_特征覆盖度怎么算_adamyoungjack的博客-CSDN博客 1. 单特征分析 1.1 简介 好特征可以从几个角度衡量&#xff1a;覆…

springmvc5.x-mvc实现原理及源码实现

上文&#xff1a;spring5.x-声明式事务原理及源码实现 系列文章&#xff1a; spring5.x-声明式事务原理及源码实现 spring5.x-AOP实现原理及源码分析 spring5.x-监听器原理及源码实现 spring5.x-解决循环依赖分析 spring5.x-IOC模块源码学习 spring5.x介绍及搭配spring源码阅读…

python实现语音识别

1. 首先安装依赖库 pip install playsound # 该库用于播放音频文件 pip install speech_recognition # 该库用于语音识别 pip install PocketSphinx # 语音识别模块中只有sphinx支持离线的&#xff0c;使用该模块需单独安装 pip install pyttsx3 # 该库用于将文本转换为语音播…

app自动化测试(Android)

Capability 是一组键值对的集合&#xff08;比如&#xff1a;"platformName": "Android"&#xff09;。Capability 主要用于通知 Appium 服务端建立 Session 需要的信息。客户端使用特定语言生成 Capabilities&#xff0c;最终会以 JSON 对象的形式发送给 …