平均工资数据分析之回归

链接: R语言实战——中国职工平均工资的变化分析——相关与回归分析

1、模型诊断和评估的方法

1. 残差分析

1、残差图 (Residual Plot):用于检查残差是否存在非随机模式。理想情况下,残差应随机分布在零附近
2、Q-Q 图 (Quantile-Quantile Plot):用于检查残差是否符合正态分布。如果残差接近正态分布,Q-Q 图上的点应接近一条直线
3、Shapiro-Wilk Test:用于检验残差的正态性。p 值大于 0.05 表示残差近似正态分布。

2. 多重共线性检测

方差膨胀因子 (VIF, Variance Inflation Factor):用于检测多重共线性。如果 VIF 值大于 10,说明存在严重的多重共线性问题。

3. 模型拟合优度

R² 和调整后的 R²:衡量模型解释变异的能力。调整后的 R² 考虑了自变量个数,对模型复杂度进行了惩罚。
AIC (Akaike 信息准则) 和 BIC (贝叶斯信息准则):用于模型比较,较低的 AIC 或 BIC 表示模型更好。

4. 异常值和影响点

标准化残差 (Standardized Residuals):用于识别异常值。绝对值大于 2 或 3 的残差可能是异常值。
Cook’s 距离 (Cook’s Distance):用于识别对模型有显著影响的数据点。Cook’s 距离大于 1 的点可能是影响点。

5. 异方差性检验

Breusch-Pagan Test:用于检测异方差性。如果 p 值小于 0.05,说明存在异方差性问题。
White Test:另一种异方差性检测方法。

6. 自相关性检验

Durbin-Watson Test:用于检测残差的自相关性。值接近 2 表示不存在自相关性,值接近 0 或 4 表示存在自相关性。

7. 预测性能评估

交叉验证 (Cross-Validation):将数据集分成训练集和测试集,评估模型在未见过的数据上的表现。
均方误差 (MSE, Mean Squared Error) 和 均方根误差 (RMSE, Root Mean Squared Error):用于衡量模型的预测误差。

2、指数回归(对数模型)——地区

由于指数模型的值会过于大,会出现以下警告

: RuntimeWarning: overflow encountered in exppredicted_values_exp = np.exp(predicted_values)

这个警告通常是由于指数函数中的值过大而引起的。当预测值非常大时,应用指数函数可能会导致数值溢出(overflow)

因此:使用对数函数:如果数据呈现指数型增长,可以考虑使用对数函数进行拟合和预测。这样可以将指数型增长的问题转化为线性回归问题

(1)构建对数模型并可视化

在这里插入图片描述
在这里插入图片描述

(2)模型诊断的评估

在这里插入图片描述

  1. Omnibus(Omnibus test of normality):
    这个统计量是对模型中误差项的正态性进行综合检验的统计量。正态性是线性回归模型的一个重要假设,即模型的残差应该近似服从正态分布。Omnibus统计量的p值提供了一个关于模型中误差项是否服从正态分布的检验结果。如果p值低于某个显著性水平(通常是0.05),则拒绝了误差项服从正态分布的假设。p值应该越大越好,因为大的p值表示误差项符合正态分布的假设越合理。
  2. Skewness(Skewness of residuals):
    偏度是衡量数据分布偏斜程度的统计量。在线性回归模型中,残差的偏度可以用来检验误差项是否符合正态分布。如果残差的偏度接近于0,则表示数据分布大致对称。如果偏度值大于0,则表示数据分布右偏,即正偏。如果偏度值小于0,则表示数据分布左偏,即负偏。通常认为,偏度的绝对值大于2时,数据分布具有显著的偏斜。偏度应该接近于0,因为接近于0表示数据分布大致对称,符合正态分布的特征。
  3. Kurtosis(Kurtosis of residuals):
    峰度是衡量数据分布峰态(峰的陡峭程度)的统计量。在线性回归模型中,残差的峰度可以用来检验误差项是否符合正态分布。如果残差的峰度接近于0,则表示数据分布具有正常的峰态。如果峰度值大于0,则表示数据分布具有尖峰,即峰态较高。如果峰度值小于0,则表示数据分布扁平,即峰态较低。与偏度类似,通常认为,峰度的绝对值大于2时,数据分布具有显著的峰态。峰度应该接近于0,因为接近于0表示数据分布的峰态与正态分布相似,没有明显的尖峰或扁平。
  4. Durbin-Watson statistic:
    杜宾-沃森统计量是用来检验残差是否存在自相关(序列相关)的统计量。自相关是指残差之间的相关性,如果残差之间存在自相关,意味着模型中的一些信息没有被完全捕捉到,可能导致模型的估计结果不准确。Durbin-Watson统计量的取值范围为0到4之间,如果接近于2,则表示残差之间不存在自相关;如果接近于0或4,则表示存在正向或负向自相关。通常认为,当Durbin-Watson统计量的值在1.5到2.5之间时,不存在严重的自相关问题。值接近于2,因为接近于2表示残差之间不存在自相关,即模型中没有未被捕捉到的序列相关性。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

3、多项式回归及检验——地区

(1)构建模型并可视化

在这里插入图片描述

(2)模型诊断评估

在这里插入图片描述
在这里插入图片描述

  1. Shapiro-Wilk Test
    W 值:Shapiro-Wilk Test 的统计量。这个值接近于1时,表示样本数据与正态分布相符。
    p 值:Shapiro-Wilk Test 的显著性水平。如果 p 值小于某个阈值(通常为 0.05),我们拒绝原假设,认为数据不服从正态分布。反之,如果 p 值大于 0.05,我们不能拒绝原假设,认为数据服从正态分布。
    作用和意义
    Shapiro-Wilk Test 的主要作用是检验数据正态性,这在统计分析中非常重要,因为许多统计方法(如 t 检验、回归分析)假设数据是正态分布的。如果数据不符合正态分布,这些方法的结果可能不可靠。
    残差正态性:在回归分析中,残差应该近似正态分布。这是因为正态分布的残差意味着模型的假设是合理的,且估计的系数和预测是可靠的。
    模型诊断:如果残差不符合正态分布,可能表明模型不适合数据,或者数据中存在异常值、异方差性等问题。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

4、多元线性回归(增加变量gdp、人口增长率)

在这里插入图片描述

5、预测

(1)指数预测

在这里插入图片描述

(2)多项式预测

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13118.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【liunx】yumvim

目录 Linux 软件包管理器 yum 关于 rzsz 注意事项 查看软件包 Linux开发工具 Linux编辑器-vim使用 vim的基本概念 vim的基本操作 vim正常模式命令集 vim末行模式命令集 简单vim配置 配置文件的位置 sudo提权 Linux 软件包管理器 yum 1.yum是什么&#xff1…

Transformer(2)--位置编码器

文章目录 一、嵌入表示层二、流程详解1.初始化位置编码器2.计算位置编码3.扩维,与输入张量匹配4.添加位置编码到输入张量上 三、完整代码 一、嵌入表示层 对于输入文本序列,首先通过输入嵌入层(Input Embedding)将每个单词转换为其…

Oracle数据库查询各表空间的占用比例

目录 1、查询各表数据记录和数据大小 2、查询数据库已有表空间的大小 3、查询某表空间下各表占用突然间的大小 1、查询各表数据记录和数据大小 select a.table_name "表名",a.num_rows "数据记录",b.total "总大小(MB)" from us…

【前端】CSS基础(4)

文章目录 前言1、CSS常用属性1.1 文本属性1.1.1 文本对齐1.1.2 文本装饰1.1.3 文本缩进1.1.5 行高 前言 这篇博客仅仅是对CSS的基本结构进行了一些说明,关于CSS的更多讲解以及HTML、Javascript部分的讲解可以关注一下下面的专栏,会持续更新的。 链接&…

golang http请求返回 io.ReadCloser 数据读取和编码转换为utf8 注意事项

在go语言中我们发送一个http请求后, 我们需要通过resp返回体中的Body对象(是一个 io.ReadCloser对象)来对请求返回的数据进行读取。 对于这类Reader的数据读取我们需要先定义一个byte切片, 然后通过循环来对reader中的数据进行读取&#xff…

Day_5

1. Apache ECharts Apache ECharts 是一款基于 Javascript 的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表 官网地址:https://echarts.apache.org/zh/index.html 入门案例 快速入门&#x…

记录一下-排查免密登录过程

过程记录 2024-05-15 18:15:15 在本地机器上生成新的密钥对: ssh-keygen -t rsa -b 2048 -m PEM -f ~/.ssh/id_rsa_new2024-05-15 18:25:37 将新生成的公钥复制到服务器: ssh-copy-id -i ~/.ssh/id_rsa_new.pub xaykt10.24.17.52024-05-15 18:10:58 执…

企业计算机服务器中了faust勒索病毒如何处理,faust勒索病毒解密恢复

随着网络技术的不断发展与应用,越来越多的企业利用网络走向了数字化办公模式,网络也极大地方便了企业生产运营,大大提高了企业生产效率,但对于众多企业来说,企业的数据安全一直是大家关心的主要话题,保护好…

fastjson2使用

说明:fastjson2是一个性能极致并且简单易用的Java JSON库(官方语),本文介绍在Spring Boot项目中如何使用fastjson2。 创建项目 首先,创建一个Maven项目,引入fastjson2依赖,如下: …

战网国际服注册教程 暴雪战网国际服账号注册一站式教程分享

战网国际版,也即Battle.net环球版,是由暴雪娱乐操刀的全球化游戏交流枢纽,它突破地理限制,拥抱全世界的游戏玩家。与仅限特定地区的版本不同,国际版为玩家开辟了无障碍通道,让他们得以自由探索暴雪庞大游戏…

Python使用fastdfs-client与FastDFS交互

1. 安装(要求Python3.10) pip install fastdfs-client 注:Python3.8和Python3.9可以用这个GitHub - waketzheng/fastdfs-client-python at 1.0.1 2. 使用 from pathlib import Path from fastdfs_client import FastdfsClientclient Fas…

如何使用JMeter测试导入接口/导出接口?

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号:互联网杂货铺,回复1 ,免费获取软件测试全套资料,资料在手,涨薪更快 今天上班,被开发问了一个问题:JM…

opencv 轮廓区域检测

直线检测 void LineDetect(const cv::Mat &binaryImage) {cv::Mat xImage,yImage,binaryImage1,binaryImage2;// 形态学变化,闭操作 先膨胀,再腐蚀 可以填充小洞,填充小的噪点cv::Mat element cv::getStructuringElement(cv::MORPH_RE…

最小质数对-第12届蓝桥杯国赛Python真题解析

[导读]:超平老师的Scratch蓝桥杯真题解读系列在推出之后,受到了广大老师和家长的好评,非常感谢各位的认可和厚爱。作为回馈,超平老师计划推出《Python蓝桥杯真题解析100讲》,这是解读系列的第63讲。 最小质数对&#…

Flutter 中的 Icon 小部件:全面指南

Flutter 中的 Icon 小部件:全面指南 Flutter 提供了多种方式来展示图标,其中 Icon 是最常用的小部件之一。它不仅用于展示简单的图标,还可以与文本、按钮和其他小部件组合使用,以增强用户界面的交互性。本篇文章将详细介绍 Icon …

Windows内核函数 - ANSI_STRING字符串与UNICODE_STRING字符串

DDK不鼓励程序员使用C语言的字符串,主要是因为:标准C的字符串处理函数容易导致缓冲区溢出等错误。如果程序员不对字符串的长度进行检查,很容易导致这个错误,从而导致整个操作系统的崩溃。DDK鼓励程序员使用DDK自定义的字符串&…

基于SSM的“羽毛球馆管理系统”的设计与实现(源码+数据库+文档)

基于SSM的“羽毛球馆管理系统”的设计与实现(源码数据库文档) 开发语言:Java 数据库:MySQL 技术:SSM 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统结构图 登录界面 后台用户添加 后台用户管理 球场添加 球场…

英特尔处理器-----ERMS

ERMS,全称为Enhanced REP MOVSB/STOSB,是英特尔处理器的一种特性。它增强了使用REP MOVSB和REP STOSB指令进行内存操作的效率 section .datasrc db Hello,World! ; 源数据dst times 12 db 0 ; 目标缓冲区section .textglobal _start _start:mov es…

vj题单 Color the ball c 差分

题目链接&#xff1a;Problem - 1556 (hdu.edu.cn) 笔者思路&#xff1a;利用一维差分数组进行区间同时1的操作&#xff0c;然后还原为一维前缀和数组 笔者答案&#xff1a; #include<stdio.h> int cut[100010];int main() {long N,a,b,i,k1,j;scanf("%ld",…

Leetcode 3148. Maximum Difference Score in a Grid

Leetcode 3148. Maximum Difference Score in a Grid 1. 解题思路2. 代码实现 题目链接&#xff1a;3148. Maximum Difference Score in a Grid 1. 解题思路 这一题的话算是一个脑筋急转弯的题目吧&#xff0c;本质上就是求各个坐标下其右下方矩阵当中除自己外最大的元素是多…