平均工资数据分析之回归

链接: R语言实战——中国职工平均工资的变化分析——相关与回归分析

1、模型诊断和评估的方法

1. 残差分析

1、残差图 (Residual Plot):用于检查残差是否存在非随机模式。理想情况下,残差应随机分布在零附近
2、Q-Q 图 (Quantile-Quantile Plot):用于检查残差是否符合正态分布。如果残差接近正态分布,Q-Q 图上的点应接近一条直线
3、Shapiro-Wilk Test:用于检验残差的正态性。p 值大于 0.05 表示残差近似正态分布。

2. 多重共线性检测

方差膨胀因子 (VIF, Variance Inflation Factor):用于检测多重共线性。如果 VIF 值大于 10,说明存在严重的多重共线性问题。

3. 模型拟合优度

R² 和调整后的 R²:衡量模型解释变异的能力。调整后的 R² 考虑了自变量个数,对模型复杂度进行了惩罚。
AIC (Akaike 信息准则) 和 BIC (贝叶斯信息准则):用于模型比较,较低的 AIC 或 BIC 表示模型更好。

4. 异常值和影响点

标准化残差 (Standardized Residuals):用于识别异常值。绝对值大于 2 或 3 的残差可能是异常值。
Cook’s 距离 (Cook’s Distance):用于识别对模型有显著影响的数据点。Cook’s 距离大于 1 的点可能是影响点。

5. 异方差性检验

Breusch-Pagan Test:用于检测异方差性。如果 p 值小于 0.05,说明存在异方差性问题。
White Test:另一种异方差性检测方法。

6. 自相关性检验

Durbin-Watson Test:用于检测残差的自相关性。值接近 2 表示不存在自相关性,值接近 0 或 4 表示存在自相关性。

7. 预测性能评估

交叉验证 (Cross-Validation):将数据集分成训练集和测试集,评估模型在未见过的数据上的表现。
均方误差 (MSE, Mean Squared Error) 和 均方根误差 (RMSE, Root Mean Squared Error):用于衡量模型的预测误差。

2、指数回归(对数模型)——地区

由于指数模型的值会过于大,会出现以下警告

: RuntimeWarning: overflow encountered in exppredicted_values_exp = np.exp(predicted_values)

这个警告通常是由于指数函数中的值过大而引起的。当预测值非常大时,应用指数函数可能会导致数值溢出(overflow)

因此:使用对数函数:如果数据呈现指数型增长,可以考虑使用对数函数进行拟合和预测。这样可以将指数型增长的问题转化为线性回归问题

(1)构建对数模型并可视化

在这里插入图片描述
在这里插入图片描述

(2)模型诊断的评估

在这里插入图片描述

  1. Omnibus(Omnibus test of normality):
    这个统计量是对模型中误差项的正态性进行综合检验的统计量。正态性是线性回归模型的一个重要假设,即模型的残差应该近似服从正态分布。Omnibus统计量的p值提供了一个关于模型中误差项是否服从正态分布的检验结果。如果p值低于某个显著性水平(通常是0.05),则拒绝了误差项服从正态分布的假设。p值应该越大越好,因为大的p值表示误差项符合正态分布的假设越合理。
  2. Skewness(Skewness of residuals):
    偏度是衡量数据分布偏斜程度的统计量。在线性回归模型中,残差的偏度可以用来检验误差项是否符合正态分布。如果残差的偏度接近于0,则表示数据分布大致对称。如果偏度值大于0,则表示数据分布右偏,即正偏。如果偏度值小于0,则表示数据分布左偏,即负偏。通常认为,偏度的绝对值大于2时,数据分布具有显著的偏斜。偏度应该接近于0,因为接近于0表示数据分布大致对称,符合正态分布的特征。
  3. Kurtosis(Kurtosis of residuals):
    峰度是衡量数据分布峰态(峰的陡峭程度)的统计量。在线性回归模型中,残差的峰度可以用来检验误差项是否符合正态分布。如果残差的峰度接近于0,则表示数据分布具有正常的峰态。如果峰度值大于0,则表示数据分布具有尖峰,即峰态较高。如果峰度值小于0,则表示数据分布扁平,即峰态较低。与偏度类似,通常认为,峰度的绝对值大于2时,数据分布具有显著的峰态。峰度应该接近于0,因为接近于0表示数据分布的峰态与正态分布相似,没有明显的尖峰或扁平。
  4. Durbin-Watson statistic:
    杜宾-沃森统计量是用来检验残差是否存在自相关(序列相关)的统计量。自相关是指残差之间的相关性,如果残差之间存在自相关,意味着模型中的一些信息没有被完全捕捉到,可能导致模型的估计结果不准确。Durbin-Watson统计量的取值范围为0到4之间,如果接近于2,则表示残差之间不存在自相关;如果接近于0或4,则表示存在正向或负向自相关。通常认为,当Durbin-Watson统计量的值在1.5到2.5之间时,不存在严重的自相关问题。值接近于2,因为接近于2表示残差之间不存在自相关,即模型中没有未被捕捉到的序列相关性。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

3、多项式回归及检验——地区

(1)构建模型并可视化

在这里插入图片描述

(2)模型诊断评估

在这里插入图片描述
在这里插入图片描述

  1. Shapiro-Wilk Test
    W 值:Shapiro-Wilk Test 的统计量。这个值接近于1时,表示样本数据与正态分布相符。
    p 值:Shapiro-Wilk Test 的显著性水平。如果 p 值小于某个阈值(通常为 0.05),我们拒绝原假设,认为数据不服从正态分布。反之,如果 p 值大于 0.05,我们不能拒绝原假设,认为数据服从正态分布。
    作用和意义
    Shapiro-Wilk Test 的主要作用是检验数据正态性,这在统计分析中非常重要,因为许多统计方法(如 t 检验、回归分析)假设数据是正态分布的。如果数据不符合正态分布,这些方法的结果可能不可靠。
    残差正态性:在回归分析中,残差应该近似正态分布。这是因为正态分布的残差意味着模型的假设是合理的,且估计的系数和预测是可靠的。
    模型诊断:如果残差不符合正态分布,可能表明模型不适合数据,或者数据中存在异常值、异方差性等问题。

Q-Q图

在这里插入图片描述
在这里插入图片描述

残差图

在这里插入图片描述
在这里插入图片描述

4、多元线性回归(增加变量gdp、人口增长率)

在这里插入图片描述

5、预测

(1)指数预测

在这里插入图片描述

(2)多项式预测

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/13118.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【liunx】yumvim

目录 Linux 软件包管理器 yum 关于 rzsz 注意事项 查看软件包 Linux开发工具 Linux编辑器-vim使用 vim的基本概念 vim的基本操作 vim正常模式命令集 vim末行模式命令集 简单vim配置 配置文件的位置 sudo提权 Linux 软件包管理器 yum 1.yum是什么&#xff1…

【前端】CSS基础(4)

文章目录 前言1、CSS常用属性1.1 文本属性1.1.1 文本对齐1.1.2 文本装饰1.1.3 文本缩进1.1.5 行高 前言 这篇博客仅仅是对CSS的基本结构进行了一些说明,关于CSS的更多讲解以及HTML、Javascript部分的讲解可以关注一下下面的专栏,会持续更新的。 链接&…

Day_5

1. Apache ECharts Apache ECharts 是一款基于 Javascript 的数据可视化图表库,提供直观,生动,可交互,可个性化定制的数据可视化图表 官网地址:https://echarts.apache.org/zh/index.html 入门案例 快速入门&#x…

企业计算机服务器中了faust勒索病毒如何处理,faust勒索病毒解密恢复

随着网络技术的不断发展与应用,越来越多的企业利用网络走向了数字化办公模式,网络也极大地方便了企业生产运营,大大提高了企业生产效率,但对于众多企业来说,企业的数据安全一直是大家关心的主要话题,保护好…

fastjson2使用

说明:fastjson2是一个性能极致并且简单易用的Java JSON库(官方语),本文介绍在Spring Boot项目中如何使用fastjson2。 创建项目 首先,创建一个Maven项目,引入fastjson2依赖,如下: …

战网国际服注册教程 暴雪战网国际服账号注册一站式教程分享

战网国际版,也即Battle.net环球版,是由暴雪娱乐操刀的全球化游戏交流枢纽,它突破地理限制,拥抱全世界的游戏玩家。与仅限特定地区的版本不同,国际版为玩家开辟了无障碍通道,让他们得以自由探索暴雪庞大游戏…

如何使用JMeter测试导入接口/导出接口?

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号:互联网杂货铺,回复1 ,免费获取软件测试全套资料,资料在手,涨薪更快 今天上班,被开发问了一个问题:JM…

最小质数对-第12届蓝桥杯国赛Python真题解析

[导读]:超平老师的Scratch蓝桥杯真题解读系列在推出之后,受到了广大老师和家长的好评,非常感谢各位的认可和厚爱。作为回馈,超平老师计划推出《Python蓝桥杯真题解析100讲》,这是解读系列的第63讲。 最小质数对&#…

基于SSM的“羽毛球馆管理系统”的设计与实现(源码+数据库+文档)

基于SSM的“羽毛球馆管理系统”的设计与实现(源码数据库文档) 开发语言:Java 数据库:MySQL 技术:SSM 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统结构图 登录界面 后台用户添加 后台用户管理 球场添加 球场…

Linux 第三十三章

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,linux 🔥座右铭:“不要等到什么都没有了…

大模型学习笔记九:模型微调

文章目录 一、什么时候需要Fine-Tuning二、用Hugging Face根据电影评论输出来对电影进行情感分类1)安装依赖2)操作流程3)名字解释4)代码导入库和加载模型、加载数据库、加载tokenlizer5)其他相关公共变量赋值(随机种子、标签集评价、标签转token_Id)6)处理数据集:转成…

Altium Designer封装库和元器件符号库下载与导入教程(SnapEDA 、Ultra Librarian、Alldatasheetcn)

1.AD封装库和元器件符号库下载网址 以下是一些全球热门的Altium Designer封装库和元器件符号库下载网址推荐: Altium Content Vault (现称为Altium Manufacturer Part Search):这是Altium官方提供的元器件库,可以直接在Altium Designer中使用…

免费体验GPT-4o这5大功能,非常好用!

这几天,OpenAI发布了新的GPT版本,GPT-4o,比GPT4更加智能也更快。 据说,GPT-4o在文本、推理和编码智能方面实现了GPT-4 Turbo级别的性能,在多语言、文本、音频和视觉功能方面甚至超过了市面上所有同类产品。 有几个亮点…

数据结构复习指导之图的存储及基本操作

文章目录 图的存储及基本操作 考纲内容 复习提示 1.邻接矩阵法 2.邻接表法 3.十字链表 4.邻接多重表 5.图的基本操作 图的存储及基本操作 图的存储必须要完整、准确地反映顶点集和边集的信息。根据不同图的结构和算法,采用不同的存储方式将对程序的效率产生…

Python进度条工具——tqdm

原文链接:http://www.juzicode.com/python-note-tqdm 在安装Python库文件的时候我们经常可以看到这种进度条: 其实Python库中就自带了现成的工具库——tqdm。 tqdm读起来比较拗口,它是从“进程”的阿拉伯语taqaddum简化而来。 安装tqdm 使用…

C++二叉搜索树搜索二叉树二叉排序树

C二叉搜索树 1. 二叉搜索树的概念 二叉搜索树(BST,Binary Search Tree),也称为二叉排序树或二叉查找树。它与一般二叉树的区别在于:每个结点必须满足“左孩子大于自己,右孩子小于自己”的规则。在这种规则的约束下,二…

ADS Momentum 仿真设置

1、选择Momenttum Microwave。 2、Layout不需要操作。 3、Partitioning 不需要操作。 4、没有叠层的话需要新建叠层,过孔可以在叠层中右键添加。 5、注意确认端口的Gnd Layer。 6、设置仿真频率。 7、Output Plan。 8、Option。 最后运行仿真,等待结果即…

算法学习(7)-树

目录 开启“树”之旅 二叉树 堆--优先队列 并查集 开启“树”之旅 是不是很像一棵倒挂的树?也就是说它是根朝上, 而叶子朝下的。不像?哈哈,来看看下面的图你就会觉得像啦。 你可能会间: 树和图有什么区别&#xff…

代码生成工具1 ——项目简介和基础开发

1 项目简介 需要提前在数据库建好表,然后执行代码生成工具,会生成简单的Java文件,避免重复编写增删改查代码。类似的工具网上有很多,本人开发这个工具属于自娱自乐。这个专栏会记录开发的过程。 2 项目搭建 数据库使用MySQL &…

APP没有上架就开通了APP支付,微信商户的这个操作绝了

在当今的移动支付时代,APP支付已成为商家与消费者之间的重要桥梁。然而,对于一些尚未上架的应用来说,如何快速开通APP支付功能一直是个难题。最近,微信商户平台的一项新操作,为这类商家带来了福音---APP没有上架&#…