R语言实战——中国职工平均工资的变化分析——相关与回归分析

链接:
R语言学习—1—将数据框中某一列数据改成行名
R语言学习—2—安德鲁斯曲线分析时间序列数据
R语言学习—3—基本操作
R语言学习—4—数据矩阵及R表示
R语言的学习—5—多元数据直观表示
R语言学习—6—多元相关与回归分析

1、源数据

各行业平均工资变化
在这里插入图片描述
各地区平均工资变化
在这里插入图片描述
全国平均工资变化
在这里插入图片描述

2、数据导入与预处理

在这里插入图片描述

导入数据

行业工资
在这里插入图片描述
地区工资
在这里插入图片描述
检查发现
在这里插入图片描述
在这里插入图片描述

处理结果

在这里插入图片描述
在这里插入图片描述

3、汇总统计

在这里插入图片描述
在这里插入图片描述

4、真实值可视化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5、相关矩阵

行业工资相关矩阵

在这里插入图片描述
在这里插入图片描述

结论

1.大多数行业之间的相关性较高,特别是I业相关的行业,如"agricult"、“explore”、 “manufact”、 “electric” 等,它们之间的相关系数都接近1,这表明它们的工资水
平变化很可能相互关联。
2.与其他行业相比,“others” 与大多数行业的相关性较低,相关系数都在0.5左右。这可能意味着它的工资水平与其他行业的工资水平变化关系较弱。
3. “wellfare"和"educatio”、“research”、 “governme” 之间的相关性相对较高,这可能反映了教育、研究和政府部门之间的相互关联。

地区工资相关矩阵

在这里插入图片描述

结论

1.大多数地区之间的相关性都比较高,特别是在接近1的值。这表明这些地区的工资水平变化很可能是相互关联的,即当一个地区的工资增加时,其他地区的工资也很可能增加,反之亦然。
2.每个地区与其他地区之间的相关性几乎都接近1,这可能反映了整体经济发展趋势的影响。例如,北京、上海、广东等经济发达地区之间的相关性较高,这符合它们在经济上相互依存的情况。
3.与其他地区相比,西藏的相关性较低,这可能是由于西藏的地理位置和经济结构与其他地区有较大的差异,导致其工资水平与其他地区的工资水平变化关系较弱。
4.青海与其他地区之间的相关性也较低,这可能是由于青海的经济发展水平相对较低,与其他地区相比,工资水平变化受到的影响较小。

5、相关矩阵散点图

行业工资矩阵散点图

在这里插入图片描述

地区工资矩阵散点图

在这里插入图片描述

6、相关性检验

1.相关系数和显著性检验(t值和p值) :
●相关系数给出了每对变量之间的相关性强度,范围在-1到1之间。值越接近1或-1,表示变量之间的相关性越强,正值表示正相关,负值表示负相关。
●t值是用于判断相关系数是否显著的统计量,如果t值越大,相关性越显著。通常t值的绝对值超过1.96 (对应p值小于0.05)可以认为相关性是显著的。
●p值用于衡量相关性是否显著,通常取值在0到1之间,p值小于显著性水平(例如0.05)时,相关性被认为是显著的。
2.解释:
●如果相关系数高且显著(t值大,p值小), 那么变量之间存在较强的线性相关性。
●如果相关系数低或者不显著,那么变量之间可能不存在线性相关性。
t值和p值可以帮助判断相关性是否由于随机因素弓|起的。

行业工资

在这里插入图片描述
在这里插入图片描述

结论

1.相关性强度: .
●各行业之间的平均工资存在较强的正相关性。如,"agricult"和"explore’之间的相关系数为0.9976,“manufact"和"explore"之 间的相关系数0.9919。这表明这些行业之间的平均工资很可能随着时间的推移而同时增加或减少。
2.显著性检验:
●大多数行业之间的平均I资相关性都是显著的,这表明它们之间的关系不太可能是由于随机因素导致的。
●但是,对于一些行业(如"others”) ,相关性可能不太显著,因为值较小,p值较大。
3.相关性方向:
●大多数行业之间的相关性是正向的,即平均工资随着时间的推移而同时增加或减少。这可以通过相关系数为正值来确定。
综上所述,这些结果暗示着各行业之间的平均工资具有较强的正相关性,这可能是由于宏观经济因素市场趋势或政策变化等因素的影响。

地区工资

在这里插入图片描述

结论

1.相关性强度:
●各地区之间的平均工资存在较强的正相关性。例如,"beijing"和"tianjin"之间的相关系数为0.9992, “zhejang"和"shandong"之间的相关 系数为0.9951。这表明不同地区之间的平均工资很可能随着时间的推移而同时增加或减少。
2.显著性检验:
●大多数地区之间的平均工资相关性都是显著的,这表明它们之间的关系不太可能是由于随机因素导致的。
●但是,对于一些地区(如"xizang"和"qinghai”) ,相关性可能不太显著,因为t值较小,p值较大。
3.相关性方向:
●大多数地区之间的相关性是正向的,即平均工资随着时间的推移而同时增加或减少。这可以通过相关系数为正值来确定。
综上所述,这些结果暗示着各地区之间的平均工资具有较强的正相关性,这可能是由于宏观经济因素、地区发展水平、人口密度等因素的影响。

7、回归分析与检验

行业工资

(1)一元线性回归及显著性检验

代码分析

在这里插入图片描述

各行业的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论——以government为例

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

1.方程:
●模型的回归方程是:政府部门]平均工资= -927516.1 + 468.0*年份。
●这意味着政府部门平均工资的截距为-927516.1,每年平均增加468.0。
2.拟合优度:
●模型的多重决定系数为0.7935,表示约79.35%的政府部门平均工资的变异性可以通过年份来解释。
●考虑到模型中的自变数量,调整后的决定系数为0.779,说明模型的拟合效果良好。
3.回归系数:
●年份的回归系数为0.8908,示每年政府部]平均工资的预期增加量。
●对于年份的回归系数进行的t检验显示,这个系数是显著的(p值为3.7e-06) , 表明年份对政府部门平均工资的影响是显著的。
4.方差分析:
●方差分析表明年份对政府部门平均工资的影响是显著的(p值为3.7e-06) 。

综上所述,该模型表明政府部门平均工资随着时间的推移呈上升趋势,且时间对政府部门]平均工资的影响是显著的。

剩余十五个结果结构同上,不再赘述

(2)回归结果可视化

散点图代表真实值,线条表示回归方程
在这里插入图片描述

从图中不难发现这并不是一个理想的模型

(3)改进——三次多项式回归及显著性检验

代码结构同上

在这里插入图片描述

各行业的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论——以government为例

在这里插入图片描述
在这里插入图片描述
1.回归方程:
●模型的回归方程是:政府部门平均工资= 4873.2 + 12254.9年份- 6087.8年份^2 + 839.3*年份^3。
●这个方程包含了年份的三次多项式,因此可以更灵活地拟合数据。
2.拟合优度:
●模型的多重决定系数为0.993,表示约99.3%的政府部i ]平均工资的变异性可以通过这个多项式模
型来解释。
●调整后的决定系数为0.991,说明模型的拟合效果非常好。
3.回归系数: .
●poly(年份, 3)1对应的回归系数为0.8908,表示政府部门]平均工资随时间的增加量。
●poly(年份, 3)2对应的回归系数为0.4425,表示政府部门]平均工资随时间的增加速度的变化。
●poly(年份, 3)3对应的回归系数为0.0610,表示政府部门]平均工资随时间增加速度的变化率的变化
率。
4.方差分析: .
●F-statistic为573, p-value为3.26e-13, 表明模型的回归方程显著。

综上所述,这个多项式回归模型说明政府部门]平均工资随着时间的推移呈现出非线性的变化趋势,且模型的拟合效果非常好,可以很好地解释数据的变化。

(4)改进后的回归结果可视化

在这里插入图片描述
明显拟合效果提高

地区工资

(1)一元线性回归及显著性检验

代码结构同上不再赘述

各地区的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论

在这里插入图片描述
在这里插入图片描述

结论

1.回归方程:
●模型的回归方程是:地区平均工资= -886959.1 + 447.2★年份。
●这个方程表示地区平均工资随着年份的增加而增加,斜率为447.2, 表示每年平均工资增加447.2单
位。
2.拟合优度:
●模型的决定系数为0.903,表示约90.3%的地区平均工资的变异性可以通过这个线性模型来解释。
●调整后的决定系数为0.897,说明模型的拟合效果较好。
3.归系数:
●年份的回归系数为0.9505,表示地区平均工资随时间的增加量。
4.差分析:
●F-statistic为150, p-value为1.55e-09, 表明模型的回归方程显著。
5.复相关系数:
●数据的复相关系数为0.9505,表示年份与地区平均工资之间存在着强相关性。
综上所述,这个线性回归模型说明不同地区平均工资随着时间的推移呈现出线性增长的趋势,且模型的
拟合效果良好,可以很好地解释数据的变化。

(2)回归结果可视化

在这里插入图片描述

(3)改进——三次多项式回归

各地区的标准回归系数汇总对比

在这里插入图片描述

结果分析与结论

在这里插入图片描述
在这里插入图片描述

结论

1.回归方程:
●模型的回归方程是:西藏地区平均工资= 7269 + 26461年份+ 10355年份^2 + 3762*年份^3。
●这个方程表示西藏地区平均工资随着年份的增加而增加,且呈现出三次多项式的形式。
2.拟合优度:
●模型的决定系数为0.9799,表示约98.0%的西藏地区平均工资的变异性可以通过这个三次多项式模型来解释。
●调整后的决定系数为0.976,说明模型的拟合效果较好。
3.回归系数:
●模型中年份的各次项的回归系数为:
●年份: 0.9139
●年份^2: 0.3576
●年份^3:0.1299
●这些系数表示了年份与西藏地区平均工资之间的关系,以及年份的各次方对平均工资的影响。
4.方差分析:
●F-statistic为228, p-value为4.06e-12, 表明模型的回归方程显著。
5.复相关系数:
●模型的多项式数据复相关系数为0.9899,表示年份与西藏地区平均工资之间存在着强相关性。

综上所述,这个三次多项式回归模型说明西藏地区平均工资随着时间的推移呈现出一种复杂的非线性变化趋势,并且模型的拟合效果良好,可以很好地解释数据的变化。

(4)改进后的回归结果可视化

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/6747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

list 的模拟实现

目录 1. list 的实现框架 2. push_back 3. 迭代器 4. constructor 4.1. default 4.2. fill 4.3. range 4.4. initializer list 5. insert 6. erase 7. clear 和 destructor 8. copy constructor 9. operator 10. const_iterator 10.1. 普通人的处理方案 10.2. …

数据库复习1

1.试述数据、数据库、数据库管理系统、数据库系统的概念 1.数据(Data): 数据是关于事物的符号表示或描述。它可以是任何事实、观察或者测量的结果,如数字、字符、声音、图像等。数据在没有上下文的情况下可能没有明确的意义。 2.数据库(Database): 数据库是一个持…

Linux——socket编程之tcp通信

前言 前面我们学习socket的udp通信,了解到了socket的概念与udp的实现方法,今天我们来学习一下面向连接的tcp通信。 一、tcp套接字创建 UDP和TCP都是通过套接字(socket)来实现通信的,因此TCP也得使用socket()接口创建…

时间复杂度_空间复杂度

时间复杂度_空间复杂度 1.算法效率 算法效率分析分为两种:第一种是时间效率,第二种是空间效率。 时间效率被称为时间复杂度,而空间效率被称作空间复杂度。时间复杂度主要衡量的是一个算法的运行速度,而空间复杂度主要衡量一个算法所需要的…

C#技巧之同步与异步

区别 首先,同步就是程序从上往下顺序执行,要执行完当前流程,才能往下个流程去。 而异步,则是启动当前流程以后,不需要等待流程完成,立刻就去执行下一个流程。 同步示例 创建一个窗体,往窗体里…

2131 - 枚举-练习-涂国旗

2131 - 枚举-练习-涂国旗 c刷题 超能力编程 分析 枚举涂w的底边和涂b的底边即可 剩下的部分都涂r 数据范围这么小,暴力枚举,代码简单难度低。搜索什么的用不着啦! 那么问题来了:怎么枚举呢? 我们只要枚举白与蓝、蓝与红的边界&…

【DPU系列之】DPU中的ECPF概念是什么?全称是什么?(E CPF对标H CPF;embedded CPU function ownership)

ECPF:embedded CPU function ownership。 嵌入式CPU运转ownership。也叫DPU模式,是DPU工作运转3种模式之一,也是默认的模式。这里的嵌入式CPU指的是DPU上ARM CPU,表示网卡所有资源和功能被embedded CPU全权管理,行使所…

【动态规划】投资问题

本文利用markdown基于https://blog.csdn.net/qq_41926985/article/details/105627049重写,代码部分为本人编辑 代码要求 应用动态规划方法,求解投资问题,实现下面的例子。 #define MAX_N 4 //最大投资项目数目 #define MAX_M 5 //最大投资钱数(万元) /…

【机器视觉】yolo-world-opencvsharp-.net4.8 C# 窗体应用程序

这段代码是基于 OpenCvSharp, OpenVinoSharp 和 .NET Framework 4.8 的 Windows Forms 应用程序。其主要目的是加载和编译机器学习模型,对输入数据进行推理,并显示结果。 下面是该程序的主要功能和方法的详细总结: 初始化 OpenVINO 运行时核心…

基于Pytorch深度学习——卷积神经网络(卷积层/池化层/多输入多输出通道/填充和步幅/)

本文章来源于对李沐动手深度学习代码以及原理的理解,并且由于李沐老师的代码能力很强,以及视频中讲解代码的部分较少,所以这里将代码进行尽量逐行详细解释 并且由于pytorch的语法有些小伙伴可能并不熟悉,所以我们会采用逐行解释小…

【DPU系列之】如何通过带外口登录到DPU上的ARM服务器?(Bluefield2举例)

文章目录 1. 背景说明2. 详细操作步骤2.1 目标拓扑结构2.2 连接DPU带外口网线,并获取IP地址2.3 ssh登录到DPU 3. 进一步看看系统的一些信息3.1 CPU信息:8核A723.2 内存信息 16GB3.3 查看ibdev设备 3.4 使用小工具pcie2netdev查看信息3.5 查看PCIe设备信息…

python笔记:gensim进行LDA

理论部分:NLP 笔记:Latent Dirichlet Allocation (介绍篇)-CSDN博客 参考内容:DengYangyong/LDA_gensim: 用gensim训练LDA模型,进行新闻文本主题分析 (github.com) 1 导入库 import jieba,os,re from ge…

【云原生】Docker 的网络通信

Docker 的网络通信 1.Docker 容器网络通信的基本原理1.1 查看 Docker 容器网络1.2 宿主机与 Docker 容器建立网络通信的过程 2.使用命令查看 Docker 的网络配置信息3.Docker 的 4 种网络通信模式3.1 bridge 模式3.2 host 模式3.3 container 模式3.4 none 模式 4.容器间的通信4.…

Stream流操作

看到Stream流这个概念,我们很容易将其于IO流联系在一起,事实上,两者并没有什么关系,IO流是用于处理数据传输的,而Stream流则是用于操作集合的。 当然,为了方便我们区分,我们依旧在这里复习一下…

长期找 AI 专家,邀请参加线上聊天直播

诚邀 AI 专家参加线上聊天,成为嘉宾。 分享前沿观点、探讨科技和生活 除节假日外,每周举办在线聊天直播 根据话题和自愿形式结合,每期 2~3 位嘉宾 成为嘉宾,见下:

ADS软件(PathWave 先进设计系统软件)分享与安装

ADS软件的简介 ADS软件(Advanced Design System)主要用于射频(RF)、微波(Microwave)和毫米波(Millimeter-wave)电路的设计、仿真和分析。它提供了一套强大的工具和功能,…

Angular进阶-NVM管理Node.js实现不同版本Angular环境切换

一、NVM介绍 1. NVM简介 Node Version Manager(NVM)是一个用于管理多个Node.js版本的工具。它允许用户在同一台机器上安装和使用多个Node.js版本,非常适合需要同时进行多个项目的开发者。NVM是开源的,支持MacOS、Windows和Linux…

【解决】docker一键部署报错

项目场景见:【记录】Springboot项目集成docker实现一键部署-CSDN博客 问题: 1.docker images 有tag为none的镜像存在。 2.有同事反馈,第一次启动docker-compose up -d 项目无法正常启动。后续正常。 原因: 1.服务中指定了镜像m…

Jackson-jr 对比 Jackson

关于Jackson-jr 对比 Jackson 的内容,有人在做了一张下面的图。 简单点来说就 Jackson-jr 是Jackson 的轻量级应用,因为我们在很多时候都用不到 Jackson 的很多复杂功能。 对很多应用来说,我们可能只需要使用简单的 JSON 读写即可。 如我们…

【Linux网络】网络文件共享

目录 一、存储类型 二、FTP文件传输协议 2.1 FTP工作原理 2.2 FTP用户类型 2.3 FTP软件使用 2.3.1 服务端软件vsftpd 2.3.2 客户端软件ftp 2.4 FTP的应用 2.4.1 修改端口号 2.4.2 匿名用户的权限 2.4.3 传输速率 三、NFS 3.1 工作原理 3.2 NFS软件介绍 3.3 NFS配…