大数据分析案例-基于决策树算法构建大学毕业生薪资预测模型

🤵‍♂️ 个人主页:@艾派森的个人主页

✍🏻作者简介:Python学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+


喜欢大数据分析项目的小伙伴,希望可以多多支持该系列的其他文章

大数据分析案例合集
大数据分析案例-基于随机森林算法预测人类预期寿命
大数据分析案例-基于随机森林算法的商品评价情感分析
大数据分析案例-用RFM模型对客户价值分析(聚类)
大数据分析案例-对电信客户流失分析预警预测
大数据分析案例-基于随机森林模型对北京房价进行预测
大数据分析案例-基于RFM模型对电商客户价值分析
大数据分析案例-基于逻辑回归算法构建垃圾邮件分类器模型
大数据分析案例-基于决策树算法构建员工离职预测模型

大数据分析案例-基于KNN算法对茅台股票进行预测

大数据分析案例-基于多元线性回归算法构建广告投放收益模型
大数据分析案例-基于随机森林算法构建返乡人群预测模型
大数据分析案例-基于决策树算法构建金融反欺诈分类模型

目录

1.项目背景

2.项目简介

2.1项目说明

2.2数据说明

2.3技术工具

3.算法原理

4.项目实施步骤

4.1理解数据

4.2数据预处理

4.3探索性数据分析

4.3.1各个大学的平均薪资

4.3.2平均薪资最高的前十名岗位

4.3.3平均薪资最低的前十名岗位

4.3.4每年的平均薪资水平

4.4特征工程

4.5模型构建

4.6特征重要性

4.7模型预测

5.实验总结

源代码 


1.项目背景

        随着高等教育的普及和社会经济的发展,大学毕业生就业成为社会关注的焦点之一。对于大学毕业生而言,选择何种专业和职业路径往往会直接影响其未来的职业发展和薪资水平。因此,通过构建一个能够预测大学毕业生薪资的模型,可以为学生提供更明智的职业规划和决策支持,也能为用人单位提供更科学的人才招聘依据。

        决策树算法因其简单、易解释、能够处理非线性关系等特点,在数据挖掘和机器学习领域得到了广泛应用。通过构建基于决策树的大学毕业生薪资预测模型,可以充分利用该算法对各种变量之间复杂关系的建模能力,实现对薪资水平的准确预测。

        当前社会,大学毕业生的就业形势具有多样性和复杂性,受到多方面因素的影响,包括但不限于所学专业、学历水平、实习经验、地理位置、行业需求等。因此,借助决策树算法进行大学毕业生薪资预测,有助于深入挖掘各种影响因素之间的关系,为个体制定更为个性化的职业规划提供科学依据。

        此外,通过对毕业生薪资的预测,还能够为高校提供有针对性的培养方案,更好地迎合社会对各类专业人才的需求,促进教育与用人需求的对接。同时,用人单位在招聘时也能更准确地评估不同专业和背景的毕业生的薪资水平,提高用人效率。

        综上所述,基于决策树算法构建大学毕业生薪资预测模型,既符合当前社会对高等教育与就业关系深度对接的需求,也为个体和社会提供了更为准确的信息和决策支持。

2.项目简介

2.1项目说明

        本实验旨在对2009年-2020年各大学各学院的毕业生平均薪资数据进行分析挖掘,这一研究有望在提高大学毕业生职业发展水平、促进高校与用人单位合作、优化人才流动与分配等方面发挥积极作用。

2.2数据说明

        数据来源于Kaggle,原始数据共有14470行,6个变量,各变量含义如下:

Year:年份

Name:名称

Primary Job Title:主要岗位名称

Base Pay:基本薪资

Department:学院

College:大学

2.3技术工具

Python版本:3.9

代码编辑器:jupyter notebook

3.算法原理

        决策树( Decision Tree) 又称为判定树,是数据挖掘技术中的一种重要的分类与回归方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。一般,一棵决策树包含一个根节点,若干个内部结点和若干个叶结点。叶结点对应于决策结果,其他每个结点对应于一个属性测试。每个结点包含的样本集合根据属性测试的结果划分到子结点中,根结点包含样本全集,从根结点到每个叶结点的路径对应了一个判定的测试序列。决策树学习的目的是产生一棵泛化能力强,即处理未见示例强的决策树。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。

决策树的构建

特征选择:选取有较强分类能力的特征。

决策树生成:典型的算法有 ID3 和 C4.5, 它们生成决策树过程相似, ID3 是采用信息增益作为特征选择度量, 而 C4.5 采用信息增益比率。

决策树剪枝:剪枝原因是决策树生成算法生成的树对训练数据的预测很准确, 但是对于未知数据分类很差, 这就产生了过拟合的现象。涉及算法有CART算法。

决策树的划分选择

熵:物理意义是体系混乱程度的度量。

信息熵:表示事物不确定性的度量标准,可以根据数学中的概率计算,出现的概率就大,出现的机会就多,不确定性就小(信息熵小)。

决策树的剪枝

剪枝:顾名思义就是给决策树 "去掉" 一些判断分支,同时在剩下的树结构下仍然能得到不错的结果。之所以进行剪枝,是为了防止或减少 "过拟合现象" 的发生,是决策树具有更好的泛化能力。

具体做法:去掉过于细分的叶节点,使其回退到父节点,甚至更高的节点,然后将父节点或更高的叶节点改为新的叶节点。

剪枝的两种方法:

预剪枝:在决策树构造时就进行剪枝。在决策树构造过程中,对节点进行评估,如果对其划分并不能再验证集中提高准确性,那么该节点就不要继续王下划分。这时就会把当前节点作为叶节点。

后剪枝:在生成决策树之后再剪枝。通常会从决策树的叶节点开始,逐层向上对每个节点进行评估。如果剪掉该节点,带来的验证集中准确性差别不大或有明显提升,则可以对它进行剪枝,用叶子节点来代填该节点。

注意:决策树的生成只考虑局部最优,相对地,决策树的剪枝则考虑全局最优。

4.项目实施步骤

4.1理解数据

首先导入本次实验用到的第三方库和数据

查看数据大小

查看数据基本信息

查看数值型变量描述性统计

查看非数值型变量描述性统计

4.2数据预处理

统计数据的缺失值情况

从结果可以发现原始数据集并不存在缺失值,故不需要处理

检测原始数据中是否存在重复值

从结果发现为False,说明不存在重复值,故不需要处理

4.3探索性数据分析

4.3.1各个大学的平均薪资

4.3.2平均薪资最高的前十名岗位

4.3.3平均薪资最低的前十名岗位

4.3.4每年的平均薪资水平

4.4特征工程

这里需要进行编码处理

4.5模型构建

首先拆分数据集为测试集和训练集,测试集比例为0.2

定义一个评估模型的函数

构建线性回归模型

构建决策树模型

构建GBDT模型

4.6特征重要性

4.7模型预测

从图中可以看出,模型预测的效果好不错。

5.实验总结

        通过基于决策树算法的大学毕业生薪资预测模型的构建和研究,我们深入探讨了影响毕业生薪资水平的多种因素之间的复杂关系。该模型不仅在预测准确性上表现出色,而且具有良好的可解释性,有助于为大学生提供更科学的职业规划建议,同时为用人单位提供更精准的招聘决策支持。

        在实验中,通过决策树算法,我们成功地建立了一个能够捕捉这些信息之间关系的模型,从而实现了对毕业生薪资的准确预测。模型的优势在于它不仅能够对每个因素的重要性进行排序,还能够直观地呈现各个决策节点,为决策者提供了清晰的决策路径。

        总体而言,基于决策树算法的大学毕业生薪资预测模型为高校、毕业生和用人单位提供了一个有力的决策工具,有助于实现更加精准的人才匹配,推动高等教育与职业市场更好地协同发展。未来的研究可以进一步探索模型的泛化能力和适应性,以应对变化多端的就业市场和职业发展环境。

心得与体会:

通过这次Python项目实战,我学到了许多新的知识,这是一个让我把书本上的理论知识运用于实践中的好机会。原先,学的时候感叹学的资料太难懂,此刻想来,有些其实并不难,关键在于理解。

在这次实战中还锻炼了我其他方面的潜力,提高了我的综合素质。首先,它锻炼了我做项目的潜力,提高了独立思考问题、自我动手操作的潜力,在工作的过程中,复习了以前学习过的知识,并掌握了一些应用知识的技巧等

在此次实战中,我还学会了下面几点工作学习心态:

1)继续学习,不断提升理论涵养。在信息时代,学习是不断地汲取新信息,获得事业进步的动力。作为一名青年学子更就应把学习作为持续工作用心性的重要途径。走上工作岗位后,我会用心响应单位号召,结合工作实际,不断学习理论、业务知识和社会知识,用先进的理论武装头脑,用精良的业务知识提升潜力,以广博的社会知识拓展视野。

2)努力实践,自觉进行主角转化。只有将理论付诸于实践才能实现理论自身的价值,也只有将理论付诸于实践才能使理论得以检验。同样,一个人的价值也是透过实践活动来实现的,也只有透过实践才能锻炼人的品质,彰显人的意志。

3)提高工作用心性和主动性。实习,是开端也是结束。展此刻自我面前的是一片任自我驰骋的沃土,也分明感受到了沉甸甸的职责。在今后的工作和生活中,我将继续学习,深入实践,不断提升自我,努力创造业绩,继续创造更多的价值。

这次Python实战不仅仅使我学到了知识,丰富了经验。也帮忙我缩小了实践和理论的差距。在未来的工作中我会把学到的理论知识和实践经验不断的应用到实际工作中,为实现理想而努力。

源代码 

import pandas as pd
import matplotlib.pylab as plt
import numpy as np
import seaborn as sns
sns.set(font='SimHei')
plt.rcParams['font.sans-serif'] = ['SimHei'] #解决中文显示
plt.rcParams['axes.unicode_minus'] = False   #解决符号无法显示
import warnings
warnings.filterwarnings('ignore')data = pd.read_csv('大学薪资数据集.csv') # 加载数据集
data.head() # 查看数据前五行
data.shape
data.info()
data.describe()
data.describe(include='O')
data.isnull().sum()
any(data.duplicated())
# 各个大学的平均薪资
data.groupby('College')['Base Pay'].mean().plot(kind='bar')
plt.title('各个大学的平均薪资')
plt.show()
# 平均薪资最高的前十名岗位
data.groupby('Primary Job Title')['Base Pay'].mean().sort_values(ascending=False).head(10)[::-1].plot(kind='barh')
plt.title('平均薪资最高的前十名岗位')
plt.xlabel('平均薪资')
plt.show()
# 平均薪资最低的前十名岗位
data.groupby('Primary Job Title')['Base Pay'].mean().sort_values(ascending=False).tail(10)[::-1].plot(kind='barh')
plt.title('平均薪资最低的前十名岗位')
plt.xlabel('平均薪资')
plt.show()
# 每年的平均薪资水平
data.groupby('Year')['Base Pay'].mean().plot()
plt.title('每年平均薪资折线图')
plt.ylabel('平均薪资')
plt.show()
# 特征工程-编码处理
from sklearn.preprocessing import LabelEncoder
for col in data.describe(include='O').columns.to_list():data[col] = LabelEncoder().fit_transform(data[col])
data.head()
from sklearn.model_selection import train_test_split
# 准确数据
data['Base Pay'] = data['Base Pay'].astype(dtype='int')
X = data.drop('Base Pay',axis=1)
y = data['Base Pay']
# 划分数据集
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=42)
print('训练集大小:',X_train.shape[0])
print('测试集大小:',X_test.shape[0])
from sklearn.metrics import r2_score,mean_absolute_error,mean_squared_errordef train_model(ml_model):print("Model is: ", ml_model)model = ml_model.fit(X_train, y_train)print("Training score: ", model.score(X_train,y_train))predictions = model.predict(X_test)r2score = r2_score(y_test, predictions)print("r2 score is: ", r2score)print('MAE:', mean_absolute_error(y_test,predictions))print('MSE:', mean_squared_error(y_test,predictions))print('RMSE:', np.sqrt(mean_squared_error(y_test,predictions)))# 真实值和预测值的差值sns.distplot(y_test - predictions)
# 构建多元线性回归模型
from sklearn.linear_model import LinearRegression
lg = LinearRegression()
train_model(lg)
# 决策树回归
from sklearn.tree import DecisionTreeRegressor
tree = DecisionTreeRegressor()
train_model(tree)
# GBDT
from sklearn.ensemble import GradientBoostingRegressor
gbdt = GradientBoostingRegressor()
train_model(gbdt)
#打印特征重要性评分
feat_labels = X_train.columns[0:]
importances = gbdt.feature_importances_
indices = np.argsort(importances)[::-1]
index_list = []
value_list = []
for f,j in zip(range(X_train.shape[1]),indices):index_list.append(feat_labels[j])value_list.append(importances[j])print(f + 1, feat_labels[j], importances[j])
plt.figure(figsize=(10,6))
plt.barh(index_list[::-1],value_list[::-1])
plt.yticks(fontsize=12)
plt.title('各特征重要程度排序',fontsize=14)
plt.show()
# 使用决策树模型预测并可视化
plt.figure(figsize=(10,6))  
y_pred = tree.predict(X_test)
plt.plot(range(len(y_test))[:200],y_pred[:200],'b',label='预测值')
plt.plot(range(len(y_test))[:200],y_test[:200],'r',label='真实值')
plt.legend(loc='upper right',fontsize=15)
plt.xlabel('the number of People',fontdict={'weight': 'normal', 'size': 15})
plt.ylabel('value of Salary',fontdict={'weight': 'normal', 'size': 15})
plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/773660.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端发版上线出现白屏问题

目录 路由配置问题资源缓存问题首屏加载过慢 :喂,你的页面白啦! 出现上线白屏的问题有很多,如:配置错误、缓存问题、浏览器兼容问题,根据不同情况去解决。 路由配置问题 问题描述: 在vue开发…

C语言中位运算介绍

在C语言中,位运算是一种对二进制位进行操作的运算方式,它可以对数据的二进制表示进行位级别的操作,包括按位与、按位或、按位异或、按位取反等。位运算常用于处理底层数据结构、优化代码性能以及实现各种算法。本文将深入介绍C语言中的位运算…

两区域二次调频风火机组,麻雀启发式算法改进simulink与matlab联合

区域1结果 区域2结果 红色曲线为优化后结果〔风火机组二次调频〕

软件杯 深度学习+opencv+python实现车道线检测 - 自动驾驶

文章目录 0 前言1 课题背景2 实现效果3 卷积神经网络3.1卷积层3.2 池化层3.3 激活函数:3.4 全连接层3.5 使用tensorflow中keras模块实现卷积神经网络 4 YOLOV56 数据集处理7 模型训练8 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 &am…

鸿蒙操作系统-初识

HarmonyOS-初识 简述安装配置hello world1.创建项目2.目录解释3.构建页面4.真机运行 应用程序包共享包HARHSP 快速修复包 官方文档请参考:HarmonyOS 简述 1.定义:HarmonyOS是分布式操作系统,它旨在为不同类型的智能设备提供统一的操作系统&a…

电脑windows 蓝屏【恢复—无法加载操作系统,原因是关键系统驱动程序丢失或包含错误。.......】

当你碰到下图这种情况的电脑蓝屏,先别急着重装系统,小编本来也是想重装系统的,但是太麻烦,重装系统后你还得重装各种软件,太麻烦了!! 这种情况下,你就拿出你的启动U盘,进…

2016国赛-路径之谜

分析: 看到n*n以及四个方向移动,那么就直接使用dfs即可。根据题意可知起始位置是(0,0),终点位置是(n-1,n-1)。 又有要求靶子上的箭数决定了走的路径,那么我们就要加一个判断各个方位的箭数是否符合要求。 示例代码: …

JVM之堆

堆的核心概述 一个JVM实例只存在一个堆内存,堆也是内存管理的核心区域。 Java堆区在JVM启动的时候即被创建,其空间大小也就确定了。是JVM管理的最大一块内存空间。 堆内存的大小是可以调节的。 《JVM虚拟机规范》规定,堆可以处于物理上不连…

Pillow教程04:学习ImageDraw+Font字体+alpha composite方法,给图片添加文字水印

---------------Pillow教程集合--------------- Python项目18:使用Pillow模块,随机生成4位数的图片验证码 Python教程93:初识Pillow模块(创建Image对象查看属性图片的保存与缩放) Pillow教程02:图片的裁…

盲盒小程序开发,互联网盲盒下的潜在发展优势

近几年,我国潮玩市场经历了爆发式的发展阶段,尤其是盲盒市场屡创新高!盲盒商品主打IP衍生品、周边等具有收藏价值的商品,深受市场的追捧,满足了不同年龄群体的需求。面对盲盒的蓝海市场,众多的品牌也纷纷加…

Altium Designer的差分对布线走线技巧及规则设置

AD的PCB页面是有差分对布线的工具的,这种工具的使用首先需要自己添加差分对,才能进行交互式差分对布线: 在原理图中放置差分对标识,其中差分对要以_P和_N结尾来命名: 在原理图中放置差分对: 差分对在PCB中的…

浏览器导出excel

做java web项目时&#xff0c;经常遇到需要在页面上点击导出按钮&#xff0c;然后直浏览器接下载下来一个excel文档。 比如一个List<Person>的集合&#xff0c;需要将每个Person当做一行&#xff0c;输出到excel中去。其中Person实体类如下&#xff1a; import lombok.…

selenium元素定位--xpath定位--层级与逻辑组合定位

其他元素非唯一时&#xff0c;又不想用xpath绝对定位时&#xff0c;需要用到层级与逻辑定位. 一、层级属性结合定位&#xff1a; 遇到元素没有class、name、id等或属性动态变化情况时&#xff0c;可以找父节点元素&#xff0c;父级节点没有id时&#xff0c;可以继续往上找id&…

✨一键释放手机空间,让生活更流畅——手机清理大师超实用体验分享

&#x1f4dd;亲爱的朋友们&#xff0c;你是否也曾为手机里堆积如山的照片、杂乱无章的相册和不断提醒存储不足的问题而头疼不已呢&#xff1f;今天给大家安利一款我近期爱不释手的神器——手机清理大师&#xff0c;它就如同你的手机专属大扫除小能手&#xff0c;让你的手机瞬间…

Python爬虫:爬虫基本概念、流程及https协议

本文目录&#xff1a; 一、爬虫的基本概念1.为什么要学习爬虫1.1 数据的来源1.2 爬取到的数据用途 2.什么是爬虫3. 爬虫的更多用途 二、爬虫的分类和爬虫的流程1.爬虫的分类2.爬虫的流程3.robots协议 三、爬虫http和https1.http和https的概念2.浏览器发送HTTP请求的过,2.1 http…

数据分析面试题(41~50)

41、lstm的原理、lstm和rnn的区别 ①LSTM是一种常用于处理序列数据的循环神经网络&#xff08;RNN&#xff09;架构&#xff0c;特别适用于长序列的建模。其主要特点是通过门控机制来控制信息的流动&#xff0c;从而有效地解决了传统RNN在处理长序列时的梯度消失或爆炸的问题。…

Git学习笔记之基础

本笔记是阅读《git pro》所写&#xff0c;仅供参考。 《git pro》网址https://git-scm.com/book/en/v2 git官网 https://git-scm.com/ 一、git起步 1.1、检查配置信息 git config --list查看所有的配置以及它们所在的文件 git config --list --show-origin可能有重复的变量名…

云原生最佳实践系列 3:基于 SpringCloud 应用玩转 MSE

概述 随着业务不断创新&#xff0c;大型的单个应用和服务会被拆分为数个甚至数十个微服务&#xff0c;微服务架构已经被广泛应用。微服务的好处在于快速迭代&#xff0c;迭代过程保障线上流量不受损。依赖开源产品缺少专业运维工具&#xff0c;常常需要投入较大的运维人力和成…

SCI一区 | Matlab实现WOA-TCN-BiGRU-Attention鲸鱼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测

SCI一区 | Matlab实现WOA-TCN-BiGRU-Attention鲸鱼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测 目录 SCI一区 | Matlab实现WOA-TCN-BiGRU-Attention鲸鱼算法优化时间卷积双向门控循环单元融合注意力机制多变量时间序列预测预测效果基本介绍模型描述程序…

Matter - nordic 自定义开发(4)

nRF Connect SDK 和 Matter SDK 的 matter 协议版本 nRF Connect SDK&#xff08;NCS&#xff09;是 Nordic 官方维护的&#xff0c;里面包含某个版本的 Matter SDK。Matter SDK 为 CSA 联盟维护的&#xff0c;里面包含各平台的SDK&#xff0c;其中包含了某个版本的 NCS。 需…