腾讯文档】2023年大数据挑战赛资料说明
https://docs.qq.com/doc/DSEpWUVFySm1ObFB0
基于数据分析的行业职业技术培训能力评价
摘要
中国是制造业大国,产业门类齐全,每年需要培养大量的技能娴熟的技术工人进入工厂。本文将基于题目给出的数据,对行业职业技术培训能力分型分析总结,实现在对不同类型的培训学校进行公正合理的培训能力评价。
问题一,入校与离校考核成绩关联性分析问题。首先,需要对于题目给出的数据进行初步数据清洗,检查数据完整性并判定数据分布方式。利用处理后的数据,根据数据分布方式的结果使用皮尔逊相关系数计算各技能入校与离校考核成绩之间的关联性。并绘制矩阵热力图增加结果的可视化。
问题二,培训学校培训能力评估。题目需要我们对不同类型下的学校分别进行排名。首先,我们进行构建指标评价体系,以平均进步幅度、合格率、培训质量稳定性指标、学生质量指标、进步学员比例、培训质量指标作为评价不用类型下学校的指标。根据各指标的定义进行数据整理,清洗工作,最终建立主成分分析模型对不同类型的学校进行评价。
问题三,培训学校技能培训特色识别。题目需要我们对不同技能下的学校分别进行排名。与问题二构建评价模型的思路相同,首先仿照问题二采用不用技能的平均进步幅度、合格率、培训质量稳定性指标、学生质量指标、进步学员比例、培训质量指标作为评价指标。对数据进行整理、清洗,构建主成分分析模型对不同技能的学校进行评价。
问题四,职业资格证书颁发影响因素分析及预测。首先进行阈值划分,设定离校考核总分成绩前一万名可以获得职业资格证书。其中,前25%的人群即前2500名为一级职业资格证,2500-10000名为二级职业资格证。根据阈值划分结果,得出0.55176为阈值划定分数。我们利用初始数据计算学生所在学校排名作为学生评价指标,学校排名作为学校评价指标,学生入学成绩作为基本情况对十个样本各技能离校分数进行预测。根据历史数据,建立各技能离校分数与离校考核总分成绩的回归模型,对这是十个样本的离校考核总分成绩进行预测。根据预测值进行最终职业资格证判定。
关键词:行业职业技术培训能力评价、评价模型、数据清洗
本次竞赛助攻主要内容有 (全网首发、质量超高、性价比第一{欢迎比较})
28页论文 正文15000字(无附录)
二等奖奖层次,每个问题上中下三册,可保奖,可稳二,
44组 完全可运行代码+B站全部讲解
2.4 问题四分析
问题四,职业资格证书颁发影响因素分析及预测。首先进行阈值划分,设定离校考核总分成绩前一万名可以获得职业资格证书。其中,前25%的人群即前2500名为一级职业资格证,2500-10000名为二级职业资格证。根据阈值划分结果,得出0.55176为阈值划定分数。我们利用初始数据计算学生所在学校排名作为学生评价指标,学校排名作为学校评价指标,学生入学成绩作为基本情况对十个样本各技能离校分数进行预测。根据历史数据,建立各技能离校分数与离校考核总分成绩的回归模型,对这是十个样本的离校考核总分成绩进行预测。根据预测值进行最终职业资格证判定。
为了更加直观的展示解题思路,我们绘制了思维导图如下所示
图2:思维导图
一、模型假设
为了方便模型的建立与模型的可行性,我们这里首先对模型提出一些假设,使得模型更加完备,预测的结果更加合理。
1.假设给出的数据均为真实数据,真实有效。
2.假设对于一些较为异常的数据的出现具有一定的合理性。
3.假设每个学员的成绩是独立的,即一个学员的表现不会影响到其他学员的表现。这使得数据分析时可以将每个学员的成绩作为独立观察来处理
4.假设经过初步的数据清洗后,数据是完整且准确的,忽略了可能存在的数据收集、记录过程中的偶发错误或遗漏。
5.在对培训质量稳定性进行评价时,假设培训学校在观测期间内的教学质量和方法是相对稳定的,没有因外部因素(如政策变动、师资更换等)发生显著变化。
注:当F是连续分布时,随机变量K的分布不依赖于F。
KS检验的结果通常是一个p值,如果p值小于显著性水平(一般为0.05),则拒绝原假设,即认为两个样本来自不同的分布。
我们需要对部分数据利用SPSS绘制Q-Q图以及进行 Kolmogorov-Smirnov 检验判定其分布方式,Kolmogorov-Smirnov 检验分析结果如下图所示: