大数据毕业设计Python+Spark知识图谱高考志愿推荐系统 高考数据分析 高考可视化 高考大数据 计算机毕业设计 机器学习 深度学习 人工智能 高考预测

意义

高考是中国的大学招生的学术资格考试,在目前看来,高考的考试类型有两种,一种是文理分科,另一种是新高考模式。传统的文理分科是将学生分成两个类型,一种是文科,除了语数外三门课以外需要学习政史地,理科相对应的就需要学习物化生。根据学生的高考成绩和每个大学在所对应省份的总体招生计划来分梯度划线,也就是我们常说的重本线,二本线和专科线。

高考填报志愿对每个考生都非常重要,每年全国有数百万家庭使用网络了解高考支援志愿信息并推荐填报志愿。对于很大一部分考生和家长来说,短时间了解全国数千所高等院校的招生标准、历史录取分数、专业要求等信息非常困难。往往由于信息的缺失或错误造成高考志愿与考生成绩之间的较大差异,对考生造成不可挽回的损失。

目前,全国大部分省(自治区、直辖市)都是高考成绩公布后开始填报志愿,大部分家长和考生仅仅利用招生考试机构公布志愿填报日程几天时间,从近2700所高校和500多个专业中做出选择,对很多毫无经验的家长和考生来说“难于上青天”。因为影响高考志愿因素太多,如考生职业生涯规划、个人和家庭情况、分数、院校、专业、城市、高考志愿政策规则、填报策略技巧、近3到5年录取数据、录取概率测算、就业情况等,如果仅在几天内通过传统手段,以手工查阅书籍材料,往往会因为资料难找、耗时长、易疲劳出错等原因,填报志愿和最终录取去向往往不尽如人意。

《中国青年报》社会调查中心发起的一项10万人参加的抽样调查,超过71.2%的人后悔当年的高考志愿。我们可以在新闻媒体或网络上看到很多志愿填报不科学的典型案例,其中很多是高材生。

2008年周某以青海省第三名的成绩被北京大学生命科学学院录取,两年后周某选择转学到了北京工业技师学院。2017年李某从中国科学技术大学退学补习,2018年高考以云南省理科第8名的好成绩拒绝清华大学和北京大学发出的邀请,选择了四川大学口腔专业。2017年广西理科高考第3名考生,填错高考志愿批次,最后通过征集获得录取。2017年浙江省646高分考生竟报考独立学院,全省被独立学院录取的600分以上考生多达9人。

现实中,还有很多高考过来人默默承受着高考志愿填报失误带来的痛,比如对专业不满意、对院校不满意、填错批次、错过填报时间、被退档、毕业后从事与自己所学专业毫无关联的工作等。

在本项目中主要研究的是传统文理分科的高考模式,因为这种模式有着大量的数据支撑,提供训练,能够高精度地做出预测。而新考高模式刚刚施行,其数据是不足以支撑训练,从而做出预测。高考录取填报推荐志愿方式,梯度志愿和混合录取,经过不断优化,平行志愿已成为了高考录取的主流,大部分省份都采取平行志愿,所以本次项目也就平行志愿的录取方式来进行研究。即分数优先,满足偏好的方式,所以本项目着重对学生位次进行研究。针对高考这一热门话题,国内外都有着不少的专家学者对其进行研究,在过去的实践中,人们往往选用经典的时间序列方法来解决预测高校录取问题,即利用近5年高校录取的分数线,名次求平均值来预测当年的分数线,但是利用时间序列预测,就必须保证时间序列的过去值、当前值、和未来值之间存在着某种确定的函数关系。所以这养的预测是不够精确,不够完善的。除了基于时间序列的预测以外,还有人通过录取线差法来对高考录取进行研究,所谓录取线差是指考生意向院校当年平均录取分数与其所在招生批次录取控制分数线的差值。但是,每年高考试卷难度有别,造成了各个院校各年度的录取分数可能发生较大的变化。

综合来看,基于协同过滤算法的高考志愿填报系统的相关研究在国内外都不多,未来的发展空间都很大。在未来的研究中可以结合数据分析、规划优化、机器学习和协同过滤推荐算法等领域的相关方法,利用Spark的大数据处理能力,设计和实现一套可行的高考志愿推荐系统。这将为考生提供更好的填报建议,提升高考志愿填报的准确性和个性化程度。

因此,我们使用软件工程面向对象的思想,开发一个高考志愿填报推荐系统,为高考结束的学生提供智能化推荐服务、往年报考信息可视化统计等,提高学生志愿填报的准确度,加深学生对往年报考信息的认识深度,有助于志愿的合理填报。

内容

  1. Python爬虫采集阳光高考近年高考数据约10-20万条作为分析数据集(含省控线、专业线、学校信息等)。
  2. 使用人工智能领域的知识进行高考志愿智能推荐,如协同过滤推荐算法、SVD神经网络混合推荐算法、MLP模型、知识图谱利器neo4j等。
  3. 采用neo4j图数据库,挖掘分数线、学校、专业之间的关系,借助d3.js以及springboot进行智能化、可视化关系图创建。
  4. 开发情感分析模块,用户可以对院校、专业进行点评。借助自然语言处理技术lstm人工智能模型,对评论进行情感分析。
  5. 使用springboot+vue.js+echarts制作智能化大屏,对高考数据进行多维度分析统计。
  6. 使用人工智能技术如线性回归算法、KNN卷积神经等知识对未来高考分数线进行预测。

要求

  1. 项目深度要求
  1. 海量完整高考数据的获取与整理;
  2. 深度学习模型对高考志愿进行推荐,优化传统的协同过滤算法,提高推荐精度。
  3. 借助Neo4j图数据库深度挖掘分数线、学校、专业之间的关系。
  4. 大表统计查询数据量较大,需要对mysql数据库进行优化如索引、引擎等。
  5. 将预测算法融合近年的分数数据进行预测。
  1. 技术要求
  1. 爬虫技术:python的requests、xpath模块等。
  2. 数据库技术:mysql关系型数据库、neo4j图数据库。
  3. 前端技术:vue.js、d3.js、echarts。
  4. 后端技术:springboot、mybatis-plus。
  5. 人工智能技术:svd神经网络、MLP模型、lstm模型等。

  1. 第1-3周熟悉题目,对的开发流程和使用进行熟悉和分析,完成开题报告、文献综述以及需求分析。
  2. 第4-5周完成总体设计,确定采集目标数据集,进行标签。完成web展示系统非核心功能。
  3. 第6-9周初步使用Python+Spark做预训练模型,形成协同过滤推荐算法脚本、卷积神经网络预测算法脚本。集成知识图谱到neo4j图数据库中。
  4. 第10-12周对将算法整合到web展示系统中,完成系统算法部分功能。
  5. 第13-16周根据系统设计过程中的记录文挡及其功能编写毕业论文。

核心算法代码分享如下:

--hdfs创建文件夹、上传CSV(linux上上传CSV到/data/zhibo然后再执行以下命令 -f表示覆盖)
hadoop dfs -mkdir -p /gaokao/ods_school
hadoop dfs -mkdir -p /gaokao/ods_special
hadoop dfs -mkdir -p /gaokao/ods_province
hadoop dfs -mkdir -p /gaokao/ods_ruanke_rank
hadoop dfs -mkdir -p /gaokao/ods_qs_world
hadoop dfs -mkdir -p /gaokao/ods_school_province_score
hadoop dfs -mkdir -p /gaokao/ods_school_special_scorehadoop dfs -put -f /data/gaokao/school.csv  /gaokao/ods_school/
hadoop dfs -put -f /data/gaokao/special.csv  /gaokao/ods_special/
hadoop dfs -put -f /data/gaokao/province.csv  /gaokao/ods_province/
hadoop dfs -put -f /data/gaokao/ruanke_rank.csv  /gaokao/ods_ruanke_rank/
hadoop dfs -put -f /data/gaokao/qs_world.csv  /gaokao/ods_qs_world/
hadoop dfs -put -f /data/gaokao/school_special_score.csv  /gaokao/ods_school_special_score/---hive学校表
drop table if exists ods_school;
create external table ods_school(id int ,school_id int  COMMENT '大学id',school_name string  COMMENT '大学',province_id int  COMMENT '省份id',province_name string  COMMENT '省份',city_id int  COMMENT '城市id',city_name string  COMMENT '城市',level string  COMMENT '学校等级',type string  COMMENT '类别 理工/综合/医学等',nature string  COMMENT '办学性质 公办/民办/独立',email string  COMMENT '邮箱地址',phone string  COMMENT '联系电话',site string  COMMENT '网址',address string COMMENT '联系地址',status int  COMMENT '状态 1抓取完成 0未抓取',ad string  COMMENT '广告位',hot int  COMMENT '热度',img string  COMMENT '图片',oid int  COMMENT '中国排名',label varchar(10000) COMMENT '大学描述'
) 
row format delimited fields terminated by ','
location '/gaokao/ods_school';select count(1) from ods_school ;
select * from ods_school limit 1;
select label from ods_school limit 1;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/771472.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Flask】用户身份认证

Flask 用户身份认证 项目代码见:GitHub - euansu123/FlaskMarket 前提条件 # flask-bcrypt 用户密码加密存储 pip install flask_bcrypt -i https://pypi.tuna.tsinghua.edu.cn/simple/ # flask提供的用户登录方法 pip install flask_login -i https://pypi.tuna…

Camtasia2024永久免费专业的屏幕录制和视频剪辑软件

Camtasia2024专业的屏幕录制和视频剪辑软件,3000多万专业人士在全球范围内使用Camtasia展示产品,教授课程,培训他人,以更快的速度和更吸引人的方式进行沟通和屏幕分享。使您在Windows和Mac上进行录屏和剪辑创作专业外观的视频变得…

旺店通·企业版和金蝶云星空接口打通对接实战

旺店通企业版和金蝶云星空接口打通对接实战 ​​ ​​ 对接系统:旺店通企业版 旺店通是北京掌上先机网络科技有限公司旗下品牌,国内的零售云服务提供商,基于云计算SaaS服务模式,以体系化解决方案,助力零售企业数字化…

2024-2028年中国丙二醇乙醚(PE)市场行情监测及未来发展前景研究报告

丙二醇乙醚(PE)又称1-乙氧基-2-丙醇,化学式为C5H12O2,是一种有机化合物。丙二醇乙醚外观呈无色透明液体,微含醚气味,能与水和多数有机溶剂混溶,微溶于乙酸乙酯和氯仿。丙二醇乙醚具有吸湿性、挥…

蓝桥杯刷题(十四)

1.小平方 代码 n int(input()) count0 def f(x)->bool: # 判断条件return True if x**2%n<n/2 else False for i in range(1,n): # 遍历[1,n-1]&#xff0c;符合题意计数加一if f(i):count1 print(count)2.3的倍数 代码 a int(input()) b int(input()) c int(input…

QT环境搭建

学习QT 一、QT环境搭建二、QT的SDK下载三、认识QT SDK 中自带的一些程序 一、QT环境搭建 QT开发环境&#xff0c;需要安装三个部分。 c编译器&#xff08;gcc、cl.exe……不是visual studio&#xff09;QT SDK&#xff08;QT SDK里面已经内置了C编译器&#xff1b;SDK就是软件…

C++算法知识总结

算法知识总结 1 算法竞赛常用函数及算法2 前缀和以及差分模板3 区间更新前缀和差分实战4 双指针模板4 二分答案5 高精度6 快速幂及链式前向星7 区间最大值/最小值8 异或运算9 回溯、取模、日期计算10 DFS基础11 DFS剪枝12 DFS遍历连通图13 位运算14 记忆化搜索15 动态规划及前…

2024 年广西职业院校技能大赛高职组《云计算应用》赛项赛题第 4 套

#需要资源或有问题的&#xff0c;可私博主&#xff01;&#xff01;&#xff01; #需要资源或有问题的&#xff0c;可私博主&#xff01;&#xff01;&#xff01; #需要资源或有问题的&#xff0c;可私博主&#xff01;&#xff01;&#xff01; 某企业根据自身业务需求&…

Android源码阅读WorkMangaer - 4

前言 由于笔者目前水平限制&#xff0c;表达能力有限&#xff0c;尽请见谅。 WorkManager 是 Android Jetpack 库的一部分&#xff0c;提供了一种向后兼容的方式来安排可延迟的异步任务&#xff0c;这些任务即使在应用退出或设备重启后也应该继续执行&#xff0c;它是 Androi…

Java中 List 集合,通过 Stream 流进行排序总结

一、数据准备 public class OrderTest {private String channelCode;private BigDecimal rate;// 省略 getter、setter、toString()、constructor }List<OrderTest> orderTestList new ArrayList<>();OrderTest z09 new OrderTest("Z09", new BigDeci…

C++细节

背景知识&#xff1a; 面向对象的编程中&#xff0c;类&#xff08;Class&#xff09;是创建对象的蓝图或模板&#xff0c;它包含了数据&#xff08;通常称为属性或变量&#xff09;和行为&#xff08;通常称为方法或函数&#xff09;。将数据封装为私有&#xff08;private&am…

VUE之首次加载项目缓慢

最近公司有个大型的项目&#xff0c;使用vue2开发的&#xff0c;但是最终开发完成之后&#xff0c;项目发布到线上&#xff0c;首次加载项目特别缓慢&#xff0c;有时候至少三十秒才能加载完成&#xff0c;加载太慢了&#xff0c;太影响用户体验了&#xff0c;最近研究了一下优…

tcp和udp分别是什么?udp和tcp的区别

TCP和UDP是计算机网络中常见的两种传输层协议&#xff0c;它们在实际应用中具有不同的特点和用途。本文将对TCP和UDP进行介绍&#xff0c;并分析它们之间的区别。 TCP和UDP分别是什么&#xff1f; TCP&#xff08;Transmission Control Protocol&#xff09; TCP是一种面向连…

架构整洁之道-读书总结

1 概述 1.1 关于本书 《架构整洁之道》&#xff08;Clean Architecture: A Craftsman’s Guide to Software Structure and Design&#xff09;是由著名的软件工程师Robert C. Martin&#xff08;又称为Uncle Bob&#xff09;所著。这本书提供了软件开发和架构设计的指导原则…

绘图技巧 | 双变量映射地图可视化绘制方法

本期推文我们绘制不常见的双变量主题地图&#xff0c;该类地图可以很好的在地图上用颜色展示两个变量的信息&#xff0c;相较于单一变量映射地图&#xff0c;此类地图表达的信息更加丰富和全面。本期推文主要涉及的内容如下&#xff1a; 双变量映射地图(Bivariate Choropleth M…

PPT录制视频保存在哪?我来告诉你答案

在如今的信息化时代&#xff0c;ppt已经成为了工作中必不可少的工具。而ppt录制视频能够更好地展示ppt内容&#xff0c;方便观众随时随地观看。可是很多人不知道ppt录制视频保存在哪&#xff0c;本文将为您介绍ppt录制视频的保存位置&#xff0c;为读者提供关于ppt录屏的实用技…

[Linux]知识整理(持续更新)

前言 Linux的目录结构 Linux的目录结构是一个树型结构 Windows 系统可以拥有多个盘符, 如 C盘、D盘、E盘 Linux没有盘符这个概念, 只有一个根目录 /, 所有文件都在它下面 Linux路径的描述方式 第一章 基本命令 命令格式 例:ls –la /etc 说明: 1)个别命令使用不遵循…

ELMOS

where L W o L_{Wo} LWo​() is the o-th softmax classifer&#xff0c; L U o L_{Uo} LUo​() is the o-th projector 辅助信息 作者未提供代码

16:00面试,16:06就出来了,问的问题有点变态。。。

从小厂出来&#xff0c;没想到在另一家公司又寄了。 到这家公司开始上班&#xff0c;加班是每天必不可少的&#xff0c;看在钱给的比较多的份上&#xff0c;就不太计较了。没想到8月一纸通知&#xff0c;所有人不准加班&#xff0c;加班费不仅没有了&#xff0c;薪资还要降40%…

使用LLaVA模型实现以文搜图和以图搜图

本文将会详细介绍如何使用多模态模型——LLaVA模型来实现以文搜图和以图搜图的功能。本文仅为示例Demo&#xff0c;并不能代表实际的以文搜图和以图搜图的技术实现方案。 1、实现原理 使用多模态模型获取图片的标题和详细描述以文搜图功能&#xff1a;使用ES实现查询匹配&…