河北省大数据应用创新大赛样题

**

河北省大数据应用创新大赛样题

**
1. 在Linux下安装Java并搭建完全分布式Hadoop集群。在Linux终端执行命令“initnetwork”,或双击桌面上名称为“初始化网络”的图标,初始化实训平台网络。
【数据获取】
使用wget命令获取JDK安装包:
“wget -P /data http://house.tipdm.com/SZ-Competition/jdk-8u281-linux-x64.rpm”
使用wget命令获取Hadoop安装包:
“wget -P /data http://house.tipdm.com/SZ-Competition/hadoop-3.1.4.tar.gz”
使用wget命令获取yarn-site.xml:
“wget -P /data http://house.tipdm.com/SZ-Competition/yarn-site.xml”
(运行引号中的所有代码可将数据上传到实训平台)
【文件读取路径】
“/data/jdk-8u281-linux-x64.rpm”
“/data/hadoop-3.1.4.tar.gz”
“/data/yarn-site.xml”
【答案提交】
根据赛题提供的“问题1答案报告(模拟试题).docx”文档,将最终答案的实现命令、运行截图整理入文档,并以“手机号+问题1”命名进行提交,如“XXX+问题1”文件名。31分
(1)在master节点下,执行命令安装JDK1.8。对安装进度100%的结果进行截图。1分
(2)编辑“/etc/profile”文件,添加Java的环境变量,并且使配置生效。对添加至“/etc/profile”文件的内容进行截图。1分
(3)将JDK安装包发送至slave1与slave2节点,在slave1与slave2节点下安装JDK并且配置Java的环境变量并使配置生效。对slave1与slave2节点下添加至“/etc/profile”文件的内容进行截图。2分
(4)在master、slave1和slave2三个节点分别执行“java -version”,验证JDK安装成功并对master、slave1和slave2三个节点的输出结果进行截图。1分
(5)在master节点下,解压Hadoop安装包至“/usr/local”目录。解压后使用命令“ll /usr/local/”并对命令运行结果进行截图。1分
(6)在master节点下,进入“/usr/local/hadoop-3.1.4/etc/hadoop/”路径,修改Hadoop配置文件“core-site.xml”,设置HDFS的默认地址与端口(fs.defaultFS),设置HDFS的临时路径(hadoop.tmp.dir),对配置完成后的“core-site.xml”文件内容进行截图。2分
(7)在master节点下,修改Hadoop运行环境配置文件“hadoop-env.sh”以及YARN框架运行环境配置文件“yarn-env.sh”,添加Java的环境变量,并设置使用HDFS以及YARN框架的用户为root。分别对配置完成后的“hadoop-env.sh”和“yarn-env.sh”文件的内容进行截图。2分
(8)在master节点下,修改HDFS配置文件“hdfs-site.xml”,设置Namenode数据存储的路径(dfs.namenode.name.dir)以及Datanode数据存储的路径(dfs.datanode.data.dir),设置HDFS文件块的副本数(dfs.replication)为2。对配置完成后的“hdfs-site.xml”文件内容进行截图。3分
(9)在master节点下,修改MapReduce配置文件“mapred-site.xml”,设置执行MapReduce作业的框架(mapreduce.framework.name)为YARN,设置MR App Master的环境变量(yarn.app.mapreduce.am.env、mapreduce.map.env和mapreduce.reduce.env),以及设置MapReduce作业所需的类路径CLASSPATH(mapreduce.application.classpath)。对配置完成后的“mapred-site.xml”文件内容进行截图。5分
(10)在master节点下,获取已完整配置的“yarn-site.xml”,复制到Hadoop对应的配置文件目录并替换。替换完成后打开“yarn-site.xml”对文件内容进行截图。1分
(11)在master节点下,修改workers文件,设置为slave1与slave2。对workers的文件内容进行截图。2分
(12)发送master中的Hadoop至slave1与slave2节点。发送成功后分别在slave1与slave2节点上执行“ll /usr/local/”,并对命令的运行结果进行截图。2分
(13)在三个节点的“/etc/profile”添加Hadoop路径(HADOOP_HOME),并且使配置生效。对master、slave1、slave2三个节点添加至“/etc/profile”的内容进行截图。1分
(14)格式化NameNode并启动Hadoop集群(包括HDFS、YARN和historyserver)。对格式化NameNode的结果进行截图(即显示“successfully formatted”字样),并且对启动Hadoop集群的命令执行结果进行截图。3分
(15)在master、slave1和slave2三个节点分别执行“jps”,验证Hadoop集群启动成功并且对master、slave1和slave2三个节点的输出结果进行截图。3分
附件 问题1答案报告(模拟试题).docx
进入实训环境
你的答案:
上传答案附件
2.请依据题目要求运用Python语言采集二手房网址的房源信息,其网址为“http://house.tipdm.com/spider/fyxx/index.html”。
【答案提交】
提交代码文件(.ipynb格式文件)和采集数据(result2_1.xlsx和result2_2.xlsx)。文件使用压缩包的形式上传,并以“手机号+问题2”命名,如“XXX+问题2”文件名。
注:为确保拿到相应分数,请务必提交采集数据result2_1.xlsx和result2_2.xlsx。20分
(1)解析二手房网址,采集前15页(包含第15页)二手房具体房源信息网址,并将采集结果存于Excel文件,保存路径设定为“/data/result2_1.xlsx”,编码格式为“utf-8”。
6分
(2)采集二手房信息的标题、户型、朝向、楼层、区域、单价和总价,其中单价和总价不含价格单位,如总价信息为“45”,并将采集数据整理为DataFrame数据框形式。
12分
(3)将数据以“[‘标题’,‘户型’,‘朝向’,‘楼层’,‘区域’, ‘单价’,‘总价’]”中文名称设定列名,最终将数据保存为Excel文件,保存路径设定为“/data/result2_2.xlsx”,编码格式为“utf-8”。2分
进入实训环境
你的答案:
上传答案附件
3.基于二手房房价数据,根据题目要求运用Python语言的数据分析知识对数据进行清洗与挖掘。(文件名及路径为“/data/SecondhandHouseV3.csv”)
【数据获取】
①使用wget命令获取SecondhandHouseV3.csv:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouseV3.csv”
(运行引号中的所有代码可将数据上传到实训平台)
方法②下载题目附件中的数据,上传到实训平台中
【文件读取路径】
“/data/SecondhandHouseV3.csv”
【答案提交】
提交代码文件(.ipynb格式文件)和处理后的二手房屋数据(result3.csv)。文件使用压缩包的形式上传,并以“手机号+问题3”命名,如“XXX+问题3”文件名。
注:为确保拿到相应分数,请务必提交处理后的二手房屋数据result3.csv。20分
(1)删除数据中含有“暂无”字符与缺失值(NAN)的行数据。4分
(2)对完全重复的行数据进行删除,只保留第一次出现的重复行数据。3分
(3)删除“总价”列的价格单位“万”,仅保留数值,并将其数据类型转换为浮点型。4分
(4)删除“总价”列数值大于200的行数据。2分
(5)将“区域”列中的“城关区”改为“城关”。2分
(6)删除“户型”、“建筑年代”和“住宅类别”列。3分
(7)完成上述步骤后,将处理后的二手房屋数据保存为CSV文件,保存路径设定为“/data/result3.csv”,编码格式为“utf-8”。2分
附件 SecondhandHouseV3.csv
进入实训环境
你的答案:
上传答案附件
4.基于二手房房价数据,根据题目要求运用数据挖掘与可视化知识对数据进行统计与基本图形绘制。(文件名及路径为“/data/SecondhandHouse_view.csv”)
【数据获取】
方法①使用wget代码获取数据:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_view.csv”
(运行引号中的所有代码可将数据上传到实训平台)
方法②下载题目附件中的数据,上传到实训平台中
【文件读取路径】
“/data/SecondhandHouse_view.csv”
【答案提交】
根据赛题提供的“问题4答案报告(模拟试题).docx”文档,将最终答案的结果图(统计结果+可视化绘图结果)整理入文档,以“手机号+问题4”命名,如“XXX+问题4”文件名,并提交代码文件(.ipynb格式文件),文件使用压缩包的形式上传,并以“手机号+问题4”命名,如“XXX+问题4”文件名15分
(1)绘制不同装修程度的二手房存量分布环形图:统计不同装修程度的二手房数量;根据统计数据,设定环形图展示百分比(autopct),其中百分比保留小数点后1位(如12.3%);展示环形图的图例,指定图例位于左上角。4分
(2)根据“单价=总价/建筑面积”公式,计算二手房单价,运用分组聚合操作,对“房龄”进行分组,统计各分组“总价”列和二手房单价的平均值,并按照房龄进行排序(从小到大),展示前3行,对展示结果进行截图。3分
(3)根据题(2)统计结果,绘制二手房不同房龄的平均房价和单价折线图:将画布分成2行1列的2个子图,子图1绘制不同房龄的平均房价折线图,子图2绘制不同房龄的平均单价折线图;设定x轴和y轴标题;设定x轴刻度标签(xticks)为具体的房龄数值区间。8分
附件 问题四数据及提交模板.zip
进入实训环境
你的答案:
上传答案附件
5.基于二手房房价数据,根据题目要求运用机器学习知识实现数据建模与评估。
(文件名及路径为“/data/SecondhandHouse_train.csv”)

【数据获取】
方法①使用wget代码获取数据:
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_train.csv”
“!wget -P /data http://house.tipdm.com/SZ-Competition/SecondhandHouse_test.csv”
(运行引号中的所有代码可将数据上传到实训平台)
方法②下载题目附件中的数据,上传到实训平台中
【文件读取路径】
“/data/SecondhandHouse_train.csv”
“/data/SecondhandHouse_test.csv”
【答案提交】
最终答案需提交代码文件(.ipynb格式文件)和结果数据(result5_1.csv和result5_2.csv),文件使用压缩包的形式上传,并以“手机号+问题5”命名,如“XXX+问题5”文件名。15分
(1)特征编码:将“SecondhandHouse_train.csv”数据的“朝向”、“楼层”、“装修”、“电梯”、“产权性质”、“建筑结构”、“建筑类别”、“区域”和“学校”9列数据的类型由字符型转化为数值型,如“电梯”列,原{‘有’,‘无’}转化为{1,0}。特征编码后的数据保存为CSV文件,保存路径设定为“/data/result5_1.csv”,编码格式为“utf-8”。9分
(2)模型训练与评估:使用sklearn估计器构建回归模型,使用最优模型预测“SecondhandHouse_test.csv”数据总价,提取“id”列和预测的“总价”列,并将提取结果保存为CSV文件,保存路径设定为“/data/result5_2.csv”,编码格式为“utf-8”。6分
附件 问题五数据.zip
进入实训环境
你的答案:
上传答案附件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/80466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据可视化-21】水质安全数据可视化:探索化学物质与水质安全的关联

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

DC-2寻找Flag1、2、3、4、5,wpscan爆破、git提权

一、信息收集 1、主机探测 arp-scan -l 探测同网段2、端口扫描 nmap -sS -sV 192.168.66.136 80/tcp open http Apache httpd 2.4.10 ((Debian)) 7744/tcp open ssh OpenSSH 6.7p1 Debian 5deb8u7 (protocol 2.0)这里是扫描出来两个端口,80和ssh&…

SQLMesh 表格对比指南:深入理解 table_diff 工具的实际应用

在数据集成和转换过程中,确保数据模型的一致性和准确性至关重要。SQLMesh 提供了一个强大的 table_diff 工具,可以帮助用户比较 SQLMesh 模型或数据库表/视图的架构和数据。本文将通过具体示例详细说明如何使用 table_diff 工具进行跨环境比较和直接比较…

重构智能场景:艾博连携手智谱,共拓智能座舱AI应用新范式

2025年4月24日,智能座舱领域创新企业艾博连科技与国产大模型独角兽智谱,在上海国际车展艾博连会客厅签署合作协议。双方宣布将深度整合智谱在AI大模型领域的技术积淀与艾博连在汽车智能座舱场景的落地经验,共同推进下一代"有温度、懂需求…

vscode flutter 插件, vscode运行安卓项目,.gradle 路径配置

Flutter Flutter Widget Snippets Awesome Flutter Snippets i dart-import Dart Data Class Generator Json to Dart Model Dart Getters And Setter GetX Snippets GetX Generator GetX Generator for Flutter flutter-img-syncvscode运行安卓项目,.gradle 路径配…

Parasoft C++Test软件单元测试_对函数打桩的详细介绍

系列文章目录 Parasoft C++Test软件静态分析:操作指南(编码规范、质量度量)、常见问题及处理 Parasoft C++Test软件单元测试:操作指南、实例讲解、常见问题及处理 Parasoft C++Test软件集成测试:操作指南、实例讲解、常见问题及处理 进阶扩展:自动生成静态分析文档、自动…

c# TI BQFS文件格式详解及C#转换

FlashStream文件格式详解及C#转换 一、FlashStream文件格式详细解读 文件概述 FlashStream文件是TI用于配置电池电量计的文本文件格式,主要特点: • 纯文本格式,使用ASCII字符• 每行一条指令 • 分号(;)开头的行为注释 • 主要包含三种指令类型:写命令、比较命令和延时…

k8s中pod报错 FailedCreatePodSandBox

问题现象: 创建容器时出现一下情况 而且删掉控制器的时候pod还会卡住 解决: 将calico的pod重新删掉。其中有1个控制器pod以及3个node pod 删掉后,大概10来秒就重新创建完成了。 然后现在在使用kubectl apply -f 文件.yaml 就可以正常创…

分布式事务 两阶段提交协议(2PC的原理、挑战)

引言:分布式事务的挑战 在分布式系统中,数据和服务往往分布在多个节点上。例如,一个电商下单操作可能涉及订单服务、库存服务和支付服务,这三个服务需要协同完成一个事务:要么全部成功,要么全部失败。这种…

Jenkins Pipeline 构建 CI/CD 流程

文章目录 jenkins 安装jenkins 配置jenkins 快速上手在 jenkins 中创建一个新的 Pipeline 作业配置Pipeline运行 Pipeline 作业 Pipeline概述Declarative PipelineScripted Pipeline jenkins 安装 安装环境: Linux CentOS 10:Linux CentOS9安装配置Jav…

【CF】Day43——Codeforces Round 906 (Div. 2) E1

E1. Doremys Drying Plan (Easy Version) 题目: 思路: very好题,加深对扫描线的应用,值得深思 由于k 2,那我们就可以使用简单一点的方法来写 题目可以转化为:给定n个线段,现在让你删去2条线段…

电子设备的“记忆大脑”:NAND、NOR、EEPROM谁在掌控你的数据?

大家好,我是硅言。存储芯片是电子设备的“记忆大脑”,未进入存储行业工作之前,一听到NAND、NOR、EEPROM这些专业名词就头大。本文用通俗的语言,带大家了解这三种常见存储芯片的核心区别和应用场景。 一、存储芯片的“门派”&#…

可视化程序设计|| 实验三:C#面向对象编程(二)

一、实验目的 1.加深理解面向对象编程的概念,如类、对象、实例化等。 2.熟练掌握类的封装、继承和多态机制。 3.掌握编程常用的几种排序算法。 4.理解异常的产生过程和异常处理的概念,掌握C#异常处理的方法。 5.能够将面向对象思想应用与编程实践&a…

STM32MPU开发之旅:从零开始构建嵌入式Linux镜像

前言 在工业4.0与边缘计算深度融合的今天,STM32MP257F作为意法半导体第二代工业级64位微处理器的旗舰产品,凭借异构计算架构、1.35 TOPS边缘AI算力和军工级安全特性,已成为工业自动化、机器视觉和新能源控制等领域的标杆方案。 性能跃迁的异…

大模型应用开发(PAFR)

Prompt问答 特征:利用大模型推理能力完成应用的核心功能 应用场景: 文本摘要分析 舆情分析 坐席检查 AI对话 AgentFunction Calling 特征:将应用端业务能力与AI大模型推理能力结合,简化复杂业务功能开发 应用场景: 旅行指南 数据…

SpringClound 微服务分布式Nacos学习笔记

一、基本概述 在实际项目中,选择哪种架构需要根据具体的需求、团队能力和技术栈等因素综合考虑。 单体架构(Monolithic Architecture) 单体架构是一种传统的软件架构风格,将整个应用程序构建为一个单一的、不可分割的单元。在这…

WebRTC服务器Coturn服务器用户管理和安全性

1、概述 Coturn服务器对用户管理和安全方面也做了很多的措施,以下会介绍到用户方面的设置 1.1、相关术语 1.1.1 realm 在 coturn 服务器中,域(realm)是一种逻辑上的分组概念,用于对不同的用户群体、应用或者服务进行区…

基于opencv和PaddleOCR识别身份证信息

1、安装组件 pip install --upgrade paddlepaddle paddleocr 2、完整code import cv2 import numpy as np from paddleocr import PaddleOCR# 初始化 PaddleOCR use_angle_clsTrue, lang"ch", det_db_thresh0.1, det_db_box_thresh0.5)def preprocess_image(image…

【6】GD32 高级通信外设 CAN、USBD

高级通信外设:CAN、USBD CAN CAN简介、主要功能与相关API回环模式收发发送特定ID的数据帧实验CAN数据帧的接收实验使用过滤器接收特定的数据帧 USBD USB通信简介USBD设备固件库架构、分层文件与库函数说明USBD模拟键盘应用USBD虚拟串口应用USBD模拟U盘应用

【LLM+Code】Windsurf Agent 模式PromptTools详细解读

一、前言 https://windsurf.com/ https://windsurf.com/blog/why-we-built-windsurf https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools/tree/main/Windsurf 二、System Prompt 相比于cursor和claude code, windsurf的system prompt非常长&am…