任务3.8.2 利用RDD计算总分与平均分

实战:使用RDD 计算学生成绩的总分与平均分

项目背景

本项目旨在利用 Apache Spark 的强大数据处理能力,对存储在 HDFS 上的学生成绩文件进行处理,计算每个学生的总分和平均分。

项目目标
  • 读取存储在 HDFS 上的成绩文件。
  • 计算每个学生的总分。
  • 计算每个学生的平均分。
  • 将结果输出到控制台和 HDFS 的指定目录。
实现步骤
  1. 环境准备

    • 启动 Spark Shell 或设置 Spark 项目。
    • 确保 HDFS 环境配置正确,可以访问数据。
  2. 数据准备

    • 在本地创建成绩文件 scores.txt
    • 将文件上传到 HDFS 的 /scoresumavg/input 目录。
  3. 数据处理

    • 使用 Spark 的 textFile 方法读取 HDFS 上的成绩文件,生成 RDD。
    • 将每行数据解析为学生姓名和成绩列表,并将成绩转换为整数类型。
  4. 计算总分

    • 使用 map 将每行数据转换为多个键值对,其中键为学生姓名,值为成绩。
    • 使用 reduceByKey 方法对每个学生的成绩进行求和,得到总分。
  5. 计算平均分

    • 由于每行数据包含相同数量的成绩,可以直接将总分除以成绩数量得到平均分。
    • 使用 map 方法对每个学生的总分应用平均分计算公式。
  6. 结果输出

    • 使用 collect 方法将计算结果收集到驱动程序,并打印到控制台。
    • 使用 saveAsTextFile 方法将结果保存到 HDFS 的 /scoresumavg/output 目录。
技术要点
  • 熟悉 Spark 的 RDD 操作,包括 textFilemapreduceByKeycollectsaveAsTextFile
  • 理解 Spark 的行动(action)和转换(transformation)操作。
  • 掌握如何在 Spark 中处理和转换数据。
遇到的问题与解决方案
  • 问题:在处理大数据集时,collect 操作可能导致驱动程序内存不足。
    解决方案:尽量避免使用 collect,改用其他行动操作如 saveAsTextFile

  • 问题:原始数据中可能存在格式错误或无效的成绩数据。
    解决方案:在数据处理阶段添加数据验证和清洗步骤。

项目成果
  • 成功实现了一个 Spark 应用程序,用于计算学生成绩的总分和平均分。
  • 通过实战加深了对 Spark 数据处理流程的理解。
  • 学会了如何在 Spark 中处理实际的大数据问题。
总结与反思

本项目通过实践加深了对 Apache Spark 的认识,特别是在数据处理和 RDD 操作方面。项目过程中遇到的问题和解决方案为未来处理类似任务提供了宝贵的经验。未来可以探索更高效的数据处理方法和优化 Spark 应用程序的性能。

后续建议
  • 对项目进行性能优化,考虑使用 Spark 的更高级特性,如广播变量或累加器。
  • 探索使用 Spark SQL 或 DataFrame API 来简化数据处理流程。
  • 增加异常处理和日志记录,提高程序的健壮性和可维护性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26414.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL 触发器(实验报告)

一、实验名称: 触发器 二、实验日期: 2024 年 6月 8日 三、实验目的: 掌握MySQL触发器的创建及调用; 四、实验用的仪器和材料: 硬件:PC电脑一台; 配置:内存,…

学习笔记丨嵌入式BI分析的12个关键功能

编者注:以下内容节选编译自嵌入式分析厂商Qrvey发表的《What is Embedded Analytics?》(什么是嵌入式分析)一文,作者为Qrvey产品市场主管Brian Dreyer。 什么是嵌入式分析? 嵌入式分析是指能够将数据分析的特性和功…

编程里len是什么意思:深度解析与应用探讨

编程里len是什么意思:深度解析与应用探讨 在编程的世界中,每一个函数和操作符都承载着特定的意义和功能。其中,len 作为一个常见的函数,在多种编程语言中都扮演着重要的角色。那么,len 到底是什么意思呢?本…

用ChatGPT 4o画漂亮的燃尽图代码

把代码给ChatGPT,然后他就会帮我生成出来了。 而且图是动态的,可以调整颜色文字之类的内容 # Given data for Sprint 5 Progress data_sprint_5 {User Story: [BEAN-40, BEAN-42, BEAN-41, BEAN-22, BEAN-33, BEAN-44, BEAN-10, BEAN-26, BEAN-37, BEA…

【SQL边干边学系列】07高级问题-3

文章目录 前言回顾高级问题41.逾期订单42.逾期订单-哪些员工?43.逾期订单与总订单相比44.逾期订单与总订单相比 - 丢失的员工45.逾期订单与总订单相比 - 修复null46.逾期订单与总订单之间的百分比47.逾期订单与总订单相比 - 修正decimal 答案41.逾期订单42.逾期订单…

一文了解localStorage 和 sessionStorage

文章导读:AI 辅助学习前端,包含入门、进阶、高级部分前端系列内容,当前是 JavaScript 的部分,瑶琴会持续更新,适合零基础的朋友,已有前端工作经验的可以不看,也可以当作基础知识回顾。 这篇文章…

Linux - 复盘一次句柄数引发的故障

文章目录 Pre(内核、用户、进程)句柄数设置问题 shell修复 Pre Linux - 深入理解/proc虚拟文件系统:从基础到高级 (内核、用户、进程)句柄数设置 在Linux系统中,进程打开的最大句柄数可以通过多种方式配置…

第二证券:大牛股连续七跌停,上市公司坐不住了!机构抄底

6月12日,沪深股市双双飘红。但是,从前的大牛股松炀资源(603863),却依然跌停收盘。这也是公司股价近日来的接连第七个跌停板。 龙虎榜显现,6月12日,松炀资源全天换手率10.38%,成交额3.45亿元。当天&#xf…

沉降观测点的定义、重要性、建设与选择

沉降观测点,简称沉降点,是指在建筑物、构筑物或地基等结构物上设置的用于测量其垂直位移(沉降)的特定位置。这些点通常被标记并安装相应的监测设备,以便长期、连续地监测结构物的沉降情况。 点击输入图片描述(最多30字&#xff09…

炒股的另外一种思路

曾经偶然机会,买了 h 一只股票放了七年左右,不多但是让我看到另外一种投资方法 整个经济中,有些公司是你想去但是可能没机会去的,行业也比较看好,那就选择买他们家股票,因为大概率他们是赢取了市场平均收益…

python接入汇率换算工具提高网站/小程序日活度

实时汇率换算工具可以帮助用户快速准确地计算不同货币之间最新的汇兑比例。无论是金融从业者或者是人们日常生活出行都会使用到,广泛用于国际结算、银行汇率查询应用、开展跨国贸易、投资等参考场景。 我们可以通过在网站或者小程序中接入这样一个小工具&#xff0…

【Ardiuno】实验ESP32单片机自动配置Wifi功能(图文)

这里小飞鱼按照ESP32的示例代码,实验一下wifi的自动配置功能。所谓的自动配置,就是不用提前将wifi的名称和密码写到程序里,这样可以保证程序在烧录上传后,可以通过手机端的软件来进行配置,可以避免反复修改代码&#x…

ChromeOS 逐渐靠近安卓

ChromeOS 逐渐 “安卓化” 谷歌在博客中透露,将在ChromeOS底层更广泛地使用和Android相同的技术栈。一个具体的例子是,ChromeOS现在已经开始使用Android的蓝牙协议栈,取代了之前使用的自己的协议栈。这次改变不仅提高了蓝牙配对速度&#xf…

什么是Rademacher复杂度(Rademacher Complexity)

Rademacher复杂度(Rademacher Complexity)是在学习理论中用于衡量函数类复杂度的一种工具,特别是在评估机器学习模型泛化能力时。它提供了一种量化学习算法可能过拟合数据的程度的方法。Rademacher复杂度定义了函数类在给定数据集上的随机化复…

Postman下发流表至Opendaylight

目录 任务目的 任务内容 实验原理 实验环境 实验过程 1、打开ODL控制器 2、网页端打开ODL控制页面 3、创建拓扑 4、Postman中查看交换机的信息 5、L2层流表下发 6、L3层流表下发 7、L4层流表下发 任务目的 1、掌握OpenFlow流表相关知识,理解SDN网络中L…

【vue-8】记事本案例

小知识点&#xff1a; 列表末尾插入数据&#xff1a; list.push("lihua") 列表删除数据&#xff1a; # index要删除数据的索引值&#xff0c;1为删除数据长度 list.splice(index,1) 完整示例代码&#xff1a; <!DOCTYPE html> <html lang"en&quo…

Oracle数据库查询常用语句

Oracle数据库查询常用语句 文章目录 Oracle数据库查询常用语句一、时间查询1、查询当天得数据 二、 一、时间查询 1、查询当天得数据 1、字段名为PLAN_DAY&#xff0c;字段类型为DATE 使用SYSDATE函数来获取当前日期&#xff0c;并且使用比较运算符来过滤出当天的记录。Oracle…

R语言ggHoriPlot包绘制地平线图

数据和代码获取&#xff1a;请查看主页个人信息&#xff01;&#xff01;&#xff01; 关键词“地平线图” 1. 数据读取与处理 首先&#xff0c;从TSV文件中读取数据&#xff0c;并进行数据清洗和处理。 rm(listls()) pacman::p_load(tidyverse,ggalt,ggHoriPlot,hrbrthemes…

教程:A5000 GPU 上运行阿里最新开源大模型 Qwen2

这是我们新一篇关于大模型的文章&#xff0c;我们此前还讲过如何运行 LLama3 大模型。而这次&#xff0c;我们将使用 Ollama 运行阿里千问Qwen2:7b。要知道 Qwen2 可是目前最热门的开源大语言模型了&#xff0c;甚至在一些性能测试中比 LLama3 表现还突出。谁不想试试看呢&…

创建FileInputStream对象不使用filePath,而是用字节流数组,怎么改

改之前 fileInputStream new FileInputStream(new File(filePath)); fileReader new PdfReader(fileInputStream); fileDocunment new PdfDocument(fileReader);改之后 如果你有一个字节流数组&#xff08;byte array&#xff09;而不是文件的路径&#xff0c;并且你想要使…